搜尋引擎

搜尋引擎

搜尋引擎指自動從網際網路蒐集信息,經過一定整理以後,提供給用戶進行查詢的系統。網際網路上的信息浩瀚萬千,而且毫無秩序,所有的信息像汪洋上的一個個小島,網頁連結是這些小島之間縱橫交錯的橋樑,而搜尋引擎,則為用戶繪製一幅一目了然的信息地圖,供用戶隨時查閱。它們從網際網路提取各個網站的信息(以網頁文字為主),建立起資料庫,並能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結果。

  • 中文名
    搜尋引擎
  • 外文名
    searchengine
  • 分類
    全文索引、目錄索引等
  • 代表
    百度、谷歌、yahoo’等

種類劃分

全文索引

​全文搜尋引擎是目前廣泛套用的主流搜尋引擎,國外代表搜尋是Google,國內則有最大中文搜尋百度。它們從網際網路提取各個網站的信息(以網頁文字為主),建立起資料庫,並能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結果。

搜尋引擎

根據搜尋結果來源的不同,全文搜尋引擎可分為兩類,一類擁有自己的檢索程式(Indexer),俗稱“蜘蛛”(Spider)程式或“機器人”(Robot)程式,能自建網頁資料庫,搜尋結果直接從自身的資料庫中調用,上面提到的Google和360搜尋就屬於此類;另一類則是租用其他搜尋引擎的資料庫,並按自定的格式排列搜尋結果,如Lycos搜尋引擎。

在搜尋引擎分類部分提到過全文搜尋引擎從網站提取信息建立網頁資料庫的概念。搜尋引擎的自動信息蒐集功能分兩種。一種是定期搜尋,即每隔一段時間(比如Google一般是28天),搜尋引擎主動派出“蜘蛛”程式,對一定IP位址範圍內的網際網路站進行檢索,一旦發現新的網站,它會自動提取網站的信息和網址加入自己的資料庫。另一種是提交網站搜尋,即網站擁有者主動向搜尋引擎提交網址,它在一定時間內(2天到數月不等)定向向你的網站派出“蜘蛛”程式,掃描你的網站並將有關信息存入資料庫,以備用戶查詢。由於近年來搜尋引擎索引規則發生很大變化,主動提交網址並不保證你的網站能進入搜尋引擎資料庫,目前最好的辦法是多獲得一些外部連結,讓搜尋引擎有更多機會找到你並自動將你的網站收錄。

搜尋引擎

當用戶以關鍵字查找信息時,搜尋引擎會在資料庫中進行搜尋,如果找到與用戶要求內容相符的網站,便採用特殊的算法——通常根據網頁中關鍵字的匹配程度、出現的位置、頻次、連結質量——計算出各網頁的相關度及排名等級,然後根據關聯度高低,按順序將這些網頁連結返回給用戶。這種引擎的特點是搜全率比較高。

目錄索引

目錄索引也稱為:分類檢索,是網際網路上最早提供WWW資源查詢的服務,主要通過蒐集和整理網際網路的資源,根據搜尋到網頁的內容,將其網址分配到相關分類主題目錄的不同層次的類目之下,形成像圖書館目錄一樣的分類樹形結構索引。目錄索引無需輸入任何文字,只要根據網站提供的主題分類目錄,層層點擊進入,便可查到所需的網路信息資源。

雖然有搜尋功能,但嚴格意義上不能稱為真正的搜尋引擎,只是按目錄分類的網站連結列表而已。用戶完全可以按照分類目錄找到所需要的信息,不依靠關鍵字(Keywords)進行查詢。目錄索引中最具代表性的莫過於大名鼎鼎的Yahoo、新浪分類目錄搜尋。

與全文搜尋引擎相比,目錄索引有許多不同之處。

首先,搜尋引擎屬於自動網站檢索,而目錄索引則完全依賴手工操作。用戶提交網站後,目錄編輯人員會親自瀏覽你的網站,然後根據一套自定的評判標準甚至編輯人員的主觀印象,決定是否接納你的網站。其次,搜尋引擎收錄網站時,只要網站本身沒有違反有關的規則,一般都能登錄成功。而目錄索引對網站的要求則高得多,有時即使登錄多次也不一定成功。尤其象Yahoo這樣的超級索引,登錄更是困難。

搜尋引擎

此外,在登錄搜尋引擎時,我們一般不用考慮網站的分類問題,而登錄目錄索引時則必須將網站放在一個最合適的目錄(Directory)。

最後,搜尋引擎中各網站的有關信息都是從用戶網頁中自動提取的,所以從用戶的角度看,我們擁有更多的自主權;而目錄索引則要求必須手工另外填寫網站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認為你提交網站的目錄、網站信息不合適,他可以隨時對其進行調整,當然事先是不會和你商量的。

目錄索引,顧名思義就是將網站分門別類地存放在相應的目錄中,因此用戶在查詢信息時,可選擇關鍵字搜尋,也可按分類目錄逐層查找。如以關鍵字搜尋,返回的結果跟搜尋引擎一樣,也是根據信息關聯程度排列網站,只不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網站的排名則是由標題字母的先後順序決定(也有例外)。

目前,搜尋引擎與目錄索引有相互融合滲透的趨勢。原來一些純粹的全文搜尋引擎現在也提供目錄搜尋,如Google就借用Open Directory目錄提供分類查詢。而象 Yahoo! 這些老牌目錄索引則通過與Google等搜尋引擎合作擴大搜尋範圍(注)。在默認搜尋模式下,一些目錄類搜尋引擎首先返回的是自己目錄中匹配的網站,如中國的搜狐、新浪、網易等;而另外一些則默認的是網頁搜尋,如Yahoo。這種引擎的特點是找的準確率比較高。

搜尋引擎與目錄索引有相互融合滲透的趨勢。一些純粹的全文搜尋引擎也提供目錄搜尋,如Google就借用Open Directory目錄提供分類查詢。而像Yahoo! ;這些老牌目錄索引則通過與Google等搜尋引擎合作擴大搜尋範圍(注)。在默認搜尋模式下,一些目錄類搜尋引擎首先返回的是自己目錄中匹配的網站,如中國的搜狐新浪、網易等;而另外一些則默認的是網頁搜尋,如Yahoo。這種引擎的特點是找的準確率比較高。

元搜尋引擎

元搜尋引擎(META Search Engine)接受用戶查詢請求後,同時在多個搜尋引擎上搜尋,並將結果返回給用戶。著名的元搜尋引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜尋引擎中具代表性的是搜星搜尋引擎。在搜尋結果排列方面,有的直接按來源排列搜尋結果,如Dogpile;有的則按自定的規則將結果重新排列組合,如Vivisimo。

垂直搜尋引擎

垂直搜尋引擎為2006年後逐步興起的一類搜尋引擎。不同於通用的網頁搜尋引擎,垂直搜尋專注於特定的搜尋領域和搜尋需求(例如:機票搜尋、旅遊搜尋、生活搜尋、小說搜尋、視頻搜尋等等),在其特定的搜尋領域有更好的用戶體驗。相比通用搜尋動輒數千台檢索伺服器,垂直搜尋需要的硬體成本低、用戶需求特定、查詢的方式多樣。

集合式搜尋引擎

集合式搜尋引擎:該搜尋引擎類似元搜尋引擎,區別在於它並非同時調用多個搜尋引擎進行搜尋,而是由用戶從提供的若干搜尋引擎中選擇,如HotBot在2002年底推出的搜尋引擎。

門戶搜尋引擎

門戶搜尋引擎:AOLSearch、MSNSearch等雖然提供搜尋服務,但自身既沒有分類目錄也沒有網頁資料庫,其搜尋結果完全來自其他搜尋引擎。

免費連結列表

免費連結列表(Free For All Links簡稱FFA):一般只簡單地滾動連結條目,少部分有簡單的分類目錄,不過規模要比Yahoo!等目錄索引小很多。

工作原理

抓取網頁

每個獨立的搜尋引擎都有自己的網頁抓取程式(spider)。Spider順著網頁中的超連結,連續地抓取網頁。被抓取的網頁被稱之為網頁快照。由於網際網路中超連結的套用很普遍,理論上,從一定範圍的網頁出發,就能蒐集到絕大多數的網頁。

處理網頁

搜尋引擎抓到網頁後,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵字,建立索引檔案。其他還包括去除重複網頁、分詞(中文)、判斷網頁類型、分析超連結、計算網頁的重要度/豐富度等。

提供檢索服務

用戶輸入關鍵字進行檢索,搜尋引擎從索引資料庫中找到匹配該關鍵字的網頁;為了用戶便於判斷,除了網頁標題和URL外,還會提供一段來自網頁的摘要以及其他信息。

發展歷史

網際網路發展早期,以雅虎為代表的網站分類目錄查詢非常流行。網站分類目錄由人工整理維護,精選網際網路上的優秀網站,並簡要描述,分類放置到不同目錄下。用戶查詢時,通過一層層的點擊來查找自己想找的網站。也有人把這種基於目錄的檢索服務網站稱為搜尋引擎,但從嚴格意義上講,它並不是搜尋引擎。

1990年,加拿大麥吉爾大學(University of McGill)計算機學院的師生開發出Archie。當時,全球資訊網(World Wide Web)還沒有出現,人們通過FTP來共享交流資源。Archie能定期蒐集並分析FTP伺服器上的檔案名稱信息,提供查找分別在各個FTP主機中的檔案。用戶必須輸入精確的檔案名稱進行搜尋,Archie告訴用戶哪個FTP伺服器能下載該檔案。雖然Archie蒐集的信息資源不是網頁(HTML檔案),但和搜尋引擎的基本工作方式是一樣的:自動蒐集信息資源、建立索引、提供檢索服務。所以,Archie被公認為現代搜尋引擎的鼻祖。

現在中國已經步入了快速發展的第三階段,由於百度上市後,引發的中國搜尋概念正在紅遍全球。作為網路行銷的助推器,搜尋引擎產業已成功發展出搜尋技術服務、關鍵字廣告、競價排名等幾種搜尋引擎,已成為中國網際網路產業中最引人注目的亮點之一。

起源

所有搜尋引擎的祖先,是1990年由Montreal的McGill University三名學生(Alan Emtage、Peter Deutsch、Bill Wheelan)發明的Archie(Archie FAQ)。Alan Emtage等想到了開發一個可以用檔案名稱查找檔案的系統,於是便有了Archie。Archie是第一個自動索引網際網路上匿名FTP網站檔案的程式,但它還不是真正的搜尋引擎。Archie是一個可搜尋的FTP檔案名稱列表,用戶必須輸入精確的檔案名稱搜尋,然後Archie會告訴用戶哪一個FTP地址可以下載該檔案。 由於Archie深受歡迎,受其啟發,Nevada System Computing Services大學於1993年開發了一個Gopher(Gopher FAQ)搜尋工具Veronica(Veronica FAQ)。Jughead是後來另一個Gopher搜尋工具。

歷史發 展

Excite 的歷史可以上溯到1993年2月,6個Stanford University(史丹福大學)大學生的想法是分析字詞關係,以對網際網路上的大量信息作更有效的檢索。到1993年中,這已是一個完全投資項目,他們還發布了一個供webmasters在自己網站上使用的搜尋軟體版本,後來被叫做Excite for Web Servers。

註:Excite後來曾以概念搜尋聞名,2002年5月,被Infospace收購的Excite停止自己的搜尋引擎,改用元搜尋引擎 Dogpile

收錄發 展

1994年4月,史丹福大學的兩名博士生,美籍華人楊致遠和David Filo共同創辦了Yahoo!。隨著訪問量和收錄連結數的增長,Yahoo目錄開始支持簡單的資料庫搜尋。因為Yahoo!的數據是手工輸入的,所以不能真正被歸為搜尋引擎,事實上只是一個可搜尋的目錄。Yahoo!中收錄的網站,因為都附有簡介信息,所以搜尋效率明顯提高。

註:Yahoo以後陸續有 Altavista、Inktomi、Google提供搜尋引擎服務

Yahoo!--幾乎成為20世紀90年代的網際網路的代名詞。

搜尋引擎發 展

1995年,一種新的搜尋引擎形式出現了——元搜尋引擎(Meta Search Engine)。用戶只需提交一次搜尋請求,由元搜尋引擎負責轉換處理後提交給多個預先選定的獨立搜尋引擎,並將從各獨立搜尋引擎返回的所有查詢結果,集中起來處理後再返回給用戶。

第一個元搜尋引擎,是Washington大學碩士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜尋引擎概念上非常好聽,但搜尋效果始終不理想,所以沒有哪個元搜尋引擎有過強勢地位。

查詢發 展(4)

智慧型檢索的產生:它利用分詞詞典、同義詞典,同音詞典改善檢索效果,進一步還可在知識層面或者說概念層面上輔助查詢,通過主題詞典、上下位詞典、相關同級詞典檢索處理形成一個知識體系或概念網路,給予用戶智慧型知識提示,最終幫助用戶獲得最佳的檢索效果。

例:

(1)查詢“計算機”,與“電腦”相關的信息也能檢索出來;

(2)可以進一步縮小查詢範圍至“微機”、“伺服器”或擴大查詢至“信息技術”或查詢相關的“電子技術”、“軟體”、“計算機套用”等範疇;

(3)還包括歧義信息和檢索處理,如“蘋果”,究竟是指水果還是電腦品牌,“華人”與“中華人民共和國”的區分,將通過歧義知識描述庫、全文索引、用戶檢索上下文分析以及用戶相關性反饋等技術結合處理,高效、準確地反饋給用戶最需要的信息。

個性化趨勢發 展

個性化趨勢是搜尋引擎的一個未來發展的重要特徵和必然趨勢之一。一種方式通過搜尋引擎的社區化產品(即對註冊用戶提供服務)的方式來組織個人信息,然後在搜尋引擎基礎信息庫的檢索中引入個人因素進行分析,獲得針對個人不同的搜尋結果。自2004年10月yahoo推出myweb測試版,到11月a9推出個性化功能,到2005年Googlesearchhistory基本上都沿著一條路子走,分析特定用戶的搜尋需求限定的範圍,然後按照用戶需求範圍擴展到網際網路上其他的同類網站給出最相關的結果。另外一種是針對大眾化的,Google個性化搜尋引擎,或者yahooMindSet,或者我們都知道的前台聚類的vivisimo。但是無論其中的哪一種實現方式,即Google的主動選擇搜尋範圍,還是yahoo,vivisimo的在結果中重新組織自己需要的信息,都是一種實驗或者創想,短期內無法成為主流的搜尋引擎套用產品。

網路技術發 展

格線技術(great global grid):由於沒有統一的信息組織標準對網路信息資源進行加工處理,難以對無序的網路信息資源進行檢索、交接和共享乃至深層次的開發利用,形成信息孤島。格線技術就是要消除信息孤島實現網際網路上所有資源的全面連通。

全球信息格線(Global Information Grid)

Robot(機器人)一詞對編程者有特殊的意義。Computer Robot是指某個能以人類無法達到的速度不斷重複執行某項任務的自動程式。由於專門用於檢索信息的Robot程式像蜘蛛(spider)一樣在網路間爬來爬去,因此,搜尋引擎的Robot程式被稱為spider程式。

1993年Matthew Gray開發了 World Wide Web Wanderer,這是第一個利用HTML網頁之間的連結關係來檢測全球資訊網規模的“機器人(Robot)”程式。開始,它僅僅用來統計網際網路上的伺服器數量,後來也能夠捕獲網址(URL)。

1994年4月,史丹福大學(Stanford University)的兩名博士生,美籍華人Jerry Yang(楊致遠)和David Filo共同創辦了Yahoo。隨著訪問量和收錄連結數的增長,Yahoo目錄開始支持簡單的資料庫搜尋。因為Yahoo!的數據是手工輸入的,所以不能真正被歸為搜尋引擎,事實上只是一個可搜尋的目錄。雅虎於2002年12月23日收購inktomi,2003年7月14日收購包括Fast和Altavista在內的Overture,2003年11月,Yahoo全資收購3721公司。

1994年初,華盛頓大學(University of Washington )的學生Brian Pinkerton開始了他的小項目WebCrawler。1994年4月20日,WebCrawler正式亮相時僅包含來自6000個伺服器的內容。WebCrawler是網際網路上第一個支持搜尋檔案全部文字的全文搜尋引擎,在它之前,用戶只能通過URL和摘要搜尋,摘要一般來自人工評論或程式自動取正文的前100個字。

1994年7月,卡內基·梅隆大學(Carnegie Mellon University) 的Michael Mauldin將John Leavitt的spider程式接入到其索引程式中,創建了Lycos。除了相關性排序外,Lycos還提供了前綴匹配和字元相近限制,Lycos第一個在搜尋結果中使用了網頁自動摘要,而最大的優勢還是它遠勝過其它搜尋引擎的數據量。

1994年底,Infoseek正式亮相。其友善的界面,大量的附加功能,使之和Lycos一樣成為搜尋引擎的重要代表。

1995年,一種新的搜尋引擎形式出現了——元搜尋引擎(A Meta Search Engine Roundup)。用戶只需提交一次搜尋請求,由元搜尋引擎負責轉換處理,提交給多個預先選定的獨立搜尋引擎,並將從各獨立搜尋引擎返回的所有查詢結果,集中起來處理後再返回給用戶。第一個元搜尋引擎,是Washington大學碩士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。

1995年12月,DEC的正式發布AltaVista。AltaVista是第一個支持自然語言搜尋的搜尋引擎,第一個實現高級搜尋語法的搜尋引擎(如AND、 OR、 NOT等)。用戶可以用AltaVista搜尋新聞組(Newsgroups)的內容並從網際網路上獲得文章,還可以搜尋圖片名稱中的文字、搜尋Titles、搜尋Java applets、搜尋ActiveX objects。AltaVista也聲稱是第一個支持用戶自己向網頁索引庫提交或刪除URL的搜尋引擎,並能在24小時內上線。AltaVista最有趣的新功能之一,是搜尋有連結指向某個URL的所有網站。在面向用戶的界面上,AltaVista也作了大量革新。它在搜尋框區域下放了“tips”以幫助用戶更好的表達搜尋式,這些小tip經常更新,這樣,在搜尋過幾次以後,用戶會看到很多他們可能從來不知道的的有趣功能。這系列功能,逐漸被其它搜尋引擎廣泛採用。1997年,AltaVista發布了一個圖形演示系統LiveTopics,幫助用戶從成千上萬的搜尋結果中找到想要的。

1995年9月26日,加州伯克利分校助教Eric Brewer、博士生Paul Gauthier創立了Inktomi,1996年5月20日,Inktomi公司成立,強大的HotBot出現在世人面前。聲稱每天能抓取索引1千萬頁以上,所以有遠超過其它搜尋引擎的新內容。HotBot也大量運用cookie儲存用戶的個人搜尋喜好設定。

1997年8月,Northernlight搜尋引擎正式現身。它曾是擁有最大資料庫的搜尋引擎之一,它沒有Stop Words,它有出色的Current News、7100多出版物組成的Special Collection、良好的高級搜尋語法,第一個支持對搜尋結果進行簡單的自動分類。

1998年10月之前,Google只是史丹福大學(Stanford University)的一個小項目BackRub。1995年博士生Larry Page開始學習搜尋引擎設計,於1997年9月15日註冊了域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同參與下,BachRub開始提供Demo。1999年2月,Google完成了從Alpha版到Beta版的蛻變。Google公司則把1998年9月27日認作自己的生日。Google以網頁級別(Pagerank)為基礎,判斷網頁的重要性,使得搜尋結果的相關性大大增強。Google公司的奇客(Geek)文化氛圍、不作惡(Don’t be evil)的理念,為Google贏得了極高的口碑和品牌美譽。2006年4月,Google宣布其中文名稱“谷歌”,這是Google第一個在非英語國家起的名字。

Fast(Alltheweb)公司創立於1997年,是挪威科技大學(NTNU)學術研究的副產品。1999年5月,發布了自己的搜尋引擎AllTheWeb。Fast創立的目標是做世界上最大和最快的搜尋引擎,幾年來庶幾近之。Fast(Alltheweb)的網頁搜尋可利用ODP自動分類,支持Flash和pdf搜尋,支持多語言搜尋,還提供新聞搜尋、圖像搜尋、視頻、MP3、和FTP搜尋,擁有極其強大的高級搜尋功能。(2003年2月25日,Fast的網際網路搜尋部門被Overture收購)。

1996年8月,sohu公司成立,製作中文網站分類目錄,曾有“出門找地圖,上網找搜狐”的美譽。隨著網際網路網站的急劇增加,這種人工編輯的分類目錄已經不適應。sohu於2004年8月創建獨立域名的搜尋網站“搜狗”,自稱“第三代搜尋引擎”。

Openfind 創立於1998年1月,其技術源自台灣中正大學吳升教授所領導的GAIS實驗室。Openfind起先只做中文搜尋引擎,鼎盛時期同時為三大著名門戶新浪、奇摩、雅虎提供中文搜尋引擎,但2000年後市場逐漸被Baidu和Google瓜分。2002年6月,Openfind重新發布基於GAIS30 Project的Openfind搜尋引擎Beta版,推出多元排序(PolyRankTM),宣布累計抓取網頁35億,開始進入英文搜尋領域。

2000年1月,兩位北大校友,超鏈分析專利發明人、前Infoseek資深工程師李彥宏與好友徐勇(加州伯克利分校博士後)在北京中關村創立了百度(Baidu)公司。2001年8月發布百度搜尋引擎Beta版(此前Baidu只為其它入口網站搜狐新浪Tom等提供搜尋引擎),2001年10月22日正式發布Baidu搜尋引擎,專注於中文搜尋。

Baidu搜尋引擎的其它特色包括:百度快照、網頁預覽/預覽全部網頁、相關搜尋詞、錯別字糾正提示、mp3搜尋、Flash搜尋。2002年3月閃電計畫(Blitzen Project)開始後,技術升級明顯加快。後推出貼吧、知道、地圖、國學、百科、文檔、視頻、部落格等一系列產品,深受網民歡迎。2005年8月5日在納斯達克上市,發行價為USD 27.00,代號為BIDU。開盤價USD 66.00,以USD 122.54收盤,漲幅353.85%,創下了5年以來美國股市上市新股當日漲幅最高紀錄。

2003年12月23日,原慧聰搜尋正式獨立運做,成立了中國搜尋。2004年2月,中國搜尋發布桌面搜尋引擎網路豬1.0,2006年3月中搜將網路豬更名為IG(Internet Gateway) 。

2005年6月,新浪正式推出自主研發的搜尋引擎“愛問”。2007年起,新浪愛問使用google搜尋引擎。

2007年7月1日 全面採用網易自主研發的有道搜尋技術,並且合併了原來的綜合搜尋和網頁搜尋。有道網頁搜尋、圖片搜尋和部落格搜尋為網易搜尋提供服務。其中網頁搜尋使用了其自主研發的自然語言處理、分散式存儲及計算技術;圖片搜尋首創根據拍攝相機品牌、型號,甚至季節等高級搜尋功能;部落格搜尋相比同類產品具有抓取全面、更新及時的優勢,提供“文章預覽”,“部落格檔案”等創新功能。

重要影響

網咖

走進網咖,不難發現各個網咖內的電腦瀏覽器首頁或工具條上都會有google或百度的標誌。百度甚至還推出了網咖聯盟,可見搜尋引擎們對網咖行業都格外的青睞。現在我們常用的搜尋引擎無非就是百度和google兩種。從百度方面來看,百度聯盟可以算是目前唯一一個能夠覆蓋所有網咖並和幾乎所有主流網咖軟體締結合作關係的媒體運營平台。而google方面也不甘示弱,谷歌已經注意到了網咖市場,網咖已經成為了谷歌的新型合作夥伴。網咖的首頁和工具條上都會出現谷歌的標誌,相應地會給谷歌帶去流量。谷歌對網咖市場的關注,表明谷歌注意到網咖作為中國網際網路市場的特色之一。由於我國PC擁有量遠落後於美國等西方國家,網咖作為網民主要上網地點的比例逐年在上升,我國網民在網咖上網的比例偏高。據CNNIC 第20次中國網際網路發展狀況統計報告顯示,超過1/3(37.2%)的網民表示經常去網咖上網,比2006年12月的32.3%高了5個百分點,第一次超過網民在工作單位上網的比例而成為第二大上網場所。

網站

一個網站的命脈就是流量,而網站的流量可以分為兩類。一類是自然流量,一類就是通過搜尋引擎而來的流量。如果搜尋引擎能夠更多更有效的抓取網站內容,那么對於網站的好處是不言而喻的。所以,SEO也應運而生了。

在百度和谷歌兩大搜尋引擎的工作中,百度的工作周期相對來說短一些,百度大約在10天左右重新訪問網站一次,Google大約在15天左右重新訪問一次網站。由於一天之內不能遊歷全球所有的網站,如果推廣網站時,能到更多的網站上提交相應的網站信息,也是加快蜘蛛收錄網站內容的重要環節。

目標層次

搜尋引擎行銷可分為四個層次,可分別簡單描述為:存在層、表現層、關注層和轉化層。

第一層是搜尋引擎行銷的存在層,其目標是在主要的搜尋引擎/分類目錄中獲得被收錄的機會,這是搜尋引擎行銷的基礎,離開這個層次,搜尋引擎行銷的其他目標也就不可能實現。

第二層的目標則是在被搜尋引擎收錄的基礎上儘可能獲得好的排名,即在搜尋結果中有良好的表現,因而可稱為表現層。 

搜尋引擎行銷的第三個目標則直接表現為網站訪問量指標方面,也就是通過搜尋結果點擊率的增加來達到提高網站訪問量的目的。由於只有受到用戶關注,經過用戶選擇後的信息才可能被點擊,因此可稱為關注層。

搜尋引擎行銷的第四個目標,即通過訪問量的增加轉化為企業最終實現收益的提高,可稱為轉化層。轉化層是前面三個目標層次的進一步提升,是各種搜尋引擎方法所實現效果的集中體現,但並不是搜尋引擎行銷的直接效果。

作用效果

搜尋引擎是網站建設中針對“用戶使用網站的便利性”所提供的必要功能,同時也是“研究網站用戶行為的 一個有效工具”。高效的站內檢索可以讓用戶快速準確地找到目標信息,從而更有效地促進產品/服務的銷售,

而且通過對網站訪問者搜尋行為的深度分析,對於進一步制定更為有效的網路行銷策略具有重要價值。

1、從網路行銷的環境看,搜尋引擎行銷的環境發展為網路行銷的推動起到舉足輕重的作用;

2、從效果行銷看,很多公司之所以可以套用網路行銷是利用了搜尋引擎行銷;

3、就完整型電子商務概念組成部分來看,網路行銷是其中最重要的組成部分,是向終端客戶傳遞信息的重要環節。

商務模式

在搜尋引擎發展早期,多是作為技術提供商為其他網站提供搜尋服務,網站付錢給搜尋引擎。後來,隨著2001年網際網路泡沫的破滅,大多轉向為競價排名方式。

現在搜尋引擎的主流商務模式(百度的競價排名、Google的AdWords)都是在搜尋結果頁面放置廣告,通過用戶的點擊向廣告主收費。這種模式最早是比爾·格羅斯(Bill Gross)提出的。他於1998年6月創立GoTo公司(後於2001年9月更名為Overture),實施這種模式,取得了很大的成功,並且申請了專利。這種模式有兩個特點,一是點擊付費(Pay Per Click),用戶不點擊則廣告主不用付費。二是競價排序,根據廣告主的付費多少排列結果。 2001年10月,Google推出AdWords,也採用點擊付費和競價的方式。2002年,Overture起訴Google侵犯了其專利。2004年8月,和Yahoo!(Yahoo!於2003年7月收購Overture)達成和解,向後者支付了270萬普通股(合3億美元不到)作為和解費。

AdSense是Google於2003年推出的一種新的廣告方式。AdSense使各種規模的的第三方網頁發布者進入Google龐大的廣告商網路。Google在這些第三方網頁放置跟網頁內容相關的廣告,當瀏覽者點擊這些廣告時,網頁發布者能獲得收入。AdSense在blogger中很受歡迎。同時,Google武斷地刪除一些帳號,引起部分人的不滿。類似的廣告方式,其他搜尋引擎也先後推出。雅虎的廣告方式是YPN(Yahoo Publisher Network),YPN 除了可以在網頁上顯示與內容相關的廣告以外,還可以通過在 RSS 訂閱中來顯示廣告。微軟的廣告計畫叫AdCenter。百度也推出主題推廣。

組成部分

搜尋引擎一般由搜尋器、索引器、檢索器和用戶接口四個部分組成:

搜尋器

其功能是在網際網路中漫遊,發現和蒐集信息;

索引器

其功能是理解搜尋器所搜尋到的信息,從中抽取出索引項,用於表示文檔以及生成文檔庫的索引表;

檢索器

其功能是根據用戶的查詢在索引庫中快速檢索文檔,進行相關度評價,對將要輸出的結果排序,並能按用戶的查詢需求合理反饋信息;

用戶接口

其作用是接納用戶查詢、顯示查詢結果、提供個性化查詢項。

市場規模

市場概述

2010年4月12日,艾瑞諮詢今日發布的中國搜尋引擎市場份額報告顯示,2009年全球搜尋引擎市場規模達339.0億美元。中國搜尋引擎市場規模達69.6億元(約合10.2億美元),相比2008年的50.3億元年同比增長38.5%。預計2010年中國搜尋引擎市場規模將呈現45%左右的增幅。

2009年中國網頁搜尋請求量規模為2033.8億次,年同比增長35.7%。自2007年中國列於全球搜尋請求量首位以來,其在全球市場的領先優勢持續強化:2007年至2009年,中國搜尋請求量規模在全球請求量規模中占比分別為15.6%、19.7%和20.6%。

競爭格局

雙寡頭特徵依舊,建議運營商外延競爭邊界

2009年中國搜尋引擎市場雙寡頭特徵加劇,營收方面,百度、谷歌二者營收份額之和為96.2%;流量方面,百度谷歌網頁搜尋請求量份額之和達94.9%,基本壟斷中國搜尋引擎市場。艾瑞建議領先通用搜尋引擎運營商,在維持通用搜尋市場的既得優勢的同時,重視來自廣義搜尋市場的潛在競爭。

語言判斷

人們喜歡以他們所知道的語言列出的搜尋結果,這對搜尋行銷人員是十分重要的。當一個搜尋者輸入上面圖中的搜尋請求時,只有用中文寫的網頁將被顯示在搜尋結果裡面。

在有些國家,例如日本和中國,大部分搜尋者想要結果限制在母語上。但是在其他地方例如瑞典,搜尋可以採用瑞典語和英語來進行。不同國家的搜尋者有不同的語言偏好。

對搜尋行銷人員而言,重要的是搜尋引擎知道網頁所使用的語言,如果網頁沒能被正確地識別,可能就會從本應發現它的搜尋者面前消失,從而降低你的引薦訪問。

那么搜尋引擎是怎樣判斷網頁所使用的語言呢?這裡有很多不同的方法:

語言meta標籤

很多網頁通過一個HTML標籤來表明網頁使用的語言,例如<META http-equiv=”content-language” content="ja"> 表示使用的是日語,看起來簡單,搜尋蜘蛛程式讀取標籤,於是搜尋引擎知道是什么語言了。但是相對多的語言meta標籤是完全錯誤的,沒有標籤,句法錯誤,以及語言編碼錯誤等等。搜尋引擎確實查看這些標籤,但是它們很少只從這些標籤來判定網頁的語言。

字元編碼

計算機檔案(包括HTML網頁)需要“對譯本(Key)”正確翻譯檔案中的字元(字母,數字等等)。這種對譯本被稱為字元編碼。由網頁中meta標籤里聲明,例如<META http-equiv=content-type content="text/html;charset=GBK">。

網站瀏覽器和搜尋蜘蛛程式假定網頁按照西方語言編碼,因此使用這些語言寫的網頁不需要這個標籤。為了瀏覽器顯示正確,亞洲、阿拉伯和古代斯拉夫語的文本確實需要這個標籤。因此,當搜尋引擎看到針對這些語言的表情,它對正確顯示網頁的語言有了很高的保證。

內容分析

搜尋引擎通過研究內容中的字元模式來最終判定網頁的語言,哪怕是短到只有兩句話的網頁,內容分析的精確度也非常高。Meta標籤只有在內容分析後還不確定的情況下才被使用。

多數情況下,搜尋引擎會自行正確地判斷網頁的內容,對於只有很少幾個詞的網頁,要保證網頁被正確識別,正確的編碼語言和meta語言標籤很重要。

技術發展

搜尋引擎經過幾年的發展和摸索,越來越貼近人們的需求,搜尋引擎的技術也得到了很大的發展。搜 索引擎的最新技術發展包括以下幾個方面:

提高搜尋引擎對用戶檢索提問的理解 

為了提高搜尋引擎對用戶檢索提問的理解,就必須有一個好的檢索提問語言,為了克服關鍵字檢索和目錄查詢的缺點,現在已經出現了自然語言智慧型答詢。用戶可以輸入簡單的疑問句,比如“how can kill virus of computer?”。搜尋引擎在對提問進行結構和內容的分析之後,或直接給出提問的答案,或引導用戶從幾個可選擇的問題中進行再選擇。自然語言的優勢在於,一是使網路交流更加人性化,二是使查詢變得更加方便、直接、有效。就以上面的例子來講,如果用關鍵字查詢,多半人會用“virus”這個詞來檢索,結果中必然會包括各類病毒的介紹、病毒是怎樣產生的等等許多無效信息,而用“how can kill virus of computer?”,搜尋引擎會將怎樣殺病毒的信息提供給用戶,提高了檢索效率。

對檢索結果進行處理 

1、基於連結評價的搜尋引擎

基於連結評價的搜尋引擎的優秀代表是Google,它獨創的“連結評價體系”是基於這樣一種認識,一個網頁的重要性取決於它被其它網頁連結的數量,特別是一些已經被認定是“重要”的網頁的連結數量。這種評價體制與《科技引文索引》的思路非常相似,但是由於網際網路是在一個商業化的環境中發展起來的,一個網站的被連結數量還與它的商業推廣有著密切的聯繫,因此這種評價體制在某種程度上缺乏客觀性。

2、基於訪問大眾性的搜尋引擎

基於訪問大眾性的搜尋引擎的代表是direct hit,它的基本理念是多數人選擇訪問的網站就是最重要的網站。根據以前成千上萬的網路用戶在檢索結果中實際所挑選並訪問的網站和他們在這些網站上花費的時間來統計確定有關網站的重要性排名,並以此來確定哪些網站最符合用戶的檢索要求。因此具有典型的趨眾性特點。這種評價體制與基於連結評價的搜尋引擎有著同樣的缺點。

3、去掉檢索結果中附加的多餘信息

有調查指出,過多的附加信息加重了用戶的信息負擔,為了去掉這些過多的附加信息,可以採用用戶定製、內容過濾等檢索技術。

確定搜尋引擎信息蒐集範圍 

1、垂直主題搜尋引擎

網上的信息浩如煙海,網路資源以十倍速的增長,一個搜尋引擎很難收集全所有主題的網路信息,即使信息主題收集得比較全面,由於主題範圍太寬,很難將各主題都做得精確而又專業,使得檢索結果垃圾太多。這樣以來,垂直主題的搜尋引擎以其高度的目標化和專業化在各類搜尋引擎中占據了一系席之地,比如象股票、天氣、新聞等類的搜尋引擎,具有很高的針對性,用戶對查詢結果的滿意度較高。作者認為,垂直主題有著極大的發展空間。

2、非www信息的搜尋

提供FTP等類信息的檢索

3、多媒體搜尋引擎

多媒體檢索主要包括聲音、圖像視頻的檢索。關於圖片搜尋引擎的原理,《淺談圖片搜尋引擎的實現》中提出了具有跨時代意義設計思路。

提供更最佳化的檢索結果 

1、純淨搜尋引擎

這類搜尋引擎沒有自己的信息採集系統,利用別人現有的索引資料庫,主要關注檢索的理念、技術和機制等。

2、元搜尋引擎

現在出現了許多的搜尋引擎,其收集信息的範圍、搜尋機制、算法等都不同,用戶不得不去學習多個搜尋引擎的用法。每個搜尋引擎平均只能涉及到整個www資源的30-50%(search engine watch數據),這樣導致同一個搜尋請求在不同搜尋引擎中獲得的查詢結果的重複率不足34%,而每一個搜尋引擎的查準率不到45%。

元搜尋引擎(metasearch engining)是將用戶提交的檢索請求到多個獨立的搜尋引擎上去搜尋,並將檢索結果集中統一處理,以統一的格式提供給用戶,因此有搜尋引擎之上的搜尋引擎之稱。它的主要精力放在提高搜尋速度、智慧型化處理搜尋結果、個性搜尋功能的設定和用戶檢索界面的友好性上,查全率和查準率都比較高。目前比較成功的元搜尋引擎有metacrawler、dopile、ixquick、搜客等。

3、集成搜尋引擎

集成搜尋引擎( All-in-One Search Page),亦稱為“多引擎同步檢索系統 ”(如百度)是在一個WWW頁面上連結若干種獨立的搜尋引擎,檢索時需點選或指定搜尋引擎,一次檢索輸入,多引擎同時搜尋,用起來相當方便。

集成搜尋引擎無自建資料庫,不需研發支持技術,當然也不能控制和最佳化檢索結果。但集成搜尋引擎製作與維護技術簡單,可隨時對所連結的搜尋引擎進行增刪調整和及時更新,尤其大規模專業(如FLASH、MP3等)搜尋引擎集成連結,深受特定用戶群歡迎。

4、垂直搜尋引擎

垂直搜尋引擎是相對通用搜尋引擎的信息量大、查詢不準確、深度不夠等提出來的新的搜尋引擎服務模式,通過針對某一特定領域、某一特定人群或某一特定需求提供的有一定價值的信息和相關服務。其特點就是“專、精、深”,且具有行業色彩,相比較通用搜尋引擎的海量信息無序化,垂直搜尋引擎則顯得更加專注、具體和深入。

搜尋引擎的主題分類

網頁 音樂(翻唱 MP3)影視(電影電視) 視頻 播客軟體 BT下載 硬體 圖片 壁紙 相冊 小說 文學 文檔(論文 述職報告 思想匯報 演講稿 入黨申請書 作文 個人簡歷 畢業論文 法律論文經濟論文 教育論文會計論文 計算機論文 畢業論文集 情書 調查報告 求職信 商業計畫書 實習報告 就職演說 自薦信 企劃方案 企業管理年終總結) 新聞(資訊) 百科(知識 經驗) 教育 人物 學校 專業 論壇社區 部落格 詞典 翻譯 地圖 動漫 Flash 遊戲 娛樂 笑話 汽車 家電手機 廣告 購物 商業 黃頁房產 招聘 財經 股票 基金法律 國學 圖書政府 目錄 學術 代碼 公交 實用查詢等幾十個分類。

搜尋引擎的最後一步

10年前我們要查閱資料,請教問題,更多想到的是請教專家,圖書管查閱等傳統方式。常常為了一個簡單的問題而到處尋師,在圖書館翻著類似我的電腦桌抽屜里的檢索卡片,苦苦尋找。曾幾何時,網際網路的普及與興起,搜尋引擎的出現,逐漸改變著我們的生活習慣和思維方式。很多問題“baidu一下,你就知道。” 就像這裡用的“曾幾何時”這一詞,中文不好的我只有模糊的理解,還以為有“曾經”的意思,想用為第一句。於是百度知道搜尋了一下,出自宋"王安石《祭盛侍郎文》:“補官揚州,公得謝歸。曾幾何時,訃者來門。” 才知是才過了不久的意思。

搜尋引擎(search engine)是一個系統,能從大量信息中找到所需的信息,提供給用戶。網際網路出現到現今,信息量可以說成密指數的增長,大量信息就像Google的原本含義一樣“1的後面跟著100個0”,這個數比宇宙所有的基本粒子的數量總和還要大。在這浩如煙海的信息中怎么才能找到自己需要的信息呢?搜尋引擎就像一隻神奇的手,從雜亂的信息中抽出一條清晰的檢索路徑。

事物的發展往往遵循著合久必分,分久必合的規律,每一次的合與分都是代表著更高級更先進。同樣搜尋引擎從最初的Archie可以用檔案名稱查找整個網際網路中FTP檔案的系統,發展到Yahoo早期一種手工錄入的分行業的目錄檢索。隨著搜尋技術的發展,元標記搜尋、全文搜尋重新又把整個互連網的信息整合起來提供給用戶,目前的Baidu、Google提供的就是一種整個網際網路的全文搜尋,這種整合信息的搜尋也稱為水平搜尋。這種水平全文搜尋固然可以把網路中的所有相關信息提供給用,但這種“所有”不代表著是用戶所需的“所有”,往往夾雜著許多垃圾信息。問題出現就伴隨著去解決,如果平常使用搜尋引擎比較全面,你會發現Baidu、Goolge都有了“更多”的選項,其中出現了大學搜尋、新聞搜尋、圖書搜尋、圖片搜尋等等這些專業化,行業化的搜尋,也稱為垂直搜尋。當前垂直搜尋正在逐漸走向豐富化、專業化、行業化,將越來越滿足人們的搜尋需求。比如很多人在搜尋問題時會到百度知道里搜尋,因為那裡更有針對性;搜尋天氣會到天氣搜尋中等等。

那么搜尋引擎的下一步發展是什么呢?讓我們回想一下搜尋引擎的定義:一個系統,能從大量信息中找到所需的信息,提供給用戶。根據技術的不斷發展和事物規律暢想一下,垂直搜尋發展到一定程度會出現信息的單一專業化太強,整體信息綜合化不好,而人們需要的不但要有專業信息,同樣也要有整體聯想信息。隨著人工智慧、神經網路、格線計算等搜尋技術的發展,我們又將有一個能整合網際網路信息,智慧型的提供用戶確實所“需”的信息,而不簡單只是所“要”的信息,因為很多時候搜尋時,自己都不知道要什么。

再回的現在的搜尋引擎,它就像一隻神奇的手,從雜亂的信息中抽出一條清晰的檢索路徑。這個引擎提供給用戶的最後一步是什么?是一條清晰的檢索路徑。好的,注意這是一條檢索路徑,在這條路徑的上的檢索和信息提取是什么呢,是我們的閱讀和大腦的判斷。也就是做搜尋引擎的最後一步是我們的大腦。得到的這條路徑清晰但也並不簡短,需要我們進行快速的瀏覽,呵呵,繞來繞去,得出一個結論,快速閱讀也是搜尋引擎中的一部分。

隨著搜尋市場競爭的白熱化,搜尋引擎不僅開始深挖自己的戰壕,還開始打起了口水戰,而山寨搜尋引擎在高舉著“整合”的大旗,開始大搖大擺地進入這個本來只有巨頭壟斷的市場。國人充分發揮著其無比的想像力,準備讓國內的網際網路“步入搜尋新時代”。

下面就讓我們看看什么是山寨搜尋引擎

“百google度”- baigoogledu

最早的山寨搜尋引擎,曾經名噪一時。最早確定了山寨搜尋引擎的模式,而且訪問量很高,但功能簡單,而且讓用戶需要不停的兩邊拖拉才能看到完整的結果。

“百穀虎”- baigoohoo

由於某家新聞媒體的報導,最近聲名大振,高舉著“山寨”大旗,讓國人開始了解什么是山寨搜尋引擎,名字極富創意。可惜由於搜尋結果被並排擠在一起,似乎沒有什么實際使用價值。

“山寨文化”在每個人的心目中可能都有著不同的感覺,但隨著這股風越刮越烈,可見草根對“山寨”的內涵還是有相當的認同,百度和谷歌的嘴仗打的不亦熱乎,都指責對方結果不公正,山寨搜尋卻硬要把這兩個冤家放在一起。也許很多人對“山寨搜尋”嗤之以鼻,但是對於普通網民來說,是誰的搜尋並不重要,是我們需要的結果才是最重要的么。如果是你,你會選擇誰呢?

搜尋引擎最佳化(Search Engine Optimization,簡稱SEO) 搜尋引擎最佳化即Search Engine Optimization,用英文描述是to use some technics to make your website in the top places in Search Engine when somebody is using Search Engine to find something,翻譯成中文就是“搜尋引擎最佳化”,一般可簡稱為搜尋最佳化。與之相關的搜尋知識還有Search Engine Marketing(搜尋引擎行銷),Search Engine Positioning(搜尋引擎定位)、Search Engine Ranking(搜尋引擎排名)等。

未來展望

隨著網際網路的發展,網上可以搜尋的網頁變得愈來愈多,而網頁內容的質素亦變得良莠不齊,沒有保證。所以,未來的搜尋引擎將會朝著知識型搜尋引擎的方向發展,期以為搜尋者提供更準確及適用的資料。目前,網上的百科全書如雨後春筍般發展起來;另一方面,近年來亦有不少公司嘗試在搜尋方面改進,務求更符合用戶的要求。當中諸如Copernic Agent之類的搜尋代理就是其中之一。

在台灣,威知資訊(WebGenie)是利用文字探勘(Text Mining)技術發展搜尋引擎產品的公司,利用人工智慧算法,可達成目前搜尋引擎所缺乏的簡易人機互動模式,諸如關聯字提示、動態分類字提示等[1],算是較另類的搜尋引擎產品。

搜尋關鍵字提煉

選擇搜尋關鍵字的原則是,首先確定你所要達到的目標,在腦子裡要形成一個比較清晰概念,即我要找的到底是什么?是資料性的文檔?還是某種產品或服務?然後再分析這些信息都有些什么共性,以及區別於其他同類信息的特性,最後從這些方向性的概念中提煉出此類信息最具代表性的關鍵字。如果這一步做好了,往往就能迅速的定位你要找的東西,而且多數時候你根本不需要用到其他更複雜的搜尋技巧。

細化搜尋條件

你給出的搜尋條件越具體,搜尋引擎返回的結果也會越精確。

比方說你想查找有關電腦冒險遊戲方面的資料,輸入game是無濟於事的。computer game範圍就小一些,當然最好是敲入computer adventure game,返回的結果會精確得多。

此外一些功能辭彙和太常用的名詞,如對英文中的“and”、“how”、“what”、“web”、“homepage”和中文中的“的”、“地”、“和”等等搜尋引擎是不支持的。這些詞被稱為停用詞(Stop Words)或過濾詞(Filter Words),在搜尋時這些詞都將被搜尋引擎忽略。

用好搜尋邏輯命令

搜尋引擎基本上都支持附加邏輯命令查詢,常用的是“+”號和“-”號,或與之相對應的布爾(Boolean)邏輯命令AND、OR和NOT。用好這些命令符號可以大幅提高我們的搜尋精度。

精確匹配搜尋

除利用前面提到的邏輯命令來縮小查詢範圍外,還可使用""引號(注意為英文字元。雖然現在一些搜尋引擎已支持中文標點符號,但顧及到其他引擎,最好養成使用英文字元的習慣)來進行精確匹配查詢(也稱短語搜尋)。

特殊搜尋命令

●標題搜尋

多數搜尋引擎都支持針對網頁標題的搜尋,命令是“title:”,在進行標題搜尋時,前面提到的邏輯符號和精確匹配原則同樣適用。

●網站搜尋

此外我們還可以針對網站進行搜尋,命令是“site:”(Google)、“host:”(AltaVista)、“url:”(Infoseek)或“domain:”(HotBot)。

●連結搜尋

在Google和AltaVista中,用戶均可通過“link:”命令來查找某網站的外部導入連結(inbound links)。其他一些引擎也有同樣的功能,只不過命令格式稍有區別。你可以用這個命令來查看是誰以及有多少網站與你做了連結。

使用技巧

簡單查詢

在搜尋引擎中輸入關鍵字,然後點擊“搜尋”就行了,系統很快會返回查詢結果,這是最簡單的查詢方法,使用方便,但是查詢的結果卻不準確,可能包含著許多無用的信息。

雙引號用

給要查詢的關鍵字加上雙引號(半角,以下要加的其它符號同此),可以實現精確的查詢,這種方法要求查詢結果要精確匹配,不包括演變形式。例如在搜尋引擎的文字框中輸入“電傳”,它就會返回網頁中有“電傳”這個關鍵字的網址,而不會返回諸如“電話傳真”之類網頁。

使用加號

在關鍵字的前面使用加號,也就等於告訴搜尋引擎該單詞必須出現在搜尋結果中的網頁上,例如,在搜尋引擎中輸入“+電腦+電話+傳真”就表示要查找的內容必須要同時包含“電腦、電話、傳真”這三個關鍵字。

使用減號

在關鍵字的前面使用減號,也就意味著在查詢結果中不能出現該關鍵字,例如,在搜尋引擎中輸入“電視台-中央電視台”,它就表示最後的查詢結果中一定不包含“中央電視台”。

通配符

通配符包括星號(*)和問號(?),前者表示匹配的數量不受限制,後者匹配的字元數要受到限制,主要用在英文搜尋引擎中。例如輸入“computer*”,就可以找到“computer、computers、computerised、computerized”等單詞,而輸入“comp?ter”,則只能找到“computer、compater、competer”等單詞。

使用布爾檢索

所謂布爾檢索,是指通過標準的布爾邏輯關係來表達關鍵字與關鍵字之間邏輯關係的一種查詢方法,這種查詢方法允許我們輸入多個關鍵字,各個關鍵字之間的關係可以用邏輯關係詞來表示。

and,稱為邏輯“與”,用and進行連線,表示它所連線的兩個詞必須同時出現在查詢結果中,例如,輸入“computer and book”,它要求查詢結果中必須同時包含computer和book。

or,稱為邏輯“或”,它表示所連線的兩個關鍵字中任意一個出現在查詢結果中就可以,例如,輸入“computer or book”,就要求查詢結果中可以只有computer,或只有book,或同時包含computer和book。

not,稱為邏輯“非”,它表示所連線的兩個關鍵字中應從第一個關鍵字概念中排除第二個關鍵字,例如輸入“automobile not car”,就要求查詢的結果中包含automobile(汽車),但同時不能包含car(小汽車)。

near,它表示兩個關鍵字之間的詞距不能超過n個單詞。

在實際的使用過程中,你可以將各種邏輯關係綜合運用,靈活搭配,以便進行更加複雜的查詢。

使用括弧

當兩個關鍵字用另外一種操作符連在一起,而你又想把它們列為一組時,就可以對這兩個詞加上圓括弧。

使用元詞檢索

大多數搜尋引擎都支持“元詞”(metawords)功能,依據這類功能用戶把元詞放在關鍵字的前面,這樣就可以告訴搜尋引擎你想要檢索的內容具有哪些明確的特徵。例如,你在搜尋引擎中輸入“title:清華大學”,就可以查到網頁標題中帶有清華大學的網頁。在鍵入的關鍵字後加上“domainrg”,就可以查到所有以org為後綴的網站。

其他元詞還包括:image:用於檢索圖片,link:用於檢索連結到某個選定網站的頁面,URL:用於檢索地址中帶有某個關鍵字的網頁。

區分大小寫

這是檢索英文信息時要注意的一個問題,許多英文搜尋引擎可以讓用戶選擇是否要求區分關鍵字的大小寫,這一功能對查詢專有名詞有很大的幫助,例如:Web專指全球資訊網或環球網,而web則表示蜘蛛網。    

現狀

搜尋引擎誕生到現在已經有幾十年歷史,期間搜尋技術一直在不斷的變化,從最初的目錄式搜尋、到關鍵字搜尋,以及正在發展的語音搜尋、圖片搜尋等,搜尋引擎在不斷進化中。如果談及搜尋引擎的下一個趨勢時,個性化搜尋引擎無疑是最受關注的方向,並且將成為搜尋引擎的未來。

近些年來,谷歌、微軟必應、中搜等搜尋引擎的技術變化透漏出一些端倪,個性化搜尋正成為這些搜尋引擎研究的方向,爭相開發出各種個性化的搜尋平台和功能,滿足用戶不同的搜尋需求。

現任雅虎總裁瑪麗莎·梅耶爾在談及搜尋引擎未來時表示:“每天網上爆發的信息已經超過了用戶的接受範圍,因人而異的個性化搜尋才能幫助用戶快速、準確的找到所需信息。”

中搜總裁陳沛在多個場合提到,當前搜尋引擎提供的搜尋結果基本相近,內容同質化。其中許多結果內容是用戶根本不需要的,未來的搜尋一定是滿足用戶的不同需求,搜尋引擎將成為個性化平台。

當前的搜尋引擎儘管還能給用戶提供一些有用的東西,但是因不同地區、個人興趣習慣、社交關係等因素去搜尋時,得到的搜尋結果卻不盡人意,這是目前搜尋引擎需要改進的地方。

最新訊息

6月7日訊息,據TechCrunch報導,蘋果公司已經收購了矽谷社交搜尋創業公司Spotsetter,交易價格未知。

Spotsetter成立於2013年,是一個基於Google地圖的社交搜尋引擎,能夠分析用戶的社交圈,並為用戶提供個性化的地點(如旅遊地點和餐館)推薦服務,致力於解決所謂的“where to go”問題。

搜尋引擎搜尋引擎

外界認為,蘋果收購Spotsetter是為了獲得它的推薦技術,該技術可以被添加到蘋果Maps中。

雖然Spotsetter的許多員工,——包括其共同創始人、前谷歌(微博)Maps工程師史蒂芬·謝(Stephen Tse)和約翰尼·李(Johnny Lee)——已經搬到蘋果總部辦公,但這並不能算是一次嚴格意義上的所謂收購。

據悉,Spotsetter公司已經為其推薦算法提交專利申請,這可能是蘋果真正感興趣的東西。

此前,Spotsetter在創業融資中籌集了不到150萬美元資金,由此推斷蘋果的收購價格應該不過是數千萬美元。

六天前,約翰尼在一篇部落格文章中宣布Spotsetter將從套用商店中下架,但他同時表示,他和他的團隊“在地點搜尋和個性化推薦服務領域仍然具有很大的夢想,並期待未來在該領域取得巨大進步。”

發展

搜尋引擎正從單一式的頁面搜尋逐漸向集合式、延展性的方向發展,人性化的界面設計、功能性的拓展、資源的整合正給我們搜尋引擎注入更多的發展契機。

最有代表性意義的是一款艾優搜尋引擎正是集合搜尋引擎發展的代表之作。

相關詞條

相關搜尋

其它詞條