當前位置:首頁 » 網頁前端 » web搜索引擎有什麼
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

web搜索引擎有什麼

發布時間: 2022-05-22 11:47:27

⑴ Web搜索引擎與Wap引擎搜索有什麼區別

你好,WEB搜索引擎用於搜索電腦WWW網站,而WAP搜索引擎用於搜索手機WAP網站。

⑵ 2.簡述web搜索引擎基本結構由哪三部分組成,以及各部分的作用

一個搜索引擎由搜索器 、索引器 、檢索器 和用戶介面 四個部分組成。搜索器的功能是在互聯網 中漫遊,發現和搜集信息。索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用於表示文檔 以及生成文檔庫的索引表。檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,並實現某種用戶相關性反饋機制。用戶介面的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。

⑶ 你都知道哪些搜索引擎

目前在國內市場,主要的搜索引擎有網路Bai、谷歌Google、sougou搜狗、soso搜搜、網易有道、yahoo中國等等,在國內市場上,網路的市場份額最大。因此要在國內開展網路營銷,網路的市場絕不能放棄,而在全球市場來說,目前全球有數百個搜索引擎,而日使用量高達2億次的搜索引擎Google處於把霸主地位,發展國際市場谷歌一定最有有利的利器。此外國際市場還有yahoo,MSN,LIVE SEARCH。每個搜索引擎都有自己的用戶群和優勢所在。要了解搜索引擎首先要知道搜索引擎的種類和工作原理,才能知己知彼百戰不殆。

搜索引擎工作原理

用戶先在界面輸入請求,即關鍵詞,如用戶要查詢北京地圖,就在輸入框輸入北京地圖,之後按回車,搜索引擎將請求轉入搜索引擎資料庫匹配請求,數據索引數據並計算出最匹配的結果,按照匹配程度對應排列結果。

圖7-2-1 搜索引擎工作原理

國際主要搜索引擎:

目前國際上主要搜索引擎有google,yahoo,msn ,looksmart,ask.com,aol等等。如果企業想要打開美國市場,那麼Google,yahoo,msn則一定在用戶的搜索引擎排名計劃中。而中國的搜索引擎市場仍然是網路和Google雄霸,其餘搜狐的搜狗、騰訊的搜搜和網易的有道都佔有不到8%的市場份額。下面有側重點地簡單介紹下。

圖7-2-2 世界著名搜索引擎品牌

谷歌搜索引擎

Google成立於1997年,數年內便發展成為全球最大的搜索引擎。Google並不是最早的搜索引擎,但卻是目前最成功的搜索引擎。Google也是全球訪問量最大的搜索引擎,Google目錄中一共收 錄了80多億個網址,每天需要提供2億次的查詢服務,而且搜索時間通常不到半秒。因此谷歌無愧於全球市場份額最大的搜索引擎。Google於2000年進入中國,盡管悄無聲息,但迅速成為大眾最喜愛的搜索引擎。2003年的時候,Google全球市場佔有率曾達到79%。Yahoo中斷與Google合作後,Google的市場佔有率仍然有51%。在中國,Google更加受到技術人員的歡迎,因為它提供公正客觀的搜索結果。Google將廣告商放在搜索結果頁面的右側,並明確註明為「贊助商鏈接」,使得中國網民對谷歌好感倍增。

圖7-2-3 谷歌google中國

2010年穀歌退出中國內地後,將中國部轉移到香港,使得谷歌在在中國搜索引擎市場的市場份額下降,但是仍有很多用戶把谷歌作為首選搜索引擎。這里有一個非常有意思的現象就是根據2009年九月份發布的《2009年中國搜索引擎用戶行為研究報告》,在中國谷歌用戶的收入分布和學歷分布都明顯高於其他搜索引擎,相對其他搜索引擎的用戶谷歌用戶的年齡分布也更加成熟化。

根據報告,谷歌(Google)用戶的文化水平明顯高於其他搜索引擎的用戶。谷歌用戶中,大學本科及以上學歷的用戶所佔比例達27.1%。?在谷歌首選用戶中,學生群體所佔的比例相對於其他搜索引擎較低,而黨政機關事業單位工作者、企業/公司員工和專業技術人員所佔的比例均高於其他搜索引擎,該部分人群的文化水平、收入水平也相對較高,這部分人群是谷歌價值用戶的主要構成群體。

圖7-2-4 搜索引擎首選用戶的學歷分布

AOL

即美國在線,美國在線是美國也是世界上最早的門戶網站之一,在國際上也是非常受歡迎。美國在線幾年前已與時代公司合並,成為美國在線-時代華納公司。AOL目前的主營業務是ISP(互聯網服務提供商)。AOL的搜索結果全部來自於Google 提供。也就是說,擁有良好的Google排名等於擁有良好的AOL排名。

圖7-2-5 日本的搜索引擎市場上雅虎的份額在60%以上?

Yahoo

雅虎搜索引擎全球第二大搜索引擎,其實力僅次於google公司。雅虎搜索引擎最早的目錄索引之一,也是目前國際上最重要的搜索服務網站之一,雅虎搜索引擎在全部互聯網搜索應用中所佔份額高達百分之三十六左右。有意思的是雅虎搜索引擎在日本非常受歡迎,其市場份額大大超過了谷歌,長期佔有率在60%以上。2010年7月,日本國內最大的搜索引擎公司雅虎日本公司宣布,將與世界最大搜索引擎—GOOGLE谷歌在搜索業務上進行合作。雅虎日本宣布將在年內接受谷歌在搜索廣告方面所提供的技術支持。假設擁有60%市場份額的雅虎和在日本市場佔有率第二的谷歌合作的話,雅虎日本將壟斷90%以上的日本搜索市場份額。因此微軟宣布要全力阻止 Yahoo 日本使用 Google 的搜索引擎,據線報微軟將使出渾身解數去阻止雅虎和谷歌壟斷日本市場。花旗分析師在較早前表示,Google和Yahoo日本的這一合作將拿下日本95%的搜索市場份額,而微軟說的更邪乎,說他們兩家合作之後整個市場的98%全是他們的囊中之物了。

無論如何,如果企業想要進軍日本是市場,由網路營銷打先陣的話,雅虎日本搜索絕對是不能放棄陣地。

圖7-2-6 微軟宣布要全力組織雅虎與谷歌合作

MSN

MSN投資達1億美元,採用自有的互聯網掃描自動化搜索技術,進行搜索引擎產品開發,現在微軟的首款搜索引擎採用11種語言,在全球內28個市場全面鋪開。MSN的數據儲備庫中儲存了 50億網址、圖像、和新聞源,宣稱使用微軟產品能夠為用戶提供「更加精確和更為人性化的答案」。微軟顯然想要攻克搜索引擎的市場,目前微軟公司旗下的Hotmail郵件系統和MSN聊天工具有3.5億用戶在使用,微軟公司夢想有一天這些hotmail和msn聊天工具的用戶同時也能使用微軟同一個系列的搜索工具。

Bai

號稱「更懂中文」的網路是目前全球最大的中文搜索引擎,也是全球最優秀的中文信息檢索與傳遞技術供應商,在中國有著60%以上的市場份額,其用戶量非常龐大。中國所有提供搜索引擎服務的門戶網站中,超過百分之七十以上的搜索引擎都由網路提供搜索引擎技術支持。網路搜索引擎在破解中文方面有著獨到的技術,網路擁有目前世界上最大的中文信息庫,信息總量超過8億頁以上,並且還在以每天幾十萬頁的速度快速增加。

?

圖7-2-7 網路搜索引擎??

搜狗

搜狐是中國最大的門戶網站,其用戶量非常可觀,於是搜狐開始創建發展自己的搜索引擎搜狗,利用自己門戶網站的優勢,搜狐網站每天有幾億人次的瀏覽量,而且訪客的質量也非常高。2008年搜狗搜索引擎在中國搜索引擎營收市場占據了1%的份額,2010年上半年這個數字下降到0.8%,只因谷歌和網路兩大搜索引擎占據了94.7%的市場份額,所以搜狗和騰訊搜搜和網易有道只能爭奪剩下的5.3%的份額。搜狗曾宣稱谷歌退出中國後其空出的市場份額就是搜狗的天下,目前看來其前路仍十分漫長。

圖7-2-8 2010上半年中國搜索引擎的市場份額

網易有道

網易有道憑借著網易163的門戶優勢,也在穩步提升自己的市場佔有率,08年也占據了0.3%的市場份額,到了10年上半年這個數字提高到0.4%。

騰訊搜搜soso

騰訊soso是騰訊旗下的搜索產品,是騰訊主要的業務單元之一。網站於2006年3月正式發布並開始運營。騰訊搜搜目前主要包括網頁搜索、綜合搜索、圖片搜索、音樂搜索、論壇搜索、搜吧等16項產品,其優勢在於龐大的QQ用戶群體,如果能將一半的QQ用戶轉化為soso用戶,騰訊soso的市場份額也將大大提高。

一些搜索引擎的提交地址:

網路:http://www..com/search/url_submit.html

GOOGLE:http://www.google.com/intl/zh-CN/add_url.html

搜狗:http://db.sohu.com/regurl/regform.asp

雅虎地址:http://search.help.cn.yahoo.com/h4_4.html

TOM:http://search.tom.com/tools/weblog/log.php

中搜:http://d.zhongsou.com/NetSearch/pageurlrecord/frontpageurl.jsp

愛問題:http://www.iask.com/guest/add_url.php

一搜:http://www.yisou.com/search_submit.html?source=yisou_www_hp

有道收錄:http://tellbot.you.com/report

⑷ 常用的搜索引擎有哪些

索引擎(search engines)是對互聯網上的信息資源進行搜集整理,然後供你查詢的系統,它包括信息搜集、信息整理和用戶查詢三部分。 搜索引擎是一個為你提供信息「檢索」服務的網站,它使用某些程序把網際網路上的所有信息歸類以幫助人們在茫茫網海中搜尋到所需要的信息。 早期的搜索引擎是把網際網路中的資源伺服器的地址收集起來,由其提供的資源的類型不同而分成不同的目錄,再一層層地進行分類。人們要找自己想要的信息可按他們的分類一層層進入,就能最後到達目的地,找到自己想要的信息。這其實是最原始的方式,只適用於網際網路信息並不多的時候。隨著網際網路信息按幾何式增長,出現了真正意義上的搜索引擎,這些搜索引擎知道網站上每一頁的開始,隨後搜索網際網路上的所有超級鏈接,把代表超級鏈接的所有詞彙放入一個資料庫。這就是現在搜索引擎的原型。 隨著yahoo!的出現,搜索引擎的發展也進入了黃金時代,相比以前其性能更加優越。現在的搜索引擎已經不只是單純的搜索網頁的信息了,它們已經變得更加綜合化,完美化了。以搜索引擎權威yahoo!為例,從1995年3月由美籍華裔楊致遠等人創辦yahoo!開始,到現在,他們從一個單一的搜索引擎發展到現在有電子商務、新聞信息服務、個人免費電子信箱服務等多種網路服務,充分說明了搜索引擎的發展從單一到綜合的過程。 然而由於搜索引擎的工作方式和網際網路的快速發展,使其搜索的結果讓人越來越不滿意。例如,搜索「電腦」這個詞彙,就可能有數百萬頁的結果。這是由於搜索引擎通過對網站的相關性來優化搜索結果,這種相關性又是由關鍵字在網站的位置、網站的名稱、 標簽等公式來決定的。這就是使搜索引擎搜索結果多而雜的原因。而搜索引擎中的資料庫因為網際網路的發展變化也必然包含了死鏈接。 這篇文章中,我們介紹了google,它是一個大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中應用廣泛。Google的設計能夠高效地抓網頁並建立索引,它的查詢結果比其它現有系統都高明。這個原型的全文和超連接的資料庫至少包含24『000『000個網頁。我們可以從http://google.stanford.e/ 下載。 設計搜索引擎是一項富有挑戰性的工作。搜索引擎為上億個網頁建立索引,其中包含大量迥然不同的詞彙。而且每天要回答成千上萬個查詢。在網路中,盡管大型搜索引擎非常重要,但是學術界卻很少研究它。此外由於技術的快速發展和網頁的大量增加,現在建立一個搜索引擎和三年前完全不同。 本文詳細介紹了我們的大型搜索引擎,據我們所知,在公開發表的論文中,這是第一篇描述地如此詳細。除了把傳統數據搜索技術應用到如此大量級網頁中所遇到的問題,還有許多新的技術挑戰,包括應用超文本中的附加信息改進搜索結果。 本文將解決這個問題,描述如何運用超文本中的附加信息,建立一個大型實用系統。任何人都可以在網上隨意發布信息,如何有效地處理這些無組織的超文本集合,也是本文要關注的問題。 關鍵詞 World Wide Web,搜索引擎,信息檢索,PageRank, Google 1 緒論 Web 給信息檢索帶來了新的挑戰。Web上的信息量快速增長,同時不斷有毫無經驗的新用戶來體驗Web這門藝術。人們喜歡用超級鏈接來網上沖浪,通常都以象Yahoo這樣重要的網頁或搜索引擎開始。大家認為List(目錄)有效地包含了大家感興趣的主題,但是它具有主觀性,建立和維護的代價高,升級慢,不能包括所有深奧的主題。基於關鍵詞的自動搜索引擎通常返回太多的低質量的匹配。使問題更遭的是,一些廣告為了贏得人們的關注想方設法誤導自動搜索引擎。 我們建立了一個大型搜索引擎解決了現有系統中的很多問題。應用超文本結構,大大提高了查詢質量。我們的系統命名為google,取名自googol的通俗拼法,即10的100次方,這和我們的目標建立一個大型搜索引擎不謀而合。 1.1網路搜索引擎—升級換代(scaling up):1994-2000 搜索引擎技術不得不快速升級(scale dramatically)跟上成倍增長的web數量。1994年,第一個Web搜索引擎,World Wide Web Worm(WWWW)可以檢索到110,000個網頁和Web的文件。到1994年11月,頂級的搜索引擎聲稱可以檢索到2『000』000(WebCrawler)至100『000』000個網路文件(來自 Search Engine Watch)。可以預見到2000年,可檢索到的網頁將超過1『000』000『000。同時,搜索引擎的訪問量也會以驚人的速度增長。在1997年的三四月份,World Wide Web Worm 平均每天收到1500個查詢。 在1997年11月,Altavista 聲稱它每天要處理大約20』000』000個查詢。隨著網路用戶的增長,到2000年,自動搜索引擎每天將處理上億個查詢。我們系統的設計目標要解決許多問題,包括質量和可升級性,引入升級搜索引擎技術(scaling search engine technology),把它升級到如此大量的數據上。 1.2 Google:跟上Web的步伐(Scaling with the Web)建立一個能夠和當今web規模相適應的搜索引擎會面臨許多挑戰。抓網頁技術必須足夠快,才能跟上網頁變化的速度(keep them up to date)。存儲索引和文檔的空間必須足夠大。索引系統必須能夠有效地處理上千億的數據。處理查詢必須快,達到每秒能處理成百上千個查詢(hundreds to thousands per second.)。隨著Web的不斷增長,這些任務變得越來越艱巨。然而硬體的執行效率和成本也在快速增長,可以部分抵消這些困難。 還有幾個值得注意的因素,如磁碟的尋道時間(disk seek time),操作系統的效率(operating system robustness)。在設計Google的過程中,我們既考慮了Web的增長速度,又考慮了技術的更新。Google的設計能夠很好的升級處理海量數據集。它能夠有效地利用存儲空間來存儲索引。優化的數據結構能夠快速有效地存取(參考4.2節)。進一步,我們希望,相對於所抓取的文本文件和HTML網頁的數量而言,存儲和建立索引的代價盡可能的小(參考附錄B)。對於象Google這樣的集中式系統,採取這些措施得到了令人滿意的系統可升級性(scaling properties)。 1. 3設計目標 1.3.1提高搜索質量我們的主要目標是提高Web搜索引擎的質量。1994年,有人認為建立全搜索索引(a complete search index)可以使查找任何數據都變得容易。根據Best of the Web 1994 -- Navigators ,「最好的導航服務可以使在Web上搜索任何信息都很容易(當時所有的數據都可以被登錄)」。然而1997年的Web就迥然不同。近來搜索引擎的用戶已經證實索引的完整性不是評價搜索質量的唯一標准。用戶感興趣的搜索結果往往湮沒在「垃圾結果Junk result」中。實際上,到1997年11月為止,四大商業搜索引擎中只 有一個能夠找到它自己(搜索自己名字時返回的前十個結果中有它自己)。導致這一問題的主要原因是文檔的索引數目增加了好幾個數量級,但是用戶能夠看的文檔數卻沒有增加。用戶仍然只希望看前面幾十個搜索結果。因此,當集合增大時,我們就需要工具使結果精確(在返回的前幾十個結果中,有關文檔的數量)。由於是從成千上萬個有點相關的文檔中選出幾十個,實際上,相關的概念就是指最好的文檔。高精確非常重要,甚至以響應(系統能夠返回的有關文檔的總數)為代價。令人高興的是利用超文本鏈接提供的信息有助於改進搜索和其它應用 。尤其是鏈接結構和鏈接文本,為相關性的判斷和高質量的過濾提供了大量的信息。Google既利用了鏈接結構又用到了anchor文本(見2.1和2.2節)。 1.3.2搜索引擎的學術研究隨著時間的流逝,除了發展迅速,Web越來越商業化。1993年,只有1.5%的Web服務是來自.com域名。到1997年,超過了60%。同時,搜索引擎從學術領域走進商業。到現在大多數搜索引擎被公司所有,很少技公開術細節。這就導致搜索引擎技術很大程度上仍然是暗箱操作,並傾向做廣告(見附錄A)。Google的主要目標是推動學術領域在此方面的發展,和對它的了解。另一個設計目標是給大家一個實用的系統。應用對我們來說非常重要,因為現代網路系統中存在大量的有用數據(us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems)。例如,每天有幾千萬個研究。然而,得到這些數據卻非常困難,主要因為它們沒有商業價值。我們最後的設計目標是建立一個體系結構能夠支持新的關於海量Web數據的研究。為了支持新研究,Google以壓縮的形式保存了實際所抓到的文檔。設計google的目標之一就是要建立一個環境使其他研究者能夠很快進入這個領域,處理海量Web數據,得到滿意的結果,而通過其它方法卻很難得到結果。系統在短時間內被建立起來,已經有幾篇論文用到了Google建的資料庫,更多的在起步中。我們的另一個目標是建立一個宇宙空間實驗室似的環境,在這里研究者甚至學生都可以對我們的海量Web數據設計或做一些實驗。 2. 系統特點 Google搜索引擎有兩個重要特點,有助於得到高精度的搜索結果。 第一點,應用Web的鏈接結構計算每個網頁的Rank值,稱為PageRank,將在98頁詳細描述它。 第二點,Google利用超鏈接改進搜索結果。 2.1 PageRank:給網頁排序 Web的引用(鏈接)圖是重要的資源,卻被當今的搜索引擎很大程度上忽視了。我們建立了一個包含518『000』000個超鏈接的圖,它是一個具有重要意義的樣本。這些圖能夠快速地計算網頁的PageRank值,它是一個客觀的標准,較好的符合人們心目中對一個網頁重要程度的評價,建立的基礎是通過引用判斷重要性。因此在web中,PageRank能夠優化關鍵詞查詢的結果。對於大多數的主題,在網頁標題查詢中用PageRank優化簡單文本匹配,我們得到了令人驚嘆的結果(從google.stanford.e可以得到演示)。對於Google主系統中的全文搜索,PageRank也幫了不少忙。 2.1.1計算PageRank 文獻檢索中的引用理論用到Web中,引用網頁的鏈接數,一定程度上反映了該網頁的重要性和質量。PageRank發展了這種思想,網頁間的鏈接是不平等的。 PageRank定義如下: 我們假設T1…Tn指向網頁A(例如,被引用)。參數d是制動因子,使結果在0,1之間。通常d等於0.85。在下一節將詳細介紹d。C(A)定義為網頁A指向其它網頁的鏈接數,網頁A的PageRank值由下式給出: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 注意PageRank的形式,分布到各個網頁中,因此所有網頁的PageRank和是1。 PageRank或PR(A)可以用簡單的迭代演算法計算,相應規格化Web鏈接矩陣的主特徵向量。中等規模的網站計算26『000』000網頁的PageRank值要花費幾小時。還有一些技術細節超出了本文論述的范圍。 2.1.2直覺判斷 PageRank被看作用戶行為的模型。我們假設網上沖浪是隨機的,不斷點擊鏈接,從不返回,最終煩了,另外隨機選一個網頁重新開始沖浪。隨機訪問一個網頁的可能性就是它的PageRank值。制動因子d是隨機訪問一個網頁煩了的可能性,隨機另選一個網頁。對單個網頁或一組網頁,一個重要的變數加入到制動因子d中。這允許個人可以故意地誤導系統,以得到較高的PageRank值。我們還有其它的PageRank演算法,見98頁。 另外的直覺判斷是一個網頁有很多網頁指向它,或者一些PageRank值高的網頁指向它,則這個網頁很重要。直覺地,在Web中,一個網頁被很多網頁引用,那麼這個網頁值得一看。一個網頁被象Yahoo這樣重要的主頁引用即使一次,也值得一看。如果一個網頁的質量不高,或者是死鏈接,象Yahoo這樣的主頁不會鏈向它。PageRank處理了這兩方面因素,並通過網路鏈接遞歸地傳遞。 & nbsp; 2.2鏈接描述文字(Anchor Text)我們的搜索引擎對鏈接文本進行了特殊的處理。大多數搜索引擎把鏈接文字和它所鏈向的網頁(the page that the link is on)聯系起來。另外,把它和鏈接所指向的網頁聯系起來。這有幾點好處。 第一,通常鏈接描述文字比網頁本身更精確地描述該網頁。 第二,鏈接描述文字可能鏈向的文檔不能被文本搜索引擎檢索到,例如圖像,程序和資料庫。有可能使返回的網頁不能被抓到。注意哪些抓不到的網頁將會帶來一些問題。在返回給用戶前檢測不了它們的有效性。這種情況搜索引擎可能返回一個根本不存在的網頁,但是有超級鏈接指向它。然而這種結果可以被挑出來的,所以此類的問題很少發生。鏈接描述文字是對被鏈向網頁的宣傳,這個思想被用在World Wide Web Worm 中,主要因為它有助於搜索非文本信息,能夠用少量的已下載文檔擴大搜索范圍。我們大量應用鏈接描述文字,因為它有助於提高搜索結果的質量。有效地利用鏈接描述文字技術上存在一些困難,因為必須處理大量的數據。現在我們能抓到24『000』000個網頁,已經檢索到259『000』000多個鏈接描述文字。 2.3其它特點除了PageRank和應用鏈接描述文字外,Google還有一些其它特點。 第一,所有hit都有位置信息,所以它可以在搜索中廣泛應用鄰近性(proximity)。 第二,Google跟蹤一些可視化外表細節,例如字型大小。黑體大號字比其它文字更重要。 第三,知識庫存儲了原始的全文html網頁。 3有關工作 Web檢索研究的歷史簡短。World Wide Web Worm()是最早的搜索引擎之一。後來出現了一些用於學術研究的搜索引擎,現在它們中的大多數被上市公司擁有。與Web的增長和搜索引擎的重要性相比,有關當今搜索引擎技術的優秀論文相當少。根據Michael Mauldin(Lycos Inc的首席科學家)) ,「各種各樣的服務(包括Lycos)非常關注這些資料庫的細節。」雖然在搜索引擎的某些特點上做了大量工作。具有代表性的工作有,對現有商業搜索引擎的結果進行傳遞,或建立小型的個性化的搜索引擎。最後有關信息檢索系統的研究很多,尤其在有組織機構集合(well controlled collections)方面。在下面兩節,我們將討論在信息檢索系統中的哪些領域需要改進以便更好的工作在Web上。 3.1信息檢索信息檢索系統誕生在幾年前,並發展迅速。然而大多數信息檢索系統研究的對象是小規模的單一的有組織結構的集合,例如科學論文集,或相關主題的新聞故事。實際上,信息檢索的主要基準,the Text Retrieval Conference(),用小規模的、有組織結構的集合作為它們的基準。 大型文集基準只有20GB,相比之下,我們抓到的24000000個網頁佔147GB。在TREC上工作良好的系統,在Web上卻不一定產生好的結果。例如,標准向量空間模型企圖返回和查詢請求最相近的文檔,把查詢請求和文檔都看作由出現在它們中的詞彙組成的向量。在Web環境下,這種策略常常返回非常短的文檔,這些文檔往往是查詢詞再加幾個字。例如,查詢「Bill Clinton」,返回的網頁只包含「Bill Clinton Sucks」,這是我們從一個主要搜索引擎中看到的。網路上有些爭議,用戶應該更准確地表達他們想查詢什麼,在他們的查詢請求中用更多的詞。我們強烈反對這種觀點。如果用戶提出象「Bill Clinton」這樣的查詢請求,應該得到理想的查詢結果,因為這個主題有許多高質量的信息。象所給的例子,我們認為信息檢索標准需要發展,以便有效地處理Web數據。 3.2有組織結構的集合(Well Controlled Collections)與Web的不同點 Web是完全無組織的異構的大量文檔的集合。Web中的文檔無論內在信息還是隱含信息都存在大量的異構性。例如,文檔內部就用了不同的語言(既有人類語言又有程序),詞彙([email]地址,鏈接,郵政編碼,電話號碼,產品號),類型(文本,HTML,PDF,圖像,聲音),有些甚至是機器創建的文件(log文件,或資料庫的輸出)。可以從文檔中推斷出來,但並不包含在文檔中的信息稱為隱含信息。隱含信息包括來源的信譽,更新頻率,質量,訪問量和引用。不但隱含信息的可能來源各種各樣,而且被檢測的信息也大不相同,相差可達好幾個數量級。例如,一個重要主頁的使用量,象Yahoo 每天瀏覽數達到上百萬次,於此相比無名的歷史文章可能十年才被訪問一次。很明顯,搜索引擎對這兩類信息的處理是不同的。 Web與有組織結構集合之間的另外一個明顯區別是,事實上,向Web上傳信息沒有任何限制。靈活利用這點可以發布任何對搜索引擎影響重大的信息,使路由阻塞,加上為牟利故意操縱搜索引擎,這些已經成為一個嚴重的問題。這些問題還沒有被傳統的封閉的信息檢索系統所提出來。它關心的是元數據的努力,這在Web搜索引擎中卻不適用,因為網頁中的任何文本都不會向用戶聲稱企圖操縱搜索引擎。甚至有些公司為牟利專門操縱搜索引擎。 4 系統分析(System Anatomy)首先,我們提供高水平的有關體系結構的討論。然後 ,詳細描述重要的數據結構。最後,主要應用:抓網頁,索引,搜索將被嚴格地檢查。 Figure 1. High Level Google Architecture 4.1Google體系結構概述這一節,我們將看看整個系統是如何工作的(give a high level),見圖1。本節不討論應用和數據結構,在後幾節中討論。為了效率大部分Google是用c或c++實現的,既可以在Solaris也可以在Linux上運行。 Google系統中,抓網頁(下載網頁)是由幾個分布式crawlers完成的。一個URL伺服器負責向crawlers提供URL列表。抓來的網頁交給存儲伺服器storeserver。然後,由存儲伺服器壓縮網頁並把它們存到知識庫repository中。每個網頁都有一個ID,稱作docID,當新URL從網頁中分析出時,就被分配一個docID。由索引器和排序器負責建立索引index function。索引器從知識庫中讀取文檔,對其解壓縮和分析。每個文檔被轉換成一組詞的出現情況,稱作命中hits。Hits紀錄了詞,詞在文檔中的位置,最接近的字型大小,大小寫。索引器把這些hits分配到一組桶barrel中,產生經過部分排序後的索引。索引器的另一個重要功能是分析網頁中所有的鏈接,將有關的重要信息存在鏈接描述anchors文件中。該文件包含了足夠的信息,可以用來判斷每個鏈接鏈出鏈入節點的信息,和鏈接文本。 URL分解器resolver閱讀鏈接描述anchors文件,並把相對URL轉換成絕對URL,再轉換成docID。為鏈接描述文本編制索引,並與它所指向的docID關聯起來。同時建立由docID對組成的鏈接資料庫。用於計算所有文檔的PageRank值。用docID分類後的barrels,送給排序器sorter,再根據wordID進行分類,建立反向索引inverted index。這個操作要恰到好處,以便幾乎不需要暫存空間。排序器還給出docID和偏移量列表,建立反向索引。一個叫DumpLexicon的程序把這個列表和由索引器產生的字典結合在一起,建立一個新的字典,供搜索器使用。這個搜索器就是利用一個Web伺服器,使用由DumpLexicon所生成的字典,利用上述反向索引以及頁面等級PageRank來回答用戶的提問。 4.2主要數據結構經過優化的Google數據結構,能夠用較小的代價抓取大量文檔,建立索引和查詢。雖然近幾年CPU和輸入輸出速率迅速提高。磁碟尋道仍然需要10ms。任何時候Google系統的設計都盡可能地避免磁碟尋道。這對數據結構的設計影響很大。 4.2.1大文件大文件BigFiles是指虛擬文件生成的多文件系統,用長度是64位的整型數據定址。多文件系統之間的空間分配是自動完成的。BigFiles包也處理已分配和未分配文件描述符。由於操縱系統不能滿足我們的需要,BigFiles也支持基本的壓縮選項。 4.2.2知識庫 Figure 2. Repository Data Structure 知識庫包含每個網頁的全部HTML。每個網頁用zlib(見RFC1950)壓縮。壓縮技術的選擇既要考慮速度又要考慮壓縮率。我們選擇zlib的速度而不是壓縮率很高的bzip。知識庫用bzip的壓縮率接近4:1。而用zlib的壓縮率是3:1。文檔一個挨著一個的存儲在知識庫中,前綴是docID,長度,URL,見圖2。訪問知識庫不需要其它的數據結構。這有助於數據一致性和升級。用其它數據結構重構系統,我們只需要修改知識庫和crawler錯誤列表文件。 4.2.3文件索引文件索引保存了有關文檔的一些信息。索引以docID的順序排列,定寬ISAM(Index sequential access mode)。每條記錄包括當前文件狀態,一個指向知識庫的指針,文件校驗和,各種統計表。如果一個文檔已經被抓到,指針指向docinfo文件,該文件的寬度可變,包含了URL和標題。否則指針指向包含這個URL的URL列表。這種設計考慮到簡潔的數據結構,以及在查詢中只需要一個磁碟尋道時間就能夠訪問一條記錄。還有一個文件用於把URL轉換成docID。它是URL校驗和與相應docID的列表,按校驗和排序。要想知道某個URL的docID,需要計算URL的校驗和,然後在校驗和文件中執行二進制查找,找到它的docID。通過對這個文件進行合並,可以把一批URL轉換成對應的docID。URL分析器用這項技術把URL轉換成docID。這種成批更新的模式是至關重要的,否則每個鏈接都需要一次查詢,假如用一塊磁碟,322『000』000個鏈接的數據集合將花費一個多月的時間。 4.2.4詞典詞典有幾種不同的形式。和以前系統的重要不同是,詞典對內存的要求可以在合理的價格內。現在實現的系統,一台256M內存的機器就可以把詞典裝入到內存中。現在的詞典包含14000000詞彙(雖然一些很少用的詞彙沒有加入到詞典中)。它執行分兩部分—詞彙表(用null分隔的連續串)和指針的哈希表。不同的函數,詞彙表有一些輔助信息,這超出了本文論述的范圍。 4.2.5 hit list hit list是一篇文檔中所出現的詞的列表,包括位置,字型大小,大小寫。Hit list占很大空間,用在正向和反向索引中。因此,它的表示形式越有效越好。我們考慮了幾種方案來編碼位置,字型大小,大小寫—簡單編碼(3個整型數),緊湊編碼(支持優化分配比特位),哈夫曼編碼。Hit的詳細信息見圖3。我們的緊湊編碼每個hit用2位元組。有兩種類型hit,特殊hit和普通hit。特殊hit包含URL,標題,鏈接描述文字,meta tag。普通hit包含其它每件事。它包括大小寫特徵位,字型大小,12比特用於描述詞在文檔中的位置(所有超過4095的位置標記為4096)。字型大小採用相對於文檔的其它部分的相對大小表示,佔3比特(實際只用7個值,因為111標志是特殊hit)。特殊hit由大小寫特徵位,字型大小位為7表示它是特殊hit,用4比特表示特殊hit的類型,8比特表示位置。對於anchor hit八比特位置位分出4比特用來表示在anchor中的位置,4比特用於表明anchor出現的哈希表hash of the docID。短語查詢是有限的,對某些詞沒有足夠多的anchor。我們希望更新anchor hit的存儲方式,以便解決地址位和docIDhash域位數不足的問題。

⑸ web搜索引擎屬於人工智慧嗎

web搜索引擎是屬於人工智慧的

web(World Wide Web)即全球廣域網,也稱為萬維網,它是一種基於超文本和HTTP的、全球性的、動態交互的、跨平台的分布式圖形信息系統。

是建立在Internet上的一種網路服務,為瀏覽者在Internet上查找和瀏覽信息提供了圖形化的、易於訪問的直觀界面,其中的文檔及超級鏈接將Internet上的信息節點組織成一個互為關聯的網狀結構。


web的表現形式:

超文本是一種用戶介面方式,用以顯示文本及與文本相關的內容。現時超文本普遍以電子文檔的方式存在,其中的文字包含有可以鏈接到其他欄位或者文檔的超文本鏈接,允許從當前閱讀位置直接切換到超文本鏈接所指向的文字。

超文本的格式有很多,目前最常使用的是超文本標記語言(Hyper Text Markup Language,HTML)及富文本格式 (Rich Text Format,RTF)。我們日常瀏覽的網頁上的鏈結都屬於超文本。

超文本鏈接一種全局性的信息結構,它將文檔中的不同部分通過關鍵字建立鏈接,使信息得以用交互方式搜索。

超媒體是超級媒體的簡稱。是超文本(hypertext)和多媒體在信息瀏覽環境下的結合。用戶不僅能從一個文本跳到另一個文本,而且可以激活一段聲音,顯示一個圖形,甚至可以播放一段動畫。

Internet採用超文本和超媒體的信息組織方式,將信息的鏈接擴展到整個Internet上。Web就是一種超文本信息系統,Web的一個主要的概念就是超文本鏈接。

它使得文本不再像一本書一樣是固定的線性的,而是可以從一個位置跳到另外的位置並從中獲取更多的信息,還可以轉到別的主題上。想要了解某一個主題的內容只要在這個主題上點一下,就可以跳轉到包含這一主題的文檔上。正是這種多連接性把它稱為Web。

超文本傳輸協議(HTTP,HyperText Transfer Protocol)是互聯網上應用最為廣泛的一種網路協議。

⑹ 中國的搜索引擎有哪些

中國的搜索引擎有搜搜、360、網路 、有道 、搜狗。

1、搜狗是搜狐公司的旗下子公司,於2004年8月3日推出,目的是增強搜狐網的搜索技能,主要經營搜狐公司的搜索業務。在搜索業務的同時,也推出搜狗輸入法、搜狗高速瀏覽器。

2、網路(納斯達克:BIDU),全球最大的中文搜索引擎及最大的中文網站,全球領先的人工智慧公司。網路願景是:成為最懂用戶,並能幫助人們成長的全球頂級高科技公司。

3、搜搜是騰訊旗下的搜索網站,是騰訊主要的業務單元之一。網站於2006年3月正式發布並開始運營。搜搜目前已成為中國網民首選的三大搜索引擎之一,主要為網民提供實用便捷的搜索服務,同時承擔騰訊全部搜索業務,是騰訊整體在線生活戰略中重要的組成部分之一。

4、360綜合搜索,屬於元搜索引擎,是搜索引擎的一種,是通過一個統一的用戶界面幫助用戶在多個搜索引擎中選擇和利用合適的(甚至是同時利用若干個)搜索引擎來實現檢索操作,是對分布於網路的多種檢索工具的全局控制機制。

5、有道是網易旗下利用大數據技術提供移動互聯網應用的子公司。網易有道公司已推出有道詞典、有道雲筆記、惠惠網、有道推廣等一系列產品。

⑺ 用web搜索引擎進行信息檢索時,關鍵詞檢索和分類檢索的區別,各自的特點是什麼

一、主體不同

1、關鍵詞檢索:當用戶利用某一關鍵詞進行檢索。

2、主體檢索:又稱全文檢索,是全文檢索系統的主要構成部分。

二、特點不同

1、關鍵詞檢索:搜索引擎具有絕對領先的網路商業流量。

2、主體檢索:將一個完整的信息源的全部內容轉化為計算機可以識別。


三、優勢不同

1、關鍵詞檢索:是在特定關鍵詞的檢索時,才出現在搜索結果頁面的顯著位置。

2、主體檢索:僅存儲了信息,而且還有對全文數據進行詞、字、段落等更深層次的編輯。

⑻ 互聯網上有哪幾個搜索引擎(越多越好)

1. Yahoo!(http://www.yahoo.com) Yahoo!是目前最常用的引擎之一,是Internet引擎的"元老"。 Yahoo!的使用很簡單,可以直接輸入查找關鍵字,也可以先選分類主題進行分類查詢 ,它將返回三種信息: 1. 滿足查詢條件的Yahoo目錄(用戶可以利用它們進行交叉引用); 2. 滿足條件的實際站點; 3. 更廣泛的含有頁面索引的Yahoo!目錄,是一種更 廣泛的交叉引用。 Yahoo!也提供了一些簡單的高級查詢,其配置選項有: S搜索的范圍:Yahoo(預設)、Usenet或E-mail Address; S搜索詞之間的關系:OR或AND(預設); S可以進行子串搜索,將其設置Substrings或Complete words兩種,其中Substrings將 我們輸入的詞作為一個子串,Complete words表示進行完整的單詞搜索,預設是子串搜索 ·控制每頁顯示的結果數目:10、25(預設)、50或100。 Yahoo!在高級查詢上並不是很完善,但是Yahoo!在其主頁的末尾提供了其他引擎如A ltaVista的超連接,如果用戶在Yahoo!查不到所需資料,Yahoo!可以到這些地方去搜索。 從而彌補了Yahoo!的一些缺陷。 2. InfoSeek(http://guide.infoseek.com) InfoSeek是一個高效的搜索引擎,它的特點是:搜索精度高,查到的節點一般都與用 戶的要求相符。其搜索結果按照相關程度依次顯示。每一個結果顯示該HTML文件的標題 、摘要、大小。 InfoSeek引擎擁有最好的搜索參數的集成,它允許用戶在填寫查尋要求時可以隨心所 欲地不厭其詳,而它在後台則施以適當的邏輯組合。這就意味著,用戶可以忽略如何使用 搜索引擎,只要集中精力把自己想提的問題寫好就行了。 InfoSeek資料庫中每一網頁的所有文本都被檢索,它的搜索具有"事件敏感性"(case sensitive),即對某些名字進行搜索時,搜索的效率會明顯提高。用戶輸入一個短語後,I nfoseek會使用與短語最接近的排位方法,提高搜索結果的相關性。 InfoSeek可以提供以下的搜索范圍: SWeb:在整個WWW信息系統內查找; SNews:在實時新聞中查找; SCompany:在公司名目中搜索; SNewsgroups:在新聞組中搜索。 Infoseek的搜索方法包括: 1. 片語(短語)搜索 這時需對片語加上雙引號,以示與單個詞的區別; 2. 查找同時出現的詞 對所要搜索的關鍵詞加上[ ],表示括弧內的詞在文本中出現 時,其間隔不超過100個詞。 3. AltaVista(altavista.digital.com) AltaVista自1996年12月開始服務以來,引起了世界各地網民的廣泛注意,每天都要 接受200萬次以上的訪問。AltaVista自詡擁有2100多萬全文索引的網頁,可以稱得上是最 大的網路搜索資料庫。 相對其他搜索引擎而言,AltaVista的搜索結果總是比其他任何站點的搜索結果內容 更豐富,AltaVista的搜索范圍大得驚人,有人說能對網路的天涯海角進行徹底搜索的僅此 一家,就連一些鮮為人知的偏僻站點也能找到。所以,使用AltaVista時,要花更多的時間 在搜索結果里尋找自己想要的信息。不過,如果你的目的就是想找到關於某個主題的站點 ,多多益善,那麼AltaVista是最好的選擇。 根據檢索的對象,AltaVista搜索引擎提供三大類信息檢索:Web檢索和新聞組檢索、 商業檢索以及人物檢索。除公共檢索服務外,AltaVista還提供免費E-mail、頁面翻譯等 相關服務。它的搜索方法分為簡單和高級兩種。 1. 簡單搜索 AltaVista搜索引擎推薦使用的檢索方法, 是直接使用自然語言輸入檢索提問。檢索 提問可以是自然語言的單詞、片語或短語以及完整的問題。對使用AltaVista的最有用的 建議是, 由於它的索引是基於整個單詞的正文的,在描述查找的單詞時越精確越好,還要 去掉那些不感興趣的單詞。 2. 高級搜索 高級搜索包含了簡單搜索的所有特性,還可以有布爾和接近操作符、括起來的邏輯組 合等。AltaVista支持二元操作符AND、OR、NEAR和一元操作符NOT。 AltaVista的接近操作符(NEAR)很有特色。可以使用NEAR/n,n是兩個被搜索詞之間的 單詞的數目,如:Microsoft NEAR/5 Internet表示在"Microsoft"和"Internet"這兩個關 鍵字之間的單詞數目不得超過5個。如果不輸入n,表示兩個詞挨在一起。為了控制挨在一 起的兩個詞之間的順序,可以使用 ADJ 操作符,如:Microsoft ADJ Internet,表示Micro soft 必須在Internet之前。 4. Lycos ( http://www.lycos.com) Lycos是最老資格的搜索引擎之一,只要能給出准確的搜索結果,Lycos通常能給出最 全面的結果(基本上與AltaVista相同)。 Lycos的搜索范圍分的較細,這樣可以減少命中 的數量,可選擇的項目有: The Web、Web Site Reviews、Personal Home- pages、Message Boards、Reuters News、Weather (city)、Cities、Dictionary、Stock (symbol)、Music (artist)、B ooks、Pictures、Sounds、Downloads、Recipes等。 Lycos不是周期性地更新資料庫,而是採用累積的形式構築資料庫。在對新的和原來 存在的資料庫進行信息升級時,Lycos軟體通過觀察其他站點通向某一站點的鏈接數而評 價這個站點的知名度。然後引擎在每次搜索時都使用這一知名度索引,所以每次搜索結果 的相關性在一定的程度上取決於站點的相對知名度。 Lycos搜索結果的容量非常之大,你如果試圖在網上迅速找到某個內容,Lycos不是最 好的選擇,如果你需要對網上的內容廣進博收,多多益善,Lycos可能會為你找到一些其他 站點找不到的內容。 Lycos在支持邏輯搜索和高級搜索功能方面較弱。 Lycos不提供要求/排除單詞的功能, 但可以在一個單詞前加一個"-"號,表示在給結 果定等級時,不考慮這個單詞。 Lycos的通配符是$符號。如gen$ 表示 genetic、 genesis、general等。它還提供 了英文句號(.)的使用,可以禁止擴展一個單詞。如gene.,只能得到gene,而得不到genet ics和general。 5. Excite(http://www.excite.com) Netscape在其Navigator瀏覽器的NetDirectory命令條中選中了Excite作為其中的一 個鏈接,這使Excite的知名度明顯提高。眾多的訪問大大提高了Excite站點的流通量。 Excite使用的是基於關鍵詞或基於概念的正文和主題搜索。概念搜索是指搜索引擎 不只簡單地查找含有要查找的單詞的文檔,同時還搜索與要查找的概念相關的文檔。預設 的查找是概念查找。Excite既提供網路搜索引擎,又提供以類目形式組織起來的網路目錄 (類似於Yahoo的目錄索引)。 Excite中要求的單詞和排除的單詞的使用方法同AltaVista一樣,使用+號和-號,Exc ite支持二元操作符AND、OR 和一元操作符NOT,它也支持用括弧來構成邏輯組。 6. Webcrawler(http://www.webcrawler.com) Webcrawler 是一個傑出的搜索引擎, 它的界面有些像 AltaVista。實際上,它在 高級搜索方面的功能要比AlataVista強。它提供事先分好類的19個主題,實現了基於主題 的搜索。 Webcrawler號稱支持"自然語言搜索",所以可以輸入像"highest mountain in the world(世界上最高的山)"這樣的查詢條件。它拋棄了無意義的詞,對其餘的詞做模糊的A ND搜索,含有所有的詞的頁面等級最高, 但也能查到只含一個詞的頁面,這是那些最佳引 擎的通用策略。 Webcrawler的片語、邏輯和接近操作符的使用類似於AltaVista。Webcrawler不支 持要求/排除的單詞的查找,也不支持通配符。 WebCrawler的主要缺點是,它對搜索到的每個條目都不顯示文本內容摘要。用戶只能 看到網頁題目和顯示WebCrawler相關性排名的數字。所以,除非網頁題目直接描述網頁內 容,否則用戶只能到這個站點訪問,才能得知其網頁內容。 在互聯網上,中文內容只佔約4%,絕大多數是英文內容,所以只有掌握英文搜索才能真正的深入互聯網。但是,英文搜索引擎很多,變化也很快,應該用哪個搜索,和怎麼搜索呢?今天,我就來介紹幾個最有代表性的英文搜索引擎。 Ask (www.ask.com,又名askjeeves) Ask是一個支持自然提問的搜索引擎,它的資料庫里儲存了超過1000萬個問題的答案,只要你用英文直接輸入一個問題,它就會給出問題答案,如果你的問題答案不在它的資料庫中,那麼它會列出一串跟你的問題類似的問題和含有答案的鏈接,供你選擇。 根據網友們的使用經驗,當你遇到一些屬於事實型、原理型的問題時,使用Ask是最方便的。例如:「美國歷任總統中就任時年紀最輕的是誰?」、「阿富汗的首都叫什麼?」、「飛機是哪一年發明的?」、「雪為什麼是白的?」、「為什麼吃豆子的人愛放屁?」、「恐龍為什麼滅絕?」、「後街男孩的網站在哪裡?」。你還可以問它各種奇怪的問題,例如:「現在幾點了?」、「羅馬帝國為什麼崩潰?」、「聖誕老人住在哪兒?」,它都會給你答案的。 dmoz(www.dmoz.org,又名ODP) 有的網友不喜歡自己輸入英文單詞搜索,而是喜歡用滑鼠點擊分類目錄隨意瀏覽,那麼我向你推薦dmoz。 dmoz是互聯網合作共享精神的結晶,它的4萬多名志願編輯都是各行各業的專業人員,大家走到一起免費製作dmoz,提供給任何個人和組織免費使用。dmoz已經收錄了40多萬子目錄和近300萬個網站,是世界上最大的、也是最好的網站分類目錄,已經被世界各國400多個網站選做默認搜索引擎。dmoz使用起來非常方便,它提供相關目錄使你不容易漏掉其它目錄里的的相關內容,它還用一顆小星星推薦各個目錄下最好的網站,使初學者不會被太多的網站弄迷途。 另外,任何人都可以申請成為dmoz的搜索引擎編輯,你也可以去申請,嘗試一下親自做搜索引擎編輯的感覺,不過,要被批准可得有點實力才行哦。 Google(www.google.com) Google是在國外很受歡迎的搜索引擎,界面簡潔,以搜索結果的准確性著稱,它的網頁快照和圖片搜索也很有特色。 網頁快照就是網頁的備份,你在Google搜索的時候,如果發現某條搜索結果點不進去,是死鏈接,那麼只要點擊搜索結果旁邊的網頁快照(Cached),就能看到Google保存的備份網頁。 Google還有世界上最大的圖片搜索引擎(images.google.com),收集了互聯網上3.3億張圖片,如果你想找哪個偶像的照片、想找某個名勝的風景照、想找軍事兵器圖片、、、只要輸入合適的英文單詞,很容易找到滿意的圖片。 search(www.search.com) search屬於元搜索引擎,它收集了800多種專業搜索引擎和資料庫,分為商業金融、娛樂、健康醫葯、新聞媒體、評論、計算機、游戲、國際、尋人、購物、下載、政府、音樂、參考資料、旅行共15個大主題,每個大主題又分許多小主題。 當你進入任何一個主題搜索的時候,它都可以同時搜索這個主題下的多個專業搜索引擎和資料庫,然後在一個頁面上顯示來自不同搜索引擎的搜索結果。 比如進入大主題「新聞媒體」搜索,它把搜索結果分為頭條新聞、商業新聞、體育新聞、娛樂新聞、科技新聞、雜志、報紙,如果再進入小主題「科技新聞」搜索,那麼它可以同時搜索CNET、PC World、ZDNet、IDG.net、TechWeb這5個著名的科技新聞網站,足夠保證你得到最全最新的科技新聞。 好了,每個搜索引擎都有獨特的優缺點,不同的需要就應該使用不同的搜索引擎。 如果你搜索英文內容,那麼我給你推薦的使用習慣是:上網隨便逛逛就用dmoz,平時搜索就用google,有問題就問ask,要做特定的主題搜索就用search.com。

⑼ 常用的搜索引擎都有哪些基本類型

1,垂直搜索

垂直搜索引擎為2006年後逐步興起的一類搜索引擎。不同於通用的網頁搜索引擎,垂直搜索專注於特定的搜索領域和搜索需求(例如:機票搜索、旅遊搜索、生活搜索、小說搜索、視頻搜索、購物搜索等等)。

在其特定的搜索領域有更好的用戶體驗。相比通用搜索動輒數千台檢索伺服器,垂直搜索需要的硬體成本低、用戶需求特定、查詢的方式多樣。

2,集合式搜索

集合式搜索引擎:該搜索引擎類似元搜索引擎,區別在於它並非同時調用多個搜索引擎進行搜索,而是由用戶從提供的若干搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎。

3,門戶搜索

門戶搜索引擎:AOLSearch、MSNSearch等雖然提供搜索服務,但自身既沒有分類目錄也沒有網頁資料庫,其搜索結果完全來自其他搜索引擎。

(9)web搜索引擎有什麼擴展閱讀:

搜索引擎作用:

搜索引擎是網站建設中針對「用戶使用網站的便利性」所提供的必要功能,同時也是「研究網站用戶行為的一個有效工具」。高效的站內檢索可以讓用戶快速准確地找到目標信息,從而更有效地促進產品/服務的銷售,

而且通過對網站訪問者搜索行為的深度分析,對於進一步制定更為有效的網路營銷策略具有重要價值。

⒈從網路營銷的環境看,搜索引擎營銷的環境發展為網路營銷的推動起到舉足輕重的作用;

⒉從效果營銷看,很多公司之所以可以應用網路營銷是利用了搜索引擎營銷;

⒊就完整型電子商務概念組成部分來看,網路營銷是其中最重要的組成部分,是向終端客戶傳遞信息的重要環節。

⑽ 世界上都有哪幾個搜索引擎

全球十大搜索引擎

Google(谷歌)

全球第一搜索引擎

Bing(必應)
Bing是微軟旗下的搜索引擎,感覺它的搜索界面背景圖非常美,是谷歌最好的替代品,備胎中的戰斗機。

Yahoo!(雅虎)
在搜索方面,雅虎表現中規中矩,網頁搜索表現不錯,但死鏈率較高而且缺少一些應有的高級搜索功能。

Bai(網路)
全球最大的中文搜索引擎

Ask

Ask搜索引擎是國外比較出名的一款搜索引擎,其規模雖不大,但很有特色。Ask是DirectHit的母公司,於2001年收購Teoma搜索引擎,並全部採用Teoma搜索結果。是支持自然提問的搜索引擎,其資料庫里儲存了超過1000萬個問題的答案,只要用戶用英文直接輸入一個問題,它就會給出問題答案,如果用戶的問題答案不在其資料庫中,那麼它會列出一串跟用戶的問題類似的問題和含有答案的鏈接,供用戶選擇。

Aol
Aol Search是美國在線旗下搜索引擎網站。Aol Search為用戶提供快速、方便地訪問相關視頻、圖片、本地地圖、新聞、股市行情和更全面的網頁搜索結果。Aol Search的搜索技術服務是由谷歌提供的。

DuckDuckGo

DuckDuckGo是一個很特殊的網路搜索引擎,他和Google、Bing 這些不一樣,他不會追蹤、搜尋用戶的信息,這對用戶來說可以安個心了。

WolframAlpha
與其他搜索引擎不同,WolframAlpha其實是一個計算知識引擎,它真正的創新之處在於能夠馬上理解問題,並給出答案。它可以進行各種算術,還有數據分析,物理,藝術等等各個行業的查詢。

Яндекс
Yandex搜索引擎是俄羅斯第一大搜索引擎,創建於1997年,目前已經發展成為一個提供搜索、圖片共享、社交網路、網路支付、免費網站託管、以及其它服務的門戶網站。因為份額太小,我們就不放數字了。

webcrawler
WebCrawler是一個融合來自谷歌搜索和雅虎搜索等世界著名的搜索結果的元搜索引擎。WebCrawler為用戶提供搜索圖片、音頻、視頻、新聞、黃頁和白頁的選項卡。

這是月獨立訪問者比較大的幾個搜索引擎,當然了還有很多份額比較小的搜索。

2018中國搜索引擎的PC端市場份額

網路:57.16%;

360搜索:30.09%;

Google:4.53%;

必應:3.81%;

搜狗搜索:3.71%

其他:0.7

月獨立訪問者