Ⅰ 關於百度
網路簡介
2000年1月創立於北京中關村,是全球最大的中文搜索引擎。
2000年1月1日,公司創始人李彥宏、徐勇攜120萬美元風險投資,從美國矽谷回國,創建了網路公司。創立之初,網路就將自己的目標定位於打造中國人自己的中文搜索引擎,並願為此目標不懈的努力奮斗。
2000年5月,網路首次為門戶網站——矽谷動力提供搜索技術服務,之後迅速佔領中國搜索引擎市場,成為最主要的搜索技術提供商。2001年8月,發布Bai.com搜索引擎Beta版,從後台服務轉向獨立提供搜索服務,並且在中國首創了競價排名商業模式,2001年10月22日正式發布Bai搜索引擎。
2005年8月5日,網路在美國納斯達克上市,成為2005年全球資本市場上最為引人注目的上市公司,網路由此進入一個嶄新的發展階段。
網路(www..com)(Nasdaq:BIDU)是全球最大的中文搜索引擎,2000年1月由李彥宏、徐勇兩人創立於北京中關村,致力於向人們提供「簡單,可依賴」的信息獲取方式。 「網路」二字源於中國宋朝詞人辛棄疾的《青玉案》詩句:「眾里尋他千網路」,象徵著網路對中文信息檢索技術的執著追求。
●關於網路
網路,領先的中文搜索引擎。每分每秒,網路以超過億計的中文網頁,全球獨有的"超鏈分析"技術,亞秒級的迅捷速度,龐大的伺服器群,接受來自全球各個國家的中文搜索請求。每一年,通過對數十億次搜索的響應,數千萬的網民從網路分享到最純粹的搜索體驗,徜徉信息之海。
網路公司是中國互聯網領先的軟體技術提供商和平台運營商。中國提供搜索引擎的主要網站中,超過80%由網路提供。1999年底,網路成立於美國矽谷,它的創建者是在美國矽谷有多年成功經驗的李彥宏先生及徐勇先生。2000年網路公司回國發展。網路的起名,來自於"眾里尋她千網路"的靈感,它寄託著網路公司對自身技術的信心。
網路公司自進入中國互聯網及軟體市場以來,就一直以開發真正符合中國人習慣的互聯網核心技術為使命,依靠自身實力不斷研發出擁有自主知識產權的可擴展的網路應用軟體。
網路的產品及服務是針對不同企業及各機構網路化的基本需求而設計的,主要產品線有:一、基於全球互聯網的中文網頁檢索。這條產品線主要服務於門戶網站,客戶包括Sina, Sohu, Tom.com ,263在線,21CN,上海熱線,廣州視窗等。二、企業級的信息檢索解決方案,包括網事通系列軟體及網路企業競爭情報系統。其中,網事通系列軟體包括網站站內檢索系統,行業垂直檢索系統,新聞監控系統,企業垂直檢索系統,實時信息系統及信息採集系統。目前,這些企業級的信息檢索解決方案正服務於各個不同領域,包括電信企業,如廣東電信,河北電信;金融企業,如中國人民銀行,中國銀行;傳媒領域,如中央電視台,香港TVB,光明日報網;教育領域,如清華大學等。此外,網路還利用遍布在全國龐大的CDN網路提供的信息傳遞技術(即網站加速及網路緩存技術),它的使用者包括深圳商報,四川新聞網,中國基礎教育網等。
2001年10月網路依據李彥宏先生的第三定律和網路自身龐大的搜索用戶群,適時地推出了搜索引擎競價排名這一全新的商業模式。競價排名,是指由用戶(通常為企業)為自己的網頁出資購買關鍵字排名,按點擊計費的一種服務。通過競價排名,搜索結果的順序將根據競價的多少由高到低排列,同時奉行不點擊不收費的原則。目前,加入競價排名推廣陣營的網站包括各大中文門戶網站、中國各地信息港以及網路提供技術支持的所有網站,來自於不同領域的數千家企業和個人主頁參與了競價排名。
●關於網路搜索引擎
網路搜索引擎使用了高性能的"網路蜘蛛"程序自動的在互聯網中搜索信息,可定製、高擴展性的調度演算法使得搜索器能在極短的時間內收集到最大數量的互聯網信息。網路在中國各地和美國均設有伺服器,搜索范圍涵蓋了中國大陸、香港、台灣、澳門、新加坡等華語地區以及北美、歐洲的部分站點。網路搜索引擎擁有目前世界上最大的中文信息庫,總量達到6000萬頁以上,並且還在以每天幾十萬頁的速度快速增長。
網路一直以開發最符合中國人使用習慣的搜索引擎為己任,經過三年努力,網路搜索引擎已成為世界上最強大的中文搜索引擎。
核心技術:超鏈分析
超鏈分析技術,是新一代搜索引擎的關鍵技術,已為世界各大搜索引擎普遍採用,網路總裁李彥宏就是超鏈分析專利的唯一持有人。在學術界,一篇論文被引用得越多就說明其越好,學術價值就越高。超鏈分析就是通過分析鏈接網站的多少來評價被鏈接的網站質量,這保證了用戶在網路搜索時,越受用戶歡迎的內容排名越靠前。
●更大、更新、更快
網路在中文互聯網擁有天然優勢,支持搜索1億3千萬中文網頁,是世界上最大的中文搜索引擎。
並且,網路每天都在增加幾十萬新網頁,對重要中文網頁實現每天更新,用戶通過網路搜索引擎可以搜到世界上最新最全的中文信息。
網路在中國各地分布的伺服器,能直接從最近的伺服器上,把所搜索信息返回給當地用戶,使用戶享受極快的搜索傳輸速度。
●為中文用戶度身定做
網路深刻理解中文用戶搜索習慣,開發出關鍵詞自動提示:用戶輸入拼音,就能獲得中文關鍵詞正確提示。
網路還開發出中文搜索自動糾錯;如果用戶誤輸入錯別字,可以自動給出正確關鍵詞提示。
網路快照是另一個廣受用戶歡迎的特色功能,解決了用戶上網訪問經常遇到死鏈接的問題:網路搜索引擎已先預覽各網站,拍下網頁的快照,為用戶貯存大量應急網頁。即使用戶不能鏈接上所需網站時,網路為用戶暫存的網頁也可救急。而且通過網路快照尋找資料往往要比常規方法的速度快得多。
網路還有其它多項體貼普通用戶的功能,包括相關搜索、中文人名識別、簡繁體中文自動轉換、網頁預覽等。
網路已增加了專業的MP3搜索、Flash搜索、新聞搜索、信息快遞搜索,並正在快速發展其它用戶喜歡的搜索功能。網路搜索引擎,將發展為最全面的搜索引擎,為所有中文用戶打開互聯網之門。
●網路創建人
李彥宏 先生
李彥宏,網路網路技術有限公司總裁。1991年畢業於北京大學信息管理專業,後赴美國布法羅紐約州立大學完成計算機科學碩士學位。在美國的8年間,李彥宏先生先後擔任了道·瓊斯公司高級顧問,《華爾街日報》網路版實時金融信息系統設計者,以及在國際知名互聯網企業-INFOSEEK資深工程師,是新一代互聯網技術領域的權威專家。他最先創建了ESP技術,並將它成功的應用於INFOSEEK/GO.COM的搜索引擎中。GO.COM的圖像搜索引擎是他的另一項極其具有應用價值的技術創新。1996年,他首先解決了如何將基於網頁質量的排序與基於相關性排序完美結合的問題,並因此獲得美國專利。
1999年底,攜風險投資回國與好友徐勇共同創建網路網路技術有限公司。在他的帶領下,網路公司一直依靠自身實力為廣大網民提供優秀的搜索引擎,推出全新商業模式---搜索引擎競價排名,為眾多企業提供新時代最先進的網路營銷工具以及擁有自主知識產權的企業級應用軟體,同時為主要中文門戶提供最先進的搜索引擎技術服務。網路在技術方面不斷保持技術領先優勢。相繼發布mp3搜索、圖片搜索、新聞搜索等個性化服務。2003年 6月,據美國第三方權威統計機構alexa統計,在最受歡迎的中文網站中網路已經位居第四,表明網路已殺進國內網站4強,成為世界上最強大的中文搜索引擎和中國網民首選的搜索引擎。網路的出現,為中國互聯網樹起了民族技術的一面旗幟。
2001年,李彥宏先生被評選為 "中國十大創業新銳"之一。
2001年,李彥宏先生捐贈清華大學助教工程2002年,李彥宏先生榮獲首界「中國十大IT風雲人物」稱號。
2003年,李彥宏先生榮獲「北京市統戰系統防治非典型肺炎工作先進個人」稱號。
2003年,李彥宏先生榮獲「中關村科技園區第二屆優秀優秀創業者」稱號。
徐勇 先生
徐勇,1982年就讀北京大學生物系,1989年完成生物碩士學位後,獲美國洛克菲勒基金會博士獎學金,赴美留學,於美國德州A&M大學完成博士學位,隨後任加州大學伯克利分校博士後。在美國10年期間,徐勇先後任職於兩家著名的跨國高新技術公司(QIAGEN, Inc.和Stratagene公司)的高級銷售經理,並且獲得過傑出銷售獎。1998年,徐勇作為製片人之一拍攝了大型專題紀錄片《走進矽谷》,客觀以及全面的反映矽谷的發展過程,深度探求了矽谷成功背後的種種因素。在矽谷他多次應邀給來自中國大陸的高級政府官員介紹矽谷的風險投資機制和創業文化。1999年,徐勇與他人合作創立Cybercalling.com公司,這個網路電子商務公司在六個月內就實現了贏利。他與矽谷的眾多商業團體都保持著密切的聯系, 並為許多新興的高科技企業提供商業咨詢。1999年底,徐勇與好友李彥宏回國創建了網路網路技術有限公司。
Ⅱ .什麼是Web標准,遵循Web標準的意義。
1.什麼是web標准?
首先要明確一個概念。我們本書講的web標准,不是指XML,而是指為了實現大量HTML信息向XML標準的過渡,W3C和ECMA制定的一系列的技術規范,目前主要包括XHTML1.0、CSS2.0、DOM1.0和ECMA JavaScrit。web標准不僅僅是一個規范,而是一系列規范的總稱。
按這些規范製作的網頁,符合XML格式規范,內容與表現相分離,將使你的頁面數據在以後可以被分享、交換和重用。
下面,讓我們一起了解一些重要的基礎知識。如果你已經掌握,可以跳過直接閱讀第二節
。
2. 什麼是w3c?
W3C是「World Wide Web Consortium」的縮寫,中文稱萬維網組織。是一個專注於「領導和發展web技術」的國際工業行業協會。它由萬維網發明者Time Berners-Lee領導,成立與1994年。W3C已經有超過500家的會員--包括微軟、美國在線(Netscape的母公司)、蘋果電腦、 Adobe、Macromedia、SUN 以及各類主流硬體、軟體製造商和電信公司。學會主要研究由三家學術機構主理--美國麻省理工學院(MIT)、法國的歐洲信息與數學研究論壇 (ERCIM)、日本的應慶大學(KEIO)。
W3C主要工作是研究和制定開放的規范(事實上的標准),以便提高web相關產品的互用性。W3C的推薦規范的制定都是由來自於會員和特別邀請的專家組成的工作組完成。工作組的草案(Drafts)在通過多數相關公司和組織同意後提交給W3C理事會討論,正式批准後才成為「推薦規范 (Recommendations)」發布。更多的信息您可以訪問W3C的網站:www.w3.org
web標準的優勢
5.1 易用性
用web標准製作的頁面,對搜索引擎更加「透明」,因為良好清晰的結構使得搜索引擎能夠方便的判斷與評估信息,從而建立更精確的索引。按web標准製作的頁面也可以在更老版本的瀏覽器中正常顯示基本結構,即使CSS/XSL樣式無法解析,它也能顯示出完整的信息和結構。
符合web標準的頁面也很容易被轉換成其他格式文檔,例如資料庫或者word格式,也容易被移植到新的系統--硬體或者軟體系統,比如網路電視、PDA等等。這是XML天生具有的優勢。
符合web標準的頁面也具有天生的「易用性(accessibility)」,不僅僅是普通瀏覽器可以閱讀,那些有殘疾的人們也可以通過盲人瀏覽器、聲音閱讀器正常使用。
5.2 向後兼容性
使用web標准建立的頁面,將在未來的新瀏覽器或者新網路設備中很好的工作。我們只要修改CSS或者XSL定製相應的表現形式就可以了。
關於web標準的好處
1.科技在進步,網路帶寬越來越大,速度越來也快,節省那點位元組有意義嗎?
web標準的好處之一是:用web標准製作的頁面代碼量小,可以節省帶寬。這只是web標准附帶的好處,因為DIV的結構本身就比TABLE簡單,TABLE布局的層層嵌套造成代碼臃腫,文件尺寸膨脹。通常情況下,相同表現的頁面用DIV+CSS比用TABLE布局的節省2/3的代碼。這是web標准天生的好處。至於節省帶寬的意義並不主要針對普通用戶,而主要針對網站經營者,特別是中大型網站,類似新浪、網易這樣的站點。一個新聞首頁從500K縮小到170k,假設一天的pageview是3000萬(保守數字),那麼節省的伺服器流量就是330k*30000000=9440G,這個成本的節約是可觀的。
2.我需要考慮殘障人士(盲人和弱視)嗎?
為殘障人士提供網路瀏覽方便是美國及歐洲一些國家的法律規定,由於web標准頁面的清晰結構、語義完整,一些相關設備能很容易的正確提取信息給殘障人士。因此,方便盲人閱讀信息也成為web標準的天生好處之一。至於有人說中國目前還有很多人為解決溫飽發愁,哪有時間考慮殘障人士。這是社會文明和社會道德問題,不在本書討論范疇。但如果你頁面按web標准製作了,就能達到這個效果,何樂而不為呢?
關於瀏覽器兼容
1.我不需要關心web標准,IE佔有99%的市場,我做的頁面只要IE能看就可以了。
「以用戶為核心」通常都是反對web標准者的檔箭牌,實際上這是虛偽的「以用戶為核心」。你不能保證IE永遠是壟斷瀏覽器市場,你也不能保證IE不做任何改變(事實上,微軟的IE7已經開始改善對 web標準的支持)。堅持用html+table布局製作的頁面將是「死」的信息,不方便搜索,無法重用與共享,從長遠來講,這才是對用戶最大的傷害。
2.為什麼web標準的頁面兼容性並不好?
我們說web標準的優勢是兼容性好,這個兼容是指向後兼容,向新瀏覽器、新設備兼容。對已有的瀏覽器來說,因為它們對web標準的支持程度不一樣,因此會出現不同瀏覽器下頁面變形的情況。我們必須採用一些"hack"技巧來實現不同瀏覽器的兼容。這是無奈、也是不可避免的,是web技術發展必然要經歷的一個過程,是我們向XML過渡必須克服的一個困難。
我想你和我一樣,都關心WEB的未來會是怎麼樣的,下一輪的新技術熱點在什麼方向。其實,要回答這個問題,沒有誰比W3C更有權威了。只要看看W3C在做什麼,正在研究什麼規范就知道WEB的走向和趨勢了。
W3C明確地告訴我們:XML是未來的趨勢毋庸置疑,開放和共享是互聯網的精神和根本動力。
蒂姆.貝納斯-李(Tim Berners-Lee),W3C領導人,萬維網之父,說到:XML提供了信息交換的手段,但這僅僅只是開始。我們的目標是web的語義化,即:使得web上的信息內容更加容易理解、更便於交換和共享,RDF和OWL語言將在這方面提供更強大的支持。
web技術即將迎接新一輪的變革和發展,如果你還在猶豫是不是需要學習web標准,那麼你將失去這次機會。
Ⅲ Web Spider網路蜘蛛,是什麼意思
隨便找個IP查詢工具,看看220.181.50.*這個IP段是哪裡的
我剛剛看了一下,是北京的。
ip220.181.50.1-ip220.181.50.10下均無一個網站,
網路的IP是220.181.6.18。
如果你能確定那個IP段是網路蜘蛛的來路的話,那它極有可能是網路的網路蜘蛛
你後面的補充也很有道理,也有可能220.181.50.*這個IP段是一個代理IP伺服器的IP段
不過我剛剛進一步的對這個IP段進行了查詢,最終可以確定220.181.50.*這個IP段它就是網路的網路蜘蛛(Baispider搜索器)使用的IP段,你點擊*&ct=0
你會發現220.181.50.*這個IP段在很多網站和論壇都有以遊客身份停留,但就是全都沒有回復。
什麼是網路蜘蛛:
網路蜘蛛即Web Spider,是一個很形象的名字。把互聯網比喻成一個蜘蛛網,那麼Spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的鏈接地址來尋找網頁,從 網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然後通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網 站所有的網頁都抓取完為止。如果把整個互聯網當成一個網站,那麼網路蜘蛛就可以用這個原理把互聯網上所有的網頁都抓取下來。
Ⅳ 找尋相關資料
WEB全文信息檢索技術
李燦
(華南理工大學圖書館 510641)
摘要:本文探索了在INTERNET網上實現全文檢索的技術。計論了從網上信息的標引、分類等預處理到組織信息檢索的過程,並就智能檢索技術的發展進行了闡述。
關鍵詞:信息檢索 網際網路 全文檢索
一、 前言
Internet網是目前全球最大的、最有影響力的信息網路,它將政府、學校、圖書館、商務場所、研究機構和其它組織中的區域網(LAN)集成為一個單一的、龐大的、跨越全球的通訊網路。越來越多的人們利用這一網路與世界各地的人進行交流。如何利用Internet網獲取有價值的信息,已成為科研人員必備的一項基本技能。
網際網路是一個開放型的巨大的信息資源庫,擁有上千萬台以上的主機和過億的用戶;並且由於網際網路信息蘊含的無限豐富,信息組織、表達的直觀、生動以及信息服務的方便性和多樣性,愈來愈多的信息搜索者被其獨特的魅力所吸引。而在近幾年,網際網路用戶的數量更是成倍地增長。可見,網際網路檢索已成為實際上最普及、最受關注、最常涉及的信息檢索領域。
二、 概述
網上的信息具有數量大、形式多、內容廣、專業性不強等特點,給情報搜集、分類、檢索等工作帶來了新的問題和挑戰。如何充分利用網際網路上的信息資源正成為情報科學研究者所關注的熱點。全文信息檢索就是概據Internet信息的特點而發展起來的一種檢索方式。它主要指研究對整個文檔信息的表示,存儲、組織和訪問,即根據用戶的查詢要求,從信息資料庫中檢索出相關信息資料。
全文檢索的中心環節是文件內容表達、信息查詢的獲得以及相關信息的匹配。一個好的全文信息檢索系統不僅要求將輸出信息進行相關性排列,還應該能夠根據用戶的意圖、興趣和特點自適應和智能化地調整匹配機制,獲得用戶滿意的檢索輸出。
要實現全文檢索,首先必須對WEB信息進行預處理。
三、 WEB信息的預處理
信息預處理的主要功能是過濾文件系統信息,為文件系統的表達提供一種滿意的索引輸出。其基本目的是為了獲取最優的索引記錄,使用戶能很容易地檢索到所需信息。
(1)格式過濾:信息預處理應該能夠過濾不同格式的文檔,以及圖片、聲音、視頻等信息。這使得搜索引擎不僅能夠檢索文字,而且能夠檢索原始格式文件的所有信息。
(2)語詞切分:語詞是信息表達的最小單位,而漢語不同於西方語言,其句子的語詞間沒有分隔符因此需要進行語詞切分。常用的語詞切分方法有按詞典進行最大片語匹配、逆向最大片語匹配、最佳匹配法,聯想-回溯法、全自動詞典切詞等。近年來,又出現了基於神經元網路的和專家系統的分詞方法和基於統計和頻度分析的分詞方法。
(3)詞法分析:漢語語詞切分中存在切分歧異,如句子「網球拍賣完了」,可以切分為「網球/拍賣完了」,也可以切分為「網球拍/賣完了」。因此需要利用各種上下文知識解決語詞切分歧異。此外,還需要對語詞進行詞法分析,識別出各個語詞的詞干,以便根據詞干建立信息索引。對於英語語詞,建立索引之前首先要去除一些停頓詞(如常見的功能詞「a」,「the」,「it」等)和詞根(如「ing」,「ed」,「ly」等)。
(4)詞性標注和短語識別:在切分的基礎上,利用基於規則和統計的方法進行詞性標注。在此基礎上,還要利用各種語法規則,識別出重要的短語結構。
(5)自動標引:從網頁文檔中提取出一組能最大程度上概括其內容特徵、可作為用戶檢索入口的關鍵性信息,用該組信息對文文件進行標引,使用戶可以通過輸入關鍵信息檢索到該文文件的簡要信息,如標題、摘要、時間、作者和URL等,進一步點擊可查詢到該文檔.
(6)自動分類:建立並維護一套完整的分類目錄體系,根據文文件的信息特徵,計算出與其相關程度最大的一個或多個分類,將文檔劃歸到這些分類中去,使用戶可以通過瀏覽分類體系直接查詢到該文檔.
.
四、檢索
檢索包括文件信息表達和查詢信息表達以及相關信息預測過程。
(1)信息表達:信息的表達有多種方式,如布爾表達、矢量空間表達、自然語言表達等,每種表達方式由應用系統服務者提出並由整個應用系統的目的和需求所決定,並對應於相應的存儲模式和檢索演算法,信息查詢和組織的效率,也就是速度和存儲的空間在很大程度上決定了檢索服務系統的性能。
(2)查詢分析:用戶端的查詢信息首先要進行分析處理,提取出查詢項索引、邏輯表達式或其它查詢特徵描述。和文件信息索引不同的是:查詢索引處理是及時地提交處理形成索引,而文件信息索引是由搜索引擎按某種策略進行遠程數據的搜索和獲取預先生成的本地索引。查詢索引和文件索引採取同樣的表達方式,因此能夠採取相似性估計演算法檢索出相關文件。
(3)查詢擴展:近年來,為了提高信息檢索的性能,將應用領域知識和索引、相關性、估計、查詢表達相結合實現查詢擴展,即查詢索引還包括不在用戶查詢中出現的查詢詞部分。典型的知識庫查詢擴展應用如圖1所示,知識庫中存儲的知識為原始查詢增添了相關詞,從而擴展了原始查詢。
(4)查詢詞的選擇策略:
·非獨立詞:非獨立詞指的是和查詢詞具有較大相關性的詞。但是預先必須計算文件集合中的所有詞之間的相關性。
·反饋詞:根據用戶反饋的文件信息,按照在相關文件和非相關文件中詞的出現頻率和分布決定出重要的詞,將這些詞增加到用戶查詢中。
·互動式選擇:用戶從通過上述策略得出的待選詞中決定最後的查詢詞。
反饋網路屬於人機交互范疇,目的在於提高查詢性能和針對性。不同的用戶根據實際情況提供不同的反饋信息,不同的信息檢索服務系統按照其功能與檢索方法也有不同的反饋結構和交互方式,因此查詢結果也不盡相同。
(5) 信息檢索模型:信息檢索系統的核心是搜索引擎,它需要從大量復雜信息中,篩選出符合用戶需要的信息。根據搜索引擎查找相關信息方式的不同,可將信息檢索分為:布爾邏輯模型、模糊邏輯模型、矢量空間模型以及概率模型等。
布爾邏輯模型布爾邏輯模型是最簡單的檢索模型,也是其他檢索模型的基礎。標准布爾邏輯模型為二元邏輯,即一系列對應於文件特徵的二元變數。這些變數包括從文件中提取的文本檢索詞,有時也包括一些更為復雜的特徵,如數據、短語、私人簽名和手工加入的描述子。在布爾模型中有確切的文件特徵表達集合。用戶可以根據檢索項在文檔中的布爾邏輯關系遞交查詢。匹配函數由布爾邏輯的基本法則確定。所檢索出的文檔或者與查詢相關,或者與查詢無關。查詢結果一般不進行相關性排序。
模糊邏輯模型為了處理精度和復雜性之間的矛盾,引入了模糊邏輯模型,它以邏輯真值為〔0,1〕的模糊邏輯為基礎的,以隸屬函數概念來描述現象差異的中間過渡。在查詢結果處理過程中引入模糊邏輯運算,將所檢索的文件信息和用戶的查詢要求進行模糊邏輯比較,按照相關性的優先次序排出查詢結果,在布爾檢索中藉助模糊邏輯模型能夠克服布爾邏輯查詢結果的無序性。
矢量空間模型和布爾檢索模型不同,矢量空間模型中查詢和文件都映射為同一n維空間矢量。利用奇異值分解(SVD)、查詢詞和文件的內部結構聯系,通過歐幾里德距離和餘弦法則作相似性比較,根據矢量空間的相似性,排列查詢結果。矢量空間模型不僅可以方便地產生有效的查詢結果,而且能夠提供查詢結果分類,為用戶提供准確定位所需的信息。
概率模型在信息檢索中存在不確定性問題,對查詢本身來說,它不能唯一地表示信息需求,對於結果來說,定查詢結果的正確與否。對於布爾檢索也是如此,因為查詢的提交本身就是一種不確切方式。為了解決在布爾檢索模型中的不確定性問題,引入了概率檢索模型。該模型基於概率排隊理論:當文件按相關概率遞減原則排列時可以獲得最大的檢索性能。
五、全文信息檢索技術的發展
目前的全文檢索技術還存在著一些未盡人意的結果,主要是通常的信息檢索系統性能較低,原因是將孤立詞和詞彙術語作為查詢描述子,因而文件內容的相似性較差。智能化信息檢索是人工智慧和信息檢索的相結合的產物。它能使信息檢索系統「理解」用戶的信息需要和文件包含的信息內容。它在對內容的分析理解、內容表達、知識學習、推理機制,決策等基礎上實現檢索的智能化。
目前人工智慧和信息檢索的結合主要包括三方面:(1)信息檢索和專家系統:主要研究方向是開發一個專家中介系統來協助查詢形成、搜索策略選擇以及預測檢索文件;(2)信息檢索和自然語言處理:它實際上是以字或詞為符號的一種符號系統。目前自然語言處理對信息檢索的應用仍停留在簡單語言處理上,例如確認詞根和片語等。(3)信息檢索和知識表達:此領域的研究主要是通過應用領域知識來理解文件和查詢的信息內容。
目前,雖然某些在WWW上的信息檢索服務系統採取了智能用戶代理的等方式,可以根據用戶事先定義的信息檢索要求,在網路上實時監視信息源,如指定Web頁面的更新、網路新聞、電子郵件等,並將用戶所需的信息通過電子郵件等方式,主動提供給用戶,減少用戶檢索信息的時間。但是商用信息檢索系統仍主要以布爾模糊邏輯為主,輔以部分自然語言的處理。智能化信息檢索技術的發展,特別是知識學習和知識庫以及人機交互方式的應用,將大大提高信息檢索服務系統的精度和相關性。隨著智能化技術的發展,全文信息檢索技術必將更廣泛地應用於網上信息檢索領域。
參考文獻
1) WWW上的全文信息檢索技術,金燕等,計算機應用研究,1999年第一期,P40-43
2) 全文資料庫建庫原理與應用技術,王蘭成等,情報學報,1999年第4期
Ⅳ 我需要搜易WEB頁面發信專家,請問到哪裡可以購買到
藍貓軟體站就有了,這么出名的你都不知道啊
強大的很,可以多台電腦使用的
都是全程視頻指導使用
更新也很及時
你不知道就網路上搜索一下藍貓軟體
Ⅵ 網路信息檢索的現狀與發展
網路信息檢索的現狀與發展
1990年以前,網路信息檢索的現狀與發展沒有任何人能夠檢索互聯網上的信息。應該說,所有的網路信息檢索工具都是從1990年的Alan Emtage等人發明的Archie開始的,雖然它當時只可以實現簡單意義上的FTP文件檢索。隨著World Wide Web的出現和發展,基於網頁的信息檢索工具出現並迅速發展起來。1995年基於網路信息檢索工具本身的檢索工具元搜索引擎由美國華盛頓大學的Eric Selberg 等發明。伴隨著網路技術的發展,網路信息檢索工具也取得了十足的發展,那麼這些檢索工具的現狀和發展趨勢如何呢?本文將試作以探討。
1.基於網頁的網路信息檢索工具的現狀和發展趨勢
1.1現狀。網頁是網際網路的最主要的組成部份,也是人們獲取網路信息的最主要的來源,為了方便人們在大量繁雜的網頁中找尋自己需要的信息,這類檢索工具發展的最快。一般認為,基於網頁的信息檢索工具主要有網頁搜索引擎和網路分類目錄兩種。網頁搜索引擎是通過「網路蜘蛛」等網頁自動搜尋軟體搜索到網頁,然後自動給網頁上的某些或全部字元做上索引,形成目標摘要格式文件以及網路可訪問的資料庫,供人們檢索網路信息的檢索工具。網路目錄則是和搜索引擎完全不同,它不會將整個網路中每個網站的所有頁面都放進去,而是由專業人員謹慎地選擇網站的首頁,將其放入相應的類目中。網路目錄的信息量要比搜索引擎少得多,再加上不同的網路目錄分類標准有些混亂,不便人們使用,因此雖然它標引質量比較高,利用它的人還是要比利用搜索引擎的人少的多。
但是由於網路信息的復雜性和網路檢索技術的限制,這類檢索工具也有著明顯的不足。(1)隨著網頁數量的迅猛增加,人工無法對其進行有效的分類、索引和利用。網路用戶面對的是數量巨大的未組織信息,簡單的關鍵詞搜索,返回的信息數量之大,讓用戶無法承受。(2)信息有用性評價困難。一些站點在網頁中大量重復某些關鍵字,使得容易被某些著名的搜索引擎選中,以期藉此提高站點的地位,但事實上卻可能沒有提供任何對用戶有價值的信息。(3) 網路信息日新月異的變更,人們總是期望挑出最新的信息。然而網路信息時刻變動,實時搜索幾乎不可能,就是剛剛瀏覽過的網頁,也隨時都有更新、過期、刪除的可能。
1.2發展趨勢。網路信息檢索工具的發展主要體現在進一步改進、完善檢索工具和檢索技術,以提高檢索服務質量,改變網路信息檢索不盡如意的地方。主要體現在以下幾個方面:
1.21網路檢索工具開發提供商之間合作越來越緊密。過去一般網路檢索工具提供商只依靠自己建立的資料庫來提供檢索服務,檢索范圍有限,而現在某些著名的搜索引擎在購買其他公司的資料庫或者技術內核,有的與其他搜索引擎建立夥伴關系,以便用戶使用。比如著名雅虎現在採用的是Google的搜索內核,網易也曾經使用Google的搜索內核技術來豐富自己的搜索引擎資料庫,矽谷動力、廣州視窗、新浪、搜狐、Chinaren、21cn、263、Tom等搜索引擎使用融合了網路的搜索內核技術等等。
1.22信息檢索工具專業化及服務內容深化。一些檢索工具已經不再盲目追求加大收錄和標引量,而更加註重突出專業特色。在lycos搜索引擎目錄中,我們可以看到商業搜索引擎、IT搜索引擎、人才搜索引擎、金融搜索引擎、醫學搜索引擎等專業化的網路信息檢索紛紛出現,信息檢索工具的專業化已經成為一種不可逆轉的趨勢。信息檢索服務商將服務更加深化:Google推出了網頁引文查詢服務,通過它可以查看自己所要查詢的資料被其他網站引用的情況,從而使用戶更好的把握網頁信息的質量;2003年8月,第三代中文搜索引擎慧聰問世,它則集「廣泛的地域搜索」、「強大的行業搜索」、「完美的MP3、Flash搜索」眾多搜索功能為一體,還開發了「針對內容的相關性查詢」和「符合漢語特性的模糊查詢」,可以實現漢語拼音查詢和同音詞糾錯。
1.23網路信息工具智能化的發展趨勢:(1)信息檢索工具的智能化首先是網路蜘蛛的智能化。針對網路信息的動態更替性,網路蜘蛛通過啟發式學習採取最有效的搜索策略,選擇最佳時機獲取從Internet上自動收集、整理的信息。網路蜘蛛能在網路的任何地方工作,能盡可能地挖掘和獲得信息。網路蜘蛛還要有網頁跟蹤監測功能,如果網頁出現更新、刪除等情況要及時在資料庫中更新。網路蜘蛛具有跨平台工作和處理多種混合文檔結構的能力。(2)其次是檢索軟體的智能化。現在主要有智能搜索引擎、智能瀏覽器、智能代理。這些網路檢索工具都非常重視開發實現基於自然語言形式的輸入,檢索者可以將自己的檢索提問以及所習慣的短語、片語甚至句子等自然語言的形式輸入,智能化的檢索軟體將能夠自動分析,而後形成檢索策略進行檢索。比如現在的網路搜索可以在你輸入關鍵詞以後,不斷提供一些相近的關鍵詞供你選擇,直至找到你所需要的結果。Google則藉助於機器翻譯技術,將一種自然語言轉變成另外一種自然語言,使用戶能夠使用母語搜索非母語的網頁,並以母語瀏覽搜索結果。尤里卡、問一問、和國外的ASK Jeeves則通過語義技術和檢索技術的結合,可是實現檢索工具對搜索詞在語義層次上的理解,為用戶提供最准確地檢索服務。
2.基於FTP文件的搜索工具。
2.1現狀。如前所述,搜索引擎的雛形以及最早的搜索引擎都是基於FTP文件搜索的。最早的FTP搜索引擎是基於文本顯示的Archie。後來由於WEB的出現,FTP搜索引擎發展受到了一定的影響。直到基於WEB的FTP搜索引擎出現,它才越來越多受到人們的歡迎,用戶量也在迅速上升,重要性也日漸顯現出來。FTP搜索引擎的功能是搜集匿名FTP伺服器提供的目錄列表並向用戶提供文件信息的查詢服務。目前,國內做的最好的、規模最大的當屬天網FTP文件搜索引擎,現在可以搜索2400萬個文件(數據來源於天網主頁),2002年時的統計日訪問量是40萬次,這在世界FTP搜索引擎界也算是一個佼佼者。另外國內還有清華9#搜索引擎、西安交大思源搜索、華南木棉搜索引擎、網路指南針、中科大天狼搜索引擎以及南京理工的「一網打盡」搜索引擎等等,國外的有Philes.com、AlltheWeb.com、Filesearching.com、souborak.com和ftpfind.com等,其中ftpfind.com是目前國外最先進的,支持包括站點快照和文件分類等新興功能,而且文件數據量非常大。
近幾年來,雖然FTP搜索引擎技術發展的很快,但相對WWW搜索引擎而言,FTP搜索引擎為數不多,技術上也還不十分成熟,還有很多需要改進的地方:(1)FTP搜索引擎的收錄數量還比較少,搜索引擎的規模和質量還是要取決於其維護的信息量。據統計,全球匿名FTP服務提供的文件條目已經有數億條,即便是目前規模最大的Philes.com,據陳華、李曉明2002年7月份統計也只有209,698,206 個文件。(2)檢索功能還不完善。檢索功能是一個搜索引擎最重要的部分,有很多搜索引擎還不能支持「and」和「or」等簡單的布爾檢索,使得資料庫中的文件不能被檢索到。(3)FTP伺服器本身特點決定了FTP搜索引擎弱點,即由於FTP伺服器有開放時間、有的還限制IP地址、有的限制登陸的用戶量、不同的伺服器設立的聯接埠號並不相同等決定了其搜索到的結果有一部分是不能訪問的,大大降低了用戶的滿意度。
2.2發展趨勢。正如前文所述,FTP文件搜索引擎技術還不是很成熟,但其發展非常迅速,其發展趨勢主要表現在以下幾個方面:(1)檢索功能日益豐富。天網FTP文件搜索引擎現在可以實現以文件大小、文件的上傳日期、以及網段(比如說是華北網、華東網等)等多個條件的高級檢索來限制檢索結果;AlltheWeb.com增加了檢索方式(規則表達檢索、准確檢索、瀏覽、對大小寫敏感與否等等),限制主機(是e還是gov或者com等),文件類型以及文件大小、日期等功能。(2)檢索服務的個性化。現在FTP搜索引擎研究者已經開始注意這一方面,天網ftp搜索引擎已經有了很多可以個性化的選項:可以設置用戶不同偏好的排序方式,可以設定國外文件優先還是本國文件優先,對於國外用戶是不是應該國外文件優先,是FTP上文件優先還是WWW上的文件優先,是選擇中文的還是英文的等等。AlltheWeb.com則是可以完成更豐富的個性化設置,比如說可以選擇一個主機提供一個結果、設置語言、搜索的文件大小設置、是否亮度顯示搜索關鍵詞、設置使用者語言、以及鍵盤快捷鍵等等。
3.基於網路檢索工具的檢索技術的現狀和發展趨勢。
3.1隨著網上信息資源的膨脹發展,一種搜索引擎,無論它多麼完善都不可能滿足一個人所有的檢索需求。如果遇到文獻普查、專題查詢、新聞調查與溯源、軟體及MP3下載地址搜索等情況,人們就更需要使用多種搜索引擎來比較、篩選和相互印證。為解決逐一登陸各搜索引擎,在各搜索引擎中分別多次輸入同一檢索請求(檢索字串)等煩瑣操作,基於網路檢索工具的檢索工具產生了。
目前這列檢索工具只要有兩種:集成搜索引擎和元搜索引擎。所謂集成搜索引擎是在一個檢索界面上鏈接若干種獨立的搜索引擎,檢索時,一次檢索輸入,可以指定搜索引擎也可以要求多個引擎同時檢索,搜索結果由各搜索引擎分別以不同頁面提交的網路檢索工具,其實是利用網站鏈接技術形成的搜索引擎集合。集成搜索引擎製作與維護技術簡單,可隨時對所鏈接的搜索引擎進行增刪調整和及時更新,尤其大規模專業(如FLASH、MP3等)搜索引擎集成鏈接,深受特定用戶群歡迎。如國內天網搜霸和網路搜霸,國外比較著名的有「搜索之家」(http://so.web165.com/)、「網際瑞士軍刀」(http://free.okey.net/~free/search1.htm)等。另一個是元搜索引擎,用戶只需遞交一次檢索請求,由元搜索引擎負責轉換處理後提交給多個預先選定的獨立搜索引擎,並將所有查詢結果集中起來以整體統一的格式呈現到用戶面前。國外比較著名的元搜索引擎有Vivisimo、EZ2WWW、Kartoo、SurfWax、Fazzle(以上五個為2002年度的最佳元搜索引擎)等。目前國內現在還沒有見到真正意義上的元搜索引擎。元搜索引擎雖沒有網頁搜尋機制,亦無獨立的索引資料庫,但在檢索請求提交、檢索介面代理和檢索結果顯示等方面,均有自己研發的特色元搜索技術支持。目前元搜索引擎技術主要有並行處理式和串列處理式兩大類。並行式元搜索引擎運行時是將查詢請求同時發向各個獨立搜索引擎,然後將的結果按特定的順序呈現給用戶;串列式元搜索引擎運行時是將查詢請求先發向某個獨立搜索引擎,待其返回結果後再將請求發往另一個獨立搜索引擎。
從第一個元搜索引擎Metacrawler誕生至今,這一新型的網路檢索工具異軍突起,發展迅速,目前可用的元搜索引擎已近百種。由於元搜索引擎的功能受著源搜索引擎和元搜索技術的雙重製約,元搜索引擎比較理想的並不多見。信息檢索專家邢志宇將元搜索引擎存在的問題歸納如下:(1)大多元搜索引擎不支持多語種,尤其是漢語檢索;(2)一些元搜索引擎實現檢索語法轉換的能力有限,不支持指定欄位檢索,不能充分發揮各個獨立搜索引擎的高級檢索功能;(3)部分元搜索引擎無源搜索引擎列表,用戶不能自主選擇和調用源搜索引擎;(4)大部分元搜索引擎僅支持調用AltaVista、Excite、GoTo.com、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人為地限制了搜索資源的利用;(5)在檢索結果上,元搜索引擎只能返回十幾、數十條「相關度」較高的結果,大量可能有價值的源搜索引擎的檢索結果被忽視,影響檢索結果的全面性。
3.2發展趨勢。這類檢索工具的發展趨勢主要表現在下面幾個方面:(1)檢索結果整理的深化。如Vivisimo、EZ2WWW、MetaCrawler等可以實現搜索結果的自動分類,用戶即可以利用傳統的方式瀏覽結果,也可以利用其同屏的分類結果提示找尋自己需要的內容。EZ2WWW高級搜索功能提供1000多種專項資源檢索,可進行目錄檢索。SurfWax有一個其它元搜索引擎沒有的獨特功能,即點擊每條結果左邊的「網址撳鈕」圖標,可瀏覽該結果包括的任何頁面,並顯示搜索語句在文件中的位置,也可以把搜索結果和文件存儲起來以備後用。天網搜霸已經擁有了獨特的鏈接檢測功能,在幾秒鍾內檢查當前頁面查詢結果是否可以訪問,如果為標注綠色,則鏈接可連通(目前僅檢測頁面內以http://和ftp://開頭的鏈接)(2)檢索界面的個性化趨勢。天網搜霸和Google提供了IE瀏覽器的插件,安裝後就會被嵌到IE的工具欄,用戶不用登陸天網的主頁,就可以實現檢索。用戶可以將自己喜歡的搜索引擎設置為主要搜索,也可以添加用戶自己喜歡的搜索引擎。天網搜霸不久前剛剛推出了可以嵌在Windows系統任務欄上的插件,現在用戶連打開IE瀏覽器都不需要了。Mamma可以選擇使用短語檢索功能、設定檢索時間、設定每頁可顯示記錄數,還提供了專門檢索頁面文件標題的特殊檢索服務,以及通過E-mail傳輸檢索結果的特色功能。MetaCrawler可以實現搜索引擎的選擇調用,基於域名、地區或國家的檢索結果過濾,最長檢索時間設置,每頁可顯示的和允許每個搜索引擎返回的檢索結果數量的設定,設定檢索結果排序依據(包括相關度、域名、源搜索引擎)個性化定製保存。(3)智能化。ProFusion可以自動實現符合特殊檢索語法要求的轉換,如在調用Excite、InfoSeek、WebCrawler時將「NEAR」轉換成「AND」,在調用GoTo、Yahoo時將「NOT」刪除等;Mamma也支持常用檢索語法在不同搜索引擎中的轉換;C4可以支持自然語言檢索,雖然它沒有自己的資料庫,卻可以提供網上的檢索結果。
Ⅶ 未來web開發的趨勢是什麼
現在,Web開發世界在不斷變化,趨勢也在不斷變化。有時,這些趨勢的變化速度遠遠快於它們的使用速度。要保持領先,就必須關注最新的流行趨勢、更新、技術和方法。此外,了解趨勢並隨時了解周圍發生的事情對於web開發是非常必要的。
Ⅷ 做一個搜索引擎要涉及那些知識求專家建議
隨著互聯網的迅猛發展、WEB信息的增加,用戶要在信息海洋里查找自己所需的信息,就象大海撈針一樣,搜索引擎技術恰好解決了這一難題(它可以為用戶提供信息檢索服務)。搜索引擎是指互聯網上專門提供檢索服務的一類網站,這些站點的伺服器通過網路搜索軟體(例如網路搜索機器人)或網路登錄等方式,將Intemet上大量網站的頁面信息收集到本地,經過加工處理建立信息資料庫和索引資料庫,從而對用戶提出的各種檢索作出響應,提供用戶所需的信息或相關指針。用戶的檢索途徑主要包括自由詞全文檢索、關鍵詞檢索、分類檢索及其他特殊信息的檢索(如企業、人名、電話黃頁等)。下面以網路搜索機器人為例來說明搜索引擎技術。
1.網路機器人技術
網路機器人(Robot)又被稱作Spider、Worm或Random,核心目的是為獲取Intemet上的信息。一般定義為「一個在網路上檢索文件且自動跟蹤該文件的超文本結構並循環檢索被參照的所有文件的軟體」。機器人利用主頁中的超文本鏈接遍歷WWW,通過U趾引用從一個HT2LIL文檔爬行到另一個HTML文檔。網上機器人收集到的信息可有多種用途,如建立索引、HIML文件合法性的驗證、uRL鏈接點驗證與確認、監控與獲取更新信息、站點鏡像等。
機器人安在網上爬行,因此需要建立一個URL列表來記錄訪問的軌跡。它使用超文本,指向其他文檔的URL是隱藏在文檔中,需要從中分析提取URL,機器人一般都用於生成索引資料庫。所有WWW的搜索程序都有如下的工作步驟:
(1)機器人從起始URL列表中取出URL並從網上讀取其指向的內容;
(2)從每一個文檔中提取某些信息(如關鍵字)並放入索引資料庫中;
(3)從文檔中提取指向其他文檔的URL,並加入到URL列表中;
(4)重復上述3個步驟,直到再沒有新的URL出現或超出了某些限制(時間或磁碟空間);
(5)給索引資料庫加上檢索介面,向網上用戶發布或提供給用戶檢索。
搜索演算法一般有深度優先和廣度優先兩種基本的搜索策略。機器人以URL列表存取的方式決定搜索策略:先進先出,則形成廣度優先搜索,當起始列表包含有大量的WWW伺服器地址時,廣度優先搜索將產生一個很好的初始結果,但很難深入到伺服器中去;先進後出,則形成深度優先搜索,這樣能產生較好的文檔分布,更容易發現文檔的結構,即找到最大數目的交叉引用。也可以採用遍歷搜索的方法,就是直接將32位的IP地址變化,逐個搜索整個Intemet。
搜索引擎是一個技術含量很高的網路應用系統。它包括網路技術、資料庫技術動標引技術、檢索技術、自動分類技術,機器學習等人工智慧技術。
2.索引技術
索引技術是搜索引擎的核心技術之一。搜索引擎要對所收集到的信息進行整理、分類、索引以產生索引庫,而中文搜索引擎的核心是分詞技術。分詞技術是利用一定的規則和詞庫,切分出一個句子中的詞,為自動索引做好准備。目前的索引多採用Non—clustered方法,該技術和語言文字的學問有很大的關系,具體有如下幾點:
(1)存儲語法庫,和詞彙庫配合分出句子中的詞彙;
(2)存儲詞彙庫,要同時存儲詞彙的使用頻率和常見搭配方式;
(3)詞彙寬,應可劃分為不同的專業庫,以便於處理專業文獻;
(4)對無法分詞的句子,把每個字當作詞來處理。
索引器生成從關鍵詞到URL的關系索引表。索引表一般使用某種形式的倒排表(1nversionUst),即由索引項查找相應的URL。索引表也要記錄索引項在文檔中出現的位置,以便檢索器計算索引項之間的相鄰關系或接近關系,並以特定的數據結構存儲在硬碟上。
不同的搜索引擎系統可能採用不盡相同的標引方法。例如Webcrawler利用全文檢索技術,對網頁中每一個單詞進行索引;Lycos只對頁名、標題以及最重要的100個注釋詞等選擇性詞語進行索引;Infoseek則提供概念檢索和片語檢索,支持and、or、near、not等布爾運算。檢索引擎的索引方法大致可分為自動索引、手工索引和用戶登錄三類。
3. 檢索器與結果處理技術
檢索器的主要功能是根據用戶輸入的關鍵詞在索引器形成的倒排表中進行檢索,同時完成頁面與檢索之間的相關度評價,對將要輸出的結果進行排序,並實現某種用戶相關性反饋機制。
通過搜索引擎獲得的檢索結果往往成百上千,為了得到有用的信息,常用的方法是按網頁的重要性或相關性給網頁評級,進行相關性排序。這里的相關度是指搜索關鍵字在文檔中出現的額度。當額度越高時,則認為該文檔的相關程度越高。能見度也是常用的衡量標准之一。一個網頁的能見度是指該網頁入口超級鏈接的數目。能見度方法是基於這樣的觀點:一個網頁被其他網頁引用得越多,則該網頁就越有價值。特別地,一個網頁被越重要的網頁所引用,則該網頁的重要程度也就越高。結果處理技術可歸納為:
(1)按頻次排定次序 通常,如果一個頁麵包含了越多的關鍵詞,其搜索目標的相關性應該越好,這是非常合平常理的解決方案。
(2)按頁面被訪問度排序 在這種方法中,搜索引擎會記錄它所搜索到的頁面被訪問的頻率。人們訪問較多的頁面通常應該包含比較多的信息,或者有其他吸引入的長處。這種解決方案適合一般的搜索用戶,而因為大部分的搜索引擎都不是專業性用戶,所以這種方案也比較適合一般搜索引擎使用。
(3)二次檢索 進一步凈化(比flne)結果,按照一定的條件對搜索結果進行優化,可以再選擇類別、相關詞進行二次搜索等。
由於目前的搜索引擎還不具備智能,除非知道要查找的文檔的標題,否則排列第一的結果未必是「最好」的結果。所以有些文檔盡管相關程度高,但並不一定是用戶最需要的文檔。
搜索引擎技術的行業應用:
搜索引擎的行業應用一般指類似於千瓦通信提供的多種搜索引擎行業與產品應用模式,大體上分為如下幾種形式:
1、 政府機關行業應用
n 實時跟蹤、採集與業務工作相關的信息來源。
n 全面滿足內部工作人員對互聯網信息的全局觀測需求。
n 及時解決政務外網、政務內網的信息源問題,實現動態發布。
n 快速解決政府主網站對各地級子網站的信息獲取需求。
n 全面整合信息,實現政府內部跨地區、跨部門的信息資源共享與有效溝通。
n 節約信息採集的人力、物力、時間,提高辦公效率。
2、企業行業應用
n 實時准確地監控、追蹤競爭對手動態,是企業獲取競爭情報的利器。
n 及時獲取競爭對手的公開信息以便研究同行業的發展與市場需求。
n 為企業決策部門和管理層提供便捷、多途徑的企業戰略決策工具。
n 大幅度地提高企業獲取、利用情報的效率,節省情報信息收集、存儲、挖掘的相關費用,是提高企業核心競爭力的關鍵。
n 提高企業整體分析研究能力、市場快速反應能力,建立起以知識管理為核心的競爭情報數據倉庫,是提高企業核心競爭力的神經中樞。
3、新聞媒體行業應用
n 快速准確地自動跟蹤、採集數千家網路媒體信息,擴大新聞線索,提高採集速度。
n 支持每天對數萬條新聞進行有效抓取。監控范圍的深度、廣度可以自行設定。
n 支持對所需內容智能提取、審核。
n 實現互聯網信息內容採集、瀏覽、編輯、管理、發布的一體化。
4、 行業網站應用
n 實時跟蹤、採集與網站相關的信息來源。
n 及時跟蹤行業的信息來源網站,自動,快速更新網站信息。動態更新信息。
n 實現互聯網信息內容採集、瀏覽、編輯、管理、發布的一體化。
n 針對商務網站提出商務管理模式,大大提高行業網站的商務應用需求。
n 針對資訊網站分類目錄生成,提出用戶生成網站分類結構。並可以實時增加與更新分類結構。不受級數限制。從而大大利高行業的應用性。
n 提供搜索引擎SEO優化專業服務,快速提高行業網站的推廣。
n 提供與CCDC呼叫搜索引擎的廣告合作。建立行業網站聯盟,提高行業網站知名度。
5) 網路信息監察與監控
n 網路輿情系統。如「千瓦通信-網路輿情雷達監測系統」
n 網站信息與內容監察與監控系統,如「千瓦通信-網站信息與內容監測與監察系統(站內神探)」
隨著網際網路的迅猛發展、WEB信息的增加,用戶要在信息海洋里查找信息,就象大海撈
針一樣,搜索引擎技術恰好解決了這一難題(它可以為用戶提供信息檢索服務)。目前,
搜索引擎技術正成為計算機工業界和學術界爭相研究、開發的對象。
搜索引擎(Search Engine)是隨著WEB信息的迅速增加,從1995年開始逐漸發展起來
的技術。據發表在《科學》雜志1999年7月的文章《WEB信息的可訪問性》估計,全球目前
的網頁超過8億,有效數據超過9T,並且仍以每4個月翻一番的速度增長。用戶要在如此浩
瀚的信息海洋里尋找信息,必然會"大海撈針"無功而返。搜索引擎正是為了解決這個"迷航
"問題而出現的技術。搜索引擎以一定的策略在互聯網中搜集、發現信息,對信息進行理解
、提取、組織和處理,並為用戶提供檢索服務,從而起到信息導航的目的。搜索引擎提供
的導航服務已經成為互聯網上非常重要的網路服務,搜索引擎站點也被美譽為"網路門戶"
。搜索引擎技術因而成為計算機工業界和學術界爭相研究、開發的對象。本文旨在對搜索
引擎的關鍵技術進行簡單的介紹,以起到拋磚引玉的作用。
分 類
按照信息搜集方法和服務提供方式的不同,搜索引擎系統可以分為三大類:
1.目錄式搜索引擎:以人工方式或半自動方式搜集信息,由編輯員查看信息之後,人
工形成信息摘要,並將信息置於事先確定的分類框架中。信息大多面向網站,提供目錄瀏
覽服務和直接檢索服務。該類搜索引擎因為加入了人的智能,所以信息准確、導航質量高
,缺點是需要人工介入、維護量大、信息量少、信息更新不及時。這類搜索引擎的代表是
:Yahoo、LookSmart、Open Directory、Go Guide等。
2.機器人搜索引擎:由一個稱為蜘蛛(Spider)的機器人程序以某種策略自動地在互
聯網中搜集和發現信息,由索引器為搜集到的信息建立索引,由檢索器根據用戶的查詢輸
入檢索索引庫,並將查詢結果返回給用戶。服務方式是面向網頁的全文檢索服務。該類搜
索引擎的優點是信息量大、更新及時、毋需人工干預,缺點是返回信息過多,有很多無關
信息,用戶必須從結果中進行篩選。這類搜索引擎的代表是:AltaVista、Northern Ligh
t、Excite、Infoseek、Inktomi、FAST、Lycos、Google;國內代表為:"天網"、悠遊、O
penFind等。
3.元搜索引擎:這類搜索引擎沒有自己的數據,而是將用戶的查詢請求同時向多個搜
索引擎遞交,將返回的結果進行重復排除、重新排序等處理後,作為自己的結果返回給用
戶。服務方式為面向網頁的全文檢索。這類搜索引擎的優點是返回結果的信息量更大、更
全,缺點是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。這類搜索引
擎的代表是WebCrawler、InfoMarket等。
性 能 指 標
我們可以將WEB信息的搜索看作一個信息檢索問題,即在由WEB網頁組成的文檔庫中檢索
出與用戶查詢相關的文檔。所以我們可以用衡量傳統信息檢索系統的性能參數-召回率(R
ecall)和精度(Pricision)衡量一個搜索引擎的性能。
召回率是檢索出的相關文檔數和文檔庫中所有的相關文檔數的比率,衡量的是檢索系
統(搜索引擎)的查全率;精度是檢索出的相關文檔數與檢索出的文檔總數的比率,衡量
的是檢索系統(搜索引擎)的查准率。對於一個檢索系統來講,召回率和精度不可能兩全
其美:召回率高時,精度低,精度高時,召回率低。所以常常用11種召回率下11種精度的
平均值(即11點平均精度)來衡量一個檢索系統的精度。對於搜索引擎系統來講,因為沒
有一個搜索引擎系統能夠搜集到所有的WEB網頁,所以召回率很難計算。目前的搜索引擎系
統都非常關心精度。
影響一個搜索引擎系統的性能有很多因素,最主要的是信息檢索模型,包括文檔和查詢
的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結果的排序方法和用戶進行相
關度反饋的機制。
主 要 技 術
一個搜索引擎由搜索器、索引器、檢索器和用戶介面等四個部分組成。
1.搜索器
搜索器的功能是在互聯網中漫遊,發現和搜集信息。它常常是一個計算機程序,日夜
不停地運行。它要盡可能多、盡可能快地搜集各種類型的新信息,同時因為互聯網上的信
息更新很快,所以還要定期更新已經搜集過的舊信息,以避免死連接和無效連接。目前有
兩種搜集信息的策略:
● 從一個起始URL集合開始,順著這些URL中的超鏈(Hyperlink),以寬度優先、深
度優先或啟發式方式循環地在互聯網中發現信息。這些起始URL可以是任意的URL,但常常
是一些非常流行、包含很多鏈接的站點(如Yahoo!)。
● 將Web空間按照域名、IP地址或國家域名劃分,每個搜索器負責一個子空間的窮盡
搜索。 搜索器搜集的信息類型多種多樣,包括HTML、XML、Newsgroup文章、FTP文件、
字處理文檔、多媒體信息。 搜索器的實現常常用分布式、並行計算技術,以提高信息
發現和更新的速度。商業搜索引擎的信息發現可以達到每天幾百萬網頁。
2.索引器
索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用於表示文檔以及生
成文檔庫的索引表。
索引項有客觀索引項和內容索引項兩種:客觀項與文檔的語意內容無關,如作者名、
URL、更新時間、編碼、長度、鏈接流行度(Link Popularity)等等;內容索引項是用來
反映文檔內容的,如關鍵詞及其權重、短語、單字等等。內容索引項可以分為單索引項和
多索引項(或稱短語索引項)兩種。單索引項對於英文來講是英語單詞,比較容易提取,
因為單詞之間有天然的分隔符(空格);對於中文等連續書寫的語言,必須進行詞語的切
分。 在搜索引擎中,一般要給單索引項賦與一個權值,以表示該索引項對文檔的區分
度,同時用來計算查詢結果的相關度。使用的方法一般有統計法、資訊理論法和概率法。短
語索引項的提取方法有統計法、概率法和語言學法。
索引表一般使用某種形式的倒排表(Inversion List),即由索引項查找相應的文檔
。索引表也可能要記錄索引項在文檔中出現的位置,以便檢索器計算索引項之間的相鄰或
接近關系(proximity)。
索引器可以使用集中式索引演算法或分布式索引演算法。當數據量很大時,必須實現即時
索引(Instant Indexing),否則不能夠跟上信息量急劇增加的速度。索引演算法對索引器
的性能(如大規模峰值查詢時的響應速度)有很大的影響。一個搜索引擎的有效性在很大
程度上取決於索引的質量。
3.檢索器 檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與
查詢的相關度評價,對將要輸出的結果進行排序,並實現某種用戶相關性反饋機制。
檢索器常用的信息檢索模型有集合理論模型、代數模型、概率模型和混合模型四種。
4.用戶介面
用戶介面的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。主要的
目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時的信息。
用戶介面的設計和實現使用人機交互的理論和方法,以充分適應人類的思維習慣。
用戶輸入介面可以分為簡單介面和復雜介面兩種。
簡單介面只提供用戶輸入查詢串的文本框;復雜介面可以讓用戶對查詢進行限制,如
邏輯運算(與、或、非;+、-)、相近關系(相鄰、NEAR)、域名范圍(如.e、.com)
、出現位置(如標題、內容)、信息時間、長度等等。目前一些公司和機構正在考慮制定
查詢選項的標准。
未 來 動 向
搜索引擎已成為一個新的研究、開發領域。因為它要用到信息檢索、人工智慧、計算
機網路、分布式處理、資料庫、數據挖掘、數字圖書館、自然語言處理等多領域的理論和
技術,所以具有綜合性和挑戰性。又由於搜索引擎有大量的用戶,有很好的經濟價值,所
以引起了世界各國計算機科學界和信息產業界的高度關注,目前的研究、開發十分活躍,
並出現了很多值得注意的動向。
1.十分注意提高信息查詢結果的精度,提高檢索的有效性 用戶在搜索引擎上進行
信息查詢時,並不十分關注返回結果的多少,而是看結果是否和自己的需求吻合。對於一
個查詢,傳統的搜索引擎動輒返回幾十萬、幾百萬篇文檔,用戶不得不在結果中篩選。解
決查詢結果過多的現象目前出現了幾種方法:一是通過各種方法獲得用戶沒有在查詢語句
中表達出來的真正用途,包括使用智能代理跟蹤用戶檢索行為,分析用戶模型;使用相關
度反饋機制,使用戶告訴搜索引擎哪些文檔和自己的需求相關(及其相關的程度),哪些
不相關,通過多次交互逐步求精。二是用正文分類(Text Categorization)技術將結果分
類,使用可視化技術顯示分類結構,用戶可以只瀏覽自己感興趣的類別。三是進行站點類
聚或內容類聚,減少信息的總量。
2.基於智能代理的信息過濾和個性化服務
信息智能代理是另外一種利用互聯網信息的機制。它使用自動獲得的領域模型(如We
b知識、信息處理、與用戶興趣相關的信息資源、領域組織結構)、用戶模型(如用戶背景
、興趣、行為、風格)知識進行信息搜集、索引、過濾(包括興趣過濾和不良信息過濾)
,並自動地將用戶感興趣的、對用戶有用的信息提交給用戶。智能代理具有不斷學習、適
應信息和用戶興趣動態變化的能力,從而提供個性化的服務。智能代理可以在用戶端進行
,也可以在伺服器端運行。
3.採用分布式體系結構提高系統規模和性能
搜索引擎的實現可以採用集中式體系結構和分布式體系結構,兩種方法各有千秋。但
當系統規模到達一定程度(如網頁數達到億級)時,必然要採用某種分布式方法,以提高
系統性能。搜索引擎的各個組成部分,除了用戶介面之外,都可以進行分布:搜索器可以
在多台機器上相互合作、相互分工進行信息發現,以提高信息發現和更新速度;索引器可
以將索引分布在不同的機器上,以減小索引對機器的要求;檢索器可以在不同的機器上.
Ⅸ google 地圖的准確度怎麼樣,百度准還是google准 重重賞!!
搜索引擎是伴隨著互聯網信息擴展營運而生的,其目的是為了幫助網民在海量信息中去粗存精,找到自己所需的信息。在一項調查表明,在過去的一年中,使用搜索引擎查找信息的互聯網用戶正在大幅度增加,成為僅次於電子郵件,位居第二的互聯網任務。然而,Google、網路、雅虎等眾多的知名搜索引擎各有特色,追求搜索的成名之道,一個主要原因就是面對互聯網海量信息的積累,人們已經無法適應互聯網的快節奏生活,於是搜索引擎的出現給我們帶來了莫大的便捷,起到了革命性的變化。但近日,中國科學院研究生院管理學院副院長呂本富博士卻給出這樣的結論:「從信息的匹配度上看,三家搜索引擎都不能滿足用戶完全的需要。」造成這種現象的原因主要是隨著互聯網普及程度的不斷提高,網民由以前的IT專業人士擴大到不同職業,不同年齡的群體。其需求自然隨之也變得多樣化。據賽迪網調查,有六成的網民認為面向某一領域的搜索引擎對其非常或比較重要,因此當網民有了例如租房、吃飯、找工作等某種特定需求時,他自然希望能夠使用面向這些特定需求的搜索引擎。但這些需求的復雜性與多樣性都是傳統搜索引擎無法滿足的。所以要找到更加公益性、更加客觀和真實的內容,必須有更多精細化、專業化、非商業性的搜索引擎出現。於是,垂直搜索應運而生,並逐漸展露侵蝕和霸佔細分市場的趨勢。專家分析,普通網頁搜索引擎的發展為垂直搜索引擎的出現提供了良好的市場空間,未來三年內垂直搜索引擎將會占據搜索引擎市場一定的份額,Web搜索將日益垂直化和個性化。所謂垂直搜索,是針對某一特定領域、某一特定人群或某一特定需求提供的有一定價值的信息和相關服務。其特點就是專、精、深,且具有行業色彩。它是與通用搜索引擎截然不同的引擎類型。垂直搜索引擎專注具體、深入的縱向服務,致力於某一特定領域內信息的全面和內容的深入,這個領域外的閑雜信息不收錄。比如:用戶搜索上海長寧區的可帶寵物就餐的川菜館的電話、菜單價格、交通指路等這就是一種垂直搜索。普通的網頁搜索以綜合搜索、橫向搜索為主要特點,在滿足搜索信息量大的同時卻難以兼顧搜索的准確度與相關度的質量,很難滿足追求精準的個性化、專業化搜索需求。總的來說,垂直搜索(Vertical Search)是針對某一個行業的專業搜索引擎,是搜索引擎的細分和延伸,是對網頁庫中的某類專門的信息進行一次整合,定向分欄位抽取出需要的數據進行處理後再以某種形式返回給用戶。
Ⅹ 怎樣被搜索引擎搜到,並排在首位呢
怎樣提升網站在搜索引擎的排序位置?
關鍵詞選擇技巧
關鍵詞不是僅限於單個的詞,還應包括片語和短語。
我們知道,在搜索引擎中檢索信息都是通過輸入關鍵詞來實現的。因此正如其名所示,關鍵詞的確非常關鍵。它是整個網站登錄過程中最基本,也是最重要的一步,是我們進行網頁優化的基礎,因此怎麼強調其重要性都不過分。然而關鍵詞的確定並非一件輕而易舉的事,要考慮諸多因素,比如關鍵詞必須與你的網站內容有關,詞語間如何組合排列,是否符合搜索工具的要求,盡量避免採用熱門關鍵詞等等等等。所以說選擇正確的關鍵詞絕對是需要下一番工夫的。
那麼如何才能找到最適合你的關鍵詞呢?首先,要仔細揣摩你的潛在客戶的心理,絞盡腦汁設想他們在查詢與你有關的信息時最可能使用的關鍵詞,並一一將這些詞記錄下來。不必擔心列出的關鍵詞會太多,相反你找到的關鍵詞越多,用戶覆蓋面也越大,也就越有可能從中選出最佳的關鍵詞。
我們經常聽到這樣的事例:一家公司的網站在搜索引擎上排在了前20名,業務量隨之猛增到原來的10倍。而另一家公司排名同樣也在前20位,可業務量前後卻一點沒變化。是什麼造成了如此大的差異?原因很簡單,就是前一家公司選擇了正確的關鍵詞,而後者在這方面則犯了致命的錯誤。這一事例說明,正確選擇關鍵詞對企業網站營銷的成敗是何等重要。
■ 選擇相關的關鍵詞
對一家企業來說,挑選的關鍵詞當然必須與自己的產品或服務有關。不要聽信那些靠毫不相乾的熱門關鍵詞吸引更多訪問量的宣傳,那樣做不僅不道德,而且毫無意義。試想一個查找「Monica Lewinsky」的人,會對你生產的醬油感興趣嗎?當然不。必須承認,有時這種作法的確能提高網站的訪問量,但既然你目的是銷售產品,不是提供免費的小道消息,那麼靠這種作弊手段增加訪問量又有何用呢?
■ 選擇具體的關鍵詞
我們在挑選關鍵詞時還有一點要注意,就是避免拿含義寬泛的一般性詞語作為主打關鍵詞,而是要根據你的業務或產品的種類,盡可能選取具體的詞。比如一家銷售木工機具的廠家,「Carpenter Tools」不是合適的關鍵詞,「Chain Saws」則可能是明智的選擇。
有人會問,既然「Carpenter Tools」是集合名詞,涵蓋了廠家所有的產品,為什麼不用?我們不妨拿Carpenter Tools到Google一試,你會發現搜索結果居然在6位數以上(實際數字為189,000),也就是說你的競爭者有近 200,000個!想在這么多競爭者當中脫穎而出幾乎是「不可能完成的任務」。相反,「Chain Saws」項下的搜索結果則少得多(69,800個),你有更多的機會排在競爭者的前面。
■ 選用較長的關鍵詞
與查詢信息時盡量使用單詞原形態相反,在提交網站時我們最好使用單詞的較長形態,如可以用「games」的時候,盡量不要選擇「game」。因為在搜索引擎支持單詞多形態或斷詞查詢的情況下,選用「games」可以保證你的網頁在以「games」和「game」搜索時,都能獲得被檢索的機會。
■ 別忘錯拼的單詞?
不少關於如何選擇關鍵詞的文章都特別提到單詞的錯誤拼寫,如「contemorary modern coffee tables」,提醒我們別忘將之納入關鍵詞選擇之列。其理論是,有些單詞經常被用戶拼錯,考慮到一般人不會以錯別字作為自己的目標關鍵詞,因此如果聰明的你發現了這一訣竅,以錯拼單詞優化你的網頁,那麼一旦遇到用戶再以這個錯別字進行搜索,你就會高高在上,昂然屹立於搜索結果的前列!
事實果真如此嗎?首先我們還是來看看上述例子錯在哪裡吧。「contemorary」實為「contemporary」,雖為一個字母之差,但從關鍵詞角度兩者則相去甚遠了。奇怪的是根據關鍵詞監測統計報告,「contemorary」在兩個月內出現次數達66次之多!那麼我們趕快將它列入關鍵詞清單嗎?且慢。我們先分析一下有誰會經常寫錯別字吧。是受過良好教育的正規商家嗎?可能性不大,畢竟「contemporary」不是艱澀的拉丁文借用詞嘛。看來象是某些粗心大意的丈夫或勤儉持家的主婦嫌疑比較大。憑心而論,他們會是你珍貴的客源,但不大可能成為你理想的商業合作夥伴。
反過來,如果一個潛在的客戶偶然手誤拼錯了單詞,卻赫然發現你的網站出現在眼前,而且那個錯別字被多次顯著地以粗體字顯示,他會做何反應?他會象發現金礦一樣欣喜若狂?還是在心裡對這家企業的素質產生一絲疑問?他會認為一個連基本文法都掌握不好的廠家,其實力實在值得懷疑。所以,錯拼的關鍵詞是個陷阱,採用時我們一定要三思。
而且,目前一些搜索引擎(如Google)都增加了自動拼寫檢查功能,當用戶輸入錯別字時,系統會自動提供正確的詞語選擇。當用戶意識到自己出錯時,大部分都傾向於按提示的正確關鍵詞進行搜索。所以現階段來看,以錯拼單詞優化網頁已基本上失去了意義。
■ 尋找關鍵詞技巧
作為網站擁有者,你當然是最了解自己企業情況的人,所以你總是能找到最能反映自身業務特點的關鍵詞。但單靠自己的努力有時難免會有些遺漏,這時你不妨來到搜索引擎上,找到競爭對手的網站,看看他們使用的是哪些關鍵詞,你也許會從中得到一些啟發的。
此外,藉助一些關鍵詞自動分析軟體,可以迅速地從你的或你競爭對手的網頁中提取適合的關鍵詞,使你的工作效率成倍地提高,我們可以藉助這些軟體找到許多以前不曾考慮到的關鍵詞,從而大幅擴充我們的關鍵詞列表。
■ 停用詞/過濾詞(Stop Words/Filter Words)
這兩者意義一樣,都是指一些太常用以至沒有任何檢索價值的單詞,比如「a」、「the」、「and」、「of」、「web」、「home page」等等。搜索引擎碰到這些詞時一般都會過濾掉。因此為節省空間,應盡量避免使用這一類的詞,尤其是在對文字數量有嚴格限制的地方。(如想驗證上述規則,你可以試著在搜索引擎中以「stay the night」查詢。你會發現結果中單詞「the」雖與搜索條件匹配,但並未以粗體字顯示,說明它被忽略掉了。)
■ 把關鍵詞重復1000次
既然關鍵詞出現頻次是決定網站排名的重要因素,我們何不將它重復個1000次,這樣不是即簡單又有效嗎?打住。殊不知這可是搜索引擎「石器時代」的做法,在當時的確奏效,現在則早已被搜索引擎所摒棄。
那時典型的做法是:「關鍵詞,關鍵詞,關鍵詞......」。重復次數越多,網站排位越靠前。於是登錄搜索引擎變成了一場無休止的關鍵詞重復大賽。你重復500次不算多,我來600次,而將關鍵詞重復上千次的也不乏其人。搜索引擎很快意識到了這種做法的危害性,忍無可忍之際終於站出來,警告那些事情做過了頭的網站,如果繼續執迷不悟,不僅達不到目的,還有可能被處極刑——永遠將你的網站拒之門外!
所以不要刻意過分重復某個關鍵詞,尤其不要在同一行連續使用某個關鍵詞2次以上。在使用關鍵詞時,要盡量做到自然流暢,符合基本的文法規則。
壞代碼傷害你的搜索引擎排名
壞代碼傷害你的搜索引擎排名簡單的網頁錯誤會引起搜索引擎蜘蛛不正確索引頁或者完全放棄些頁。檢查你的代碼和連接在上穿之前。TML 代碼錯誤能負影響你的搜索引擎排列? 大多數web站點管理員沒意識 搜索引擎的要求佔中心地位壞代碼能用幾種方式傷害搜索引擎的站點。 搜索引擎在尋找在主要HTML的關鍵字和相關條件時,如果遇到他們不能理解的html,蜘蛛將降低你的頁等級或者離開你的這個頁。 象一個不好安置的標簽那樣的錯誤 - 象一米塔一樣,標簽安置在身體處內而不是頭部分 - 能引起蜘蛛忽視標簽,降低你關聯性得分和隨後排列。 其他網頁上的錯誤在也能限制搜索引擎索引你的站點。 損壞的連接將成為蜘蛛的路障,破壞搜索引擎蜘蛛索引正文和跟隨的連接。 如果他們來你的網站並且遇到中斷的連接, 他們將不能完全索引站點,甚至他們放棄這個網站( 他們更多的網站在等待索引, 為什麼浪費時間在一個弄斷連接的網站上呢?! ) 約翰布萊恩特,一職業計算機顧問和SEO 在亞利桑那www.helpmedoc.com 的擁有人,告訴了我們她的經驗。 一次我忘記修改我的HTML,它使我失去了前10名排列! 我的一小段HTML 使一個現代化的網站才生了錯誤並且它毀壞網站在搜索引擎中的排名。 從第一頁前十名位置下降到第3 頁。 幸好,這個故事有一愉快的結束。 一有理解力很強的專業工程師,在搜索引擎中的排名方面立即注意到下降並且證實原因是一HTML 錯誤。 他修理錯誤並且再提交頁。 幾周以後他恢復了他的搜索引擎中的排名。 錯誤也在目錄里受傷!在你的代碼里的錯誤和問題,將阻止搜索引擎工作 - 它也能影響目錄。 在搜索引擎策略中,致力於搜索引擎服務的Yahoo和LookSmart 站點都拒絕這樣的連接和錯誤。 我們的網站維修工具能保證你迴避這個HTML問題。 錯誤怎樣進入代碼?我的web站點管理員知道代碼 - 他將不犯錯誤。 " 不,不故意,但是讓我們考慮你的web站點管理員操作的工作環境。 有限的時間,多人分工合作,壓力經常不斷改進網站 - 事實是web站點管理員的世界是忙碌和高的壓力。 疲倦web站點管理員盡力保持不落,有時,一個很小的錯誤將改變網站使改變高速旋轉。 考慮這腳本 - 你銷售部門交給你web站點管理員一些偉大的新的主頁。 他們已經用你的公司的搜索引擎最優化專家協調並且已經策略上把關鍵字安置在新正文里。試圖是小心的,你的web站點管理員提交了任務,增加新正文, 但是偶然切斷一次段落花筆塗畫的關閉的方括弧,因此你的正文看起來象這樣: <; 這你關鍵字富有正文的p 那銷售和 SEO 加在一起注意到P 標簽不是丟失是關閉括起來。 代碼真的應該被象這樣寫: <; p>; 這你關鍵字富有正文那銷售和 SEO 加在一起 當這個搜索引擎讀你的頁而沒有關閉時,括起來,它以為全部富有關鍵字的正文是一個段落標簽的屬性 - 並且忽視它 . 搜索引擎強調在你頁上的可見正文和這盡可能完善正文,明確增加推進你站點關聯性的關鍵字, 你剛剛丟失一巨大機會證明你的關聯性給搜索引擎。 這能花費你多少金錢才能在搜索引擎提高到一個原本沒有錯誤的排名和本應該有的網站流量。 繽紛軟體園 :高速軟體下載園
搜索引擎提交技巧
網頁優化只是做好了登錄搜索引擎的前期准備工作,最終我們要將優化好的網站提交搜索引擎,這也是網站注冊中非常重要的一環。
■ 提交網站還是網頁
提交你的網頁,而不是你的網站——以前的確如此,而今情況則完全不同。現在幾乎所有搜索引擎在網站登錄頁面都明確提示只需提交主頁域名,如:http://www.mysite.com/(不必提交主頁URL,如:http://www.mysite.com/index.html或default.html)。
在過去,搜索引擎跟蹤網站內部鏈接的程度不一樣,有的可以跟蹤所有的鏈接,有的則止於第二或第三層,所以當時單獨提交網頁是必要的。網站首頁屬於第一層鏈接,首頁上的鏈接指向的網頁為第二層,如果在第二層頁面上還有指向下級網頁的鏈接,則被該鏈接引導的頁面為第三層,依次類推。
現在所有搜索引擎都能訪問網站的全部頁面,不管它隱藏多深。即便如此,搜索引擎在索引網頁時還是有先後次序的,所以將你認為重要的頁面置於靠上的鏈接層是個好主意。
■ 提交網頁的數量
過去搜索引擎免費時代,為減輕負載一些引擎設置了網頁提交數量限制。比如有的規定來自同一網站的網頁總數不能超過30個;在同一天當中,向單個搜索引擎提交的網頁數量最好不要超過5個等等。而現在由於搜索引擎都不鼓勵單個網頁提交(收費服務除外),因此你網頁被索引的數量完全要看各個引擎的情緒。當然對目錄索引來說,你一次只能提交一個網站或網頁。
■ 重復提交網站
以前在需要重復提交URL的問題上,目錄索引與搜索引擎是不同的。登錄目錄索引基本上是「一錘子買賣」,你用不著針對同一分類目錄重復提交你的網頁,而且目錄索引也不允許。而搜索引擎則不反對重復提交網頁,而且為維持搜索引擎排名,有時重復提交也是很有必要的。
然而隨著搜索技術的發展,現在這種做法已顯得過時。現在的情況是,只要你的網站進入搜索引擎資料庫,搜索引擎就會定期掃描你的網站並更新資料庫中相應的記錄。
有一點需要提醒大家,雖然搜索引擎(如Google)並未完全禁止重復提交,但重復提交並不能加快你網站被索引或更新的速度,而且頻繁騷擾也會讓所有人都反感。因此這里的建議是,如果你的網站已上了搜索引擎,就不要自找麻煩再去提交。如果你的網站未被收錄,我們不完全否定主動提交網址的作用,但在重復提交時要講究風度,時間間隔最好為一個月。對現在的搜索引擎來說,最好的登錄方法是通過建立更多的外部鏈接,讓搜索引擎有更多的機會找到你——這是現階段搜索引擎們所一再鼓吹的。
■ 網站訪問速度
在搜索引擎登錄中,我們常忽略了網站訪問速度的問題,實際上有時它對網站成功提交和排名都會產生相當大的影響。如果伺服器響應速度過慢,輕則會降低你的網站排名和更新頻率,重則會導致鏈接被搜索引擎從其資料庫中摘除。如果因為這些最基本的問題影響了我們網站推廣的效果,那就太得不償失了。
讓搜索引擎找到你你可以到各大搜索引擎進行登錄