1. 我想做一個帶圖片的檢索資料庫,單機版,就是輸入名字後就可以看到相關圖片資料,哪個高手指點
單機的如果不是很大的話可以試一下VF,小巧,可以再各個電腦之間互相傳,操作也挺簡單的,有興趣的話可以試試。
2. 計算機信息檢索系統的資料庫
資料庫是將數據按一定格式存儲在計算機內的數據的倉庫,即存儲在計算機內的相關數據的集合。資料庫是有組織、可共享的各類數據的集合,資料庫中的數據按照一定的規格組織、描述和存儲,具有較小冗餘度和較高的數據獨立性、易維護性與擴展性。
資料庫類型 (1) 參考資料庫(reference database)
l數目資料庫(bibliographic database)
l指南資料庫(referral database)
(2) 源資料庫(source database)
l數值資料庫(numeric database)
l文本—數值資料庫(textual-numeric database)
l全文資料庫(full-text database)
l術語資料庫(terminological database)
l圖像資料庫(graphic database)
(3) 混合型資料庫(mixed database)
混合型資料庫是能夠同時存儲多種不同類型數據的資料庫。
3. 如何製作一個帶查詢搜索界面的資料庫軟體
軟體的實現是一個模板問題,跟具體數據無關。
查詢搜索是資料庫的基本功能,就看你用什麼語
言寫了。Java的話用JDBC或JDO都可以,C/C++的
話用ADO即可。
4. 現代信息檢索服務系統有哪些類型各自的特點是什麼舉例說明
現代信息檢索服務系統指計算機信息檢索系統,主要包括,聯機檢索系統、光碟檢索系統和網路信息檢索系統。
(一)光碟資料庫檢索
光碟資料庫檢索是由微機、光碟資料庫、檢索軟體等組成,目前國內普遍採用的是網路檢索系統,它是由光碟伺服器、計算機區域網、光碟庫/磁碟陣列、檢索軟體等組成,其特點是設備簡單、費用低、檢索技術易掌握,但檢索范圍受到光碟資料庫的限制。更新不夠及時;相對於手工檢索而言,它的檢索速度快,檢索靈活方便,檢索入口多。
(二)聯機檢索
聯機檢索系統是由聯機服務的中心計算機,檢索終端。通訊網路、聯機資料庫、檢索軟體等構成,檢索終端通過信息路線與信息系統的主機連接,在中央處理機的控制之下查詢系統的若干個資料庫,並能夠與系統實時對話,隨時調整檢索策略。其特點是檢索范圍廣泛、檢索速度快,檢索功能完善,及時性好,可以聯機訂購原文,它擁有的資料庫量大,更新及時,但檢索技術復雜,設備要求高,費用昂貴。
(三)網路信息檢索
網路信息檢索系統是由計算機伺服器,用戶終端、通訊網路、網路資料庫等組成,其特點是檢索方法簡單、檢索靈活方便、及時性好,檢索費用和速度低於聯機檢索系統。通過網路介面軟體,用戶可以在任何一個終端查詢各地網路上的信息資源。網路檢索實際上是更加廣泛的聯機信息檢索系統。
1.DIALOG系統概述
美國Dialog系統是目前世界上規模最大、影響最廣泛的綜合性商業聯機檢索系統,也是我國科技界廣泛使用的系統。其中心設在美國加利福尼亞州的PALOALTO市。
Dialog聯機檢索用戶遍布世界100多個國家。D1ALoG現有全文、題錄、事實及數據型資料庫數百個,都是質量很高、很權威的核心資料庫,其中包括著名的工程索引(Ei)、科學引文索引(SCI)、英國科學文摘(1NSPEC)、世界專利索引(WPI)等,其數量平均每年約增長20%一28%。文獻量已近數億篇,內容涉及自然科學、社會科學、工程技術、人文科學、時事報道及商業經濟等各個領域。
DIAIOG提供的服務項目有各種類型信息檢索、定題股務、原文訂購(E—mail,FAX或郵寄傳遞)等。它的檢索功能強大,深度和廣度要求高的檢索均可做到,資料庫更新及時,資料庫中收錄的文獻年限長。利用Dialog系統,可進行項目交新、文獻調研、課題立項、申報專利、了解市場動態和競爭對手、新產品開發、公司的背景憾況、經濟預測等信息。
(1)聯機准備。對於用戶而言,要想使用Dialog聯機檢索系統,首先要具備相應的軟、硬體設備;其次,要向Dialog系統申請聯號,交納一定的開戶費用,每年要文年費和資料庫使用費。
與DIALOG聯機所需要的軟、硬體設備包括終端、通信軟體和數據機。通信軟體安裝在用戶終端,用於實現用戶和主機間的通信,Dialog LINK是dialog系統專門為用戶設計的通信軟體。該軟體功能豐富,集成化程度高,具有自動登錄或按號功能及在聯機前建立並存儲檢索式,存儲、顯示和列印檢索結果,顯示圖形,標記、存儲記錄,追蹤記憶等功能。該軟體是動態更新的。
在申請成為Dialog用戶後,系統將為用戶提供兩個號碼:
1)用戶號。用戶號(User Name)是D1ALog用戶的賬號,也是用戶的標記。系統將對此用戶使用系統的情況進行跟蹤、記殿、郵寄賬單和資料庫更新資料。當用戶與DIALOG系統進行各種聯系時,均須提供賬號。
2)用戶口令。用戶口令(Password)是用戶進入D1ALog系統的鑰匙,當用戶進行聯機登錄時,用戶名和口令必須結合起來使用。
(2)聯機方式。在用戶具備了上述條件並安裝好各種硬體及軟體後,就可以實現與Dialog檢索系統聯機。Dialog系統向用戶提供多種服務方式、檢索界面及各種資料庫。DIALOG的聯機方式有兩種:
1)通過CHINAPAC(專線)與D1ALOG聯機。具體過程為:①輸入主機所屬的分組交換網址;②輸入系統標識符;②輸入用戶號;④輸入用戶密碼。
2)通過CHINANET或Internet與Dialog聯機。如果用戶的計算機已經與Internet聯網,則可使用遠程登錄命令Telnet diaLoG.com或通信軟體Dialog LINK,就可以登錄到DIALOG聯機系統,以文本界面方式檢索Dialog資料庫,也可以使用ie瀏覽器以Web的方式檢索Dialog資料庫。與專線方法相比,這種聯機方法更加直接、方便。DIALOG系統的Internet Web界面的檢索方法有以下幾種:
a.利用Web直接上網檢索,其web網址為http://www.DialogWeb.com。這種方式檢索贊用較低,缺點是如果用戶需要將所有檢索過程存檔,就要一屏一屏地存檔,否則隨著檢索指令的變化,不及時存檔,數據容易丟失。
b.特別為專業人員推出的web界面。其網址為http://www.dialogclassic.com。這是最新推出的界面,速度快,檢索過程每一屏幕均保留,不丟失效據,便於存檔,界面是專業人員熟悉的界面,能很快地從舊檢索方式轉入適應新的web界面。
c.非專業檢索人員web界面。其網址為http://www.dialogselect.com。dialog select作為在Internet上的傻瓜界面主要針對最終用戶,而非專業人員。對於初學者、最終信息用戶和不願學習Dialog檢索指令的人可使用其傻瓜界面。 『
d.資料庫藍頁網址:http://library.Dialog.com/bluesheets。用戶可以按資料庫名稱、文檔號、主題瀏覽藍頁。資料庫藍頁提供每一種資料庫的收錄范圍,可供檢索的欄位、列印格式、記錄樣式及收費狀況等。
(3)Dialog系統的檢索特點。
1)Dialog系統具有兩種檢索方式:菜單式和命令式。菜單式指Dialogweb (guided search)及DialogSelect的檢索方式,其檢索界面為圖形界面,明確直觀。該界面無須了解Dialog檢索指令,適合於非專業檢索人員和初學者使用,用戶可以按照系統提示一步一步進行檢索;命令式指遠程登錄(Telnet)、DialogClassic及DialogWeb(command search)的檢索方式,檢索時需輸入各種指令,檢索快速、准確,適合於專業人員使用。
2)DIALOG系統有兩種索引:基本索引和輔助索引。從上述可知,聯機檢索是通過倒排檔進行的,Dialog系統的田搽檔就是基本索引和輔助索引。
基本索引欄位主要有標題、規范詞、自由詞、文摘等(各個資料庫的基本檢索欄位不完全相同,用戶需要查問相關資料庫的主頁才能確定)。絕大多數資料庫都包含TA、DE、ID、AB(標題、敘詞、自由詞、文摘)4個基本索引欄位。基本索引欄位採用後級代碼進行檢索。如SMOTOROLA/CO將檢索欄位限於公司名稱欄位;SANTHRAX/TI將檢索詞限於標題欄位。
Dialog系統資料庫將作者、單位名稱、期刊名稱、文獻類型、語種、出版年份等作為輔助索引欄位,採用前綴代碼檢索。如SAU=JOHNSON,S?;S PY=1998等。適當使用這些檢索途徑,用戶可以迅速、准確地找到自己所需要的信息。
3)DIALOG系統的多資料庫訪問和查重功能。DIAOG可用一次性檢索方法對多個資料庫進行檢索。用一次性檢索方法不僅可以比較交叉文檔的檢索結果,而且可以限制檢索項、組配檢索項和顯示檢索結果,使多文檔查找猶如在單一文檔中查找一樣靈活,該功能一次最多可以檢索60個資料庫。由於一次性檢索的命中文獻為所選資料庫檢索文獻之和,其中有些文獻為重復文獻,dialog提供了查重功能,以便提高檢索效率和降低檢索賞用。
2. 《工程索引 (Ei Compendex PIus)》資料庫光碟
1)簡介
《工程索引(Ei ComPendex PIus)》資料庫光碟簡稱CoM—PENDEx資料庫,是KR OnDisc for windows光碟系列中的一種光碟,由美國Knight—Ridder信息公司發行。這個資料庫就是印刷本《The Engineering lndex)的光碟版,該光碟收錄了自1970年以來的工程索引信息,內容包括空間技術、應用物理、生物醫學儀器、化學工程、城市建設工程、環境工程、電子工程、能源技術、工程材料、海洋工程、機械工程、采礦和冶金、管理工程等。該光碟有DOS版、Windows版、Macintosh版等幾種,以便適合不同的PC與操作系統。檢索系統與數據一般在同一張光碟上,數據每月更新,檢索系統的安裝十分簡單方便,幾乎不需要更改任何系統參數,如果在DOS環境下檢索,則不在硬碟上安裝檢索系統也可以,直接在光碟驅動器盤符下鍵入ONDISC命令,即可進入檢索系統。該光碟上一般還附帶有與Dialog聯機的遠程終端訪問系統,時間跨度為19洲午主今。l 988年-1991年,各個年份的光碟檢索系統工作在DOS平台上,1992年以後的檢索系統工作在Windows平台上。1999年,Dialog公司推出了提供Web瀏覽方式的光碟資料庫服務軟體Dialog@site,購買並在本地裝有Windows NT系統的伺服器上安裝運行Dialog@site軟體後,即可通過區域網或網際網路訪問該資料庫。它們的檢索步驟和檢索策略基本相同。COMPEND—EX資料庫的特點是檢索途徑多,策略變換靈活,顯示格式多,另外還有多種輔助分析手段,因而是工程技術領域最常用的資料庫光碟。
3. 《中國學術期刊(光碟版)》全文資料庫
1)簡介
《中國學術期刊(光碟版)》全文資料庫,簡稱CAJR資料庫,是中國製作的第一個集成化、多功能型電子學術期刊資料庫。這個資料庫由清華大學主辦,1996年起出版發行。CAJR資料庫的特點是期刊全文入編,圖文混排,顯示、列印輸出格式與印刷版期刊保持一致。對最新內容,資料庫實行按月更新,以保證信息的及時性,對不在資料庫重點收錄范圍的期刊文獻(或稱為過刊文獻),陸續建立過期期刊題錄摘要庫,與現刊文獻合並成同一光碟.可實現題錄摘要的追溯查詢。對重點學科的過期期刊,則可建立過期期刊全文回溯庫,以實現全文追溯查詢。在軟體方面,CAJR資料庫採用傳統和智能化全文檢索相結合的方案,保留了傳統資料庫檢索的優點,增加了檢索入口。
4. 中國知識資源總庫簡介 .
中國知網又稱中國知識基礎設施工程(China National knowledge infrastructure)是以實現全社會知識資源傳播共享與增值利用為目標的國家信息化重點建設項目,於1995年正式立項。它由清華同方光碟股份有限公司、中國學術期刊(光碟版)電子雜志社、光碟國家工程研究中心等單位於1999年6月在《中國學術期刊光碟版)》(caj-cd)和中國期刊網.(CJN)全文資料庫建設的基礎上研製開發的一項規模更大、內容更廣、結構更系統的知識信息化建設項目。
截止2007年底,cnki涵蓋了國內9000多種期刊雜志,1500多種重要會議文獻,420多家博士培養單位論文,650多家碩士培養單位論文,300多家出版社已經出版的圖書、全國的重要報紙以及網路全書、專利、年鑒、標准、科技成果、政府文件、網際網路信息匯總以及國內外上千個各類加盟資料庫等知識資源。據相關統計,cnki已經被海內外17000多個高校、科研單位、醫院、企業、政府;中小學等各類機構所採用,最終用戶群超過2600萬人。
5、基於Internet的信息檢索
在Internet 上,www 信息資源的一般查詢方法有:基於超文本的信息查詢、基於目錄的信息查詢和基於搜索引擎的信息查詢。
1.) 基於超文本的信息查詢
通過超文本鏈接逐步遍歷龐大的Internet,從一個www 伺服器到另一個www 服務
器,從一個目錄到另一個目錄,從一篇文章到另一篇文章,瀏覽查找所需信息的方法稱為瀏覽,也稱基於超文本的信息查詢方法。
基於超文本的瀏覽模式是一種有別於傳統信息檢索技術的新型檢索方式,它已成為Internet 上最基本的查詢模式。利用瀏覽模式進行檢索時,用戶只需以一個節點作為入口,根據節點中文本的內容了解嵌入其中的熱鏈指向的主題,然後選擇自己感興趣的節點進一步搜索。在搜索過程中,用戶會發現許多相關的節點內容根本沒被自己所預想到,而是在瀏覽過程中不斷蹦出來,提醒用戶注意它。
隨著 www 伺服器的急劇增加,通過一步步瀏覽來查找所需信息已非常困難。為幫助用戶快速方便地搜尋所需信息,各種www 信息查詢工具便應運而生,其中最有代表性的是基於目錄和基於搜索引擎的信息查詢工具,而利用這些工具來查找信息的方法就被稱為基於目錄和基於搜索引擎的信息查詢方法。
2). 基於目錄的信息查詢
為了幫助Internet 上用戶方便地查詢到所需要的信息,人們按照圖書館管理書目的方法設置了目錄。網上目錄一般以主題方式來組織,大主題下又包括若干小主題,這樣一層一層地查下去,直到比較具體的信息標題。目錄存放在www 伺服器里,各個主題通過超文本的方式組織在一起,用戶通過目錄最終可得到所需信息的網址,即可到相應的地方查找信息,這種通過目錄幫助的方法獲得所需信息的網址繼而查找信息的方法稱為基於目錄的信息查詢方法。
有許多機構專門收集Internet 上的信息地址,並編製成目錄提供給網上用戶。Yahoo就是一個非常著名的基於目錄幫助的網址,其目錄按照一般主題組織,頂層按經濟、計算機、教育、政治、新聞、科學等分成14 大類目錄,每一大類又分成若乾子類,層層遞進。
3). 基於搜索引擎的信息查詢
搜索引擎又稱www 檢索工具,是www 上的一種信息檢索軟體。www 檢索工具的工
作原理與傳統的信息檢索系統類似,都是對信息集合和用戶信息需求集合的匹配和選擇。基於搜索工具的檢索方法接近於我們通常所熟悉的檢索方式,即輸入檢索詞以及各檢索詞之間的邏輯關系,然後檢索軟體根據輸入信息在索引庫中搜索,獲得檢索結果(在Internet 上是一系列節點地址)並輸出給用戶。
搜索引擎實際上是Internet 的服務站點,有免費為公眾提供服務的,也有進行收費服務的。不同的檢索服務可能會有不同界面,不同的側重內容,但有一點是共同的,就是都有一個龐大的索引資料庫。這個索引庫是向用戶提供檢索結果的依據,其中收集了Internet 上數百萬甚至數千萬主頁信息,包括該主頁的主題、地址,包含於其中的被鏈接檔主題,以及每個文檔中出現的單詞的頻率、位置等。最著名的搜索引擎莫過於Google和網路了。
5. 我想做一個查找我們辦公室材料的檢索系統,就是讓辦公室的同事查詢自己資料庫的文件方便的系統
首先你需要確定編程語言,然後你要分析你們辦公室的材料在資料庫中的結構。然後你要寫上精美的前端頁面。再然後就可以上線慢慢修改bug了。
6. 我想做一個web頁面實現資料庫檢索的,如果有多個欄位,而且欄位可以輸入,也可以為空,怎麼解決啊
你好 我給你一個比較通用的寫法 希望能幫到你.
String sql="SELECT * FROM TESTTABLE WHERE 1=1";
if(!id.equels("")&&id!=null)
sql+="and id="+id;
if(!CLASS.equels("")&&CLASS!=null)
sql+="AND CLASS="+CLASS;
if(!NAME.equels("")&&NAME!=null)
sql+="AND NAME="+NAME;
如上所屬 你可以得到一個組裝起來的sql語句,然後執行出你想得到的值,希望能幫到你.
7. 怎樣使用EBSCOhost系統外文全文資料庫
一.簡 介
EBSCOhost是美國EBSCO公司的全文資料庫檢索系統,目前有全文資料庫10餘個,其中最主要的是:①學術期刊全文資料庫(Academic Search Premier,簡稱ASP):收錄有7888種學術期刊的文摘和索引,其中全文刊近4700種,同行評審刊3600多種;②商業資源全文資料庫(Business Source Premier,簡稱BSP):收錄有 2,300 多種期刊的全文,其中同行評審刊1100多種。
二.學科範圍
ASP學術期刊全文資料庫:包括有關社會科學、人文科學、教育、計算機科學、工程技術、物理、化學、語言學、藝術與文化、醫學、種族研究等相關學科領域。BSP商業資源全文資料庫:包括國際商務、經濟學、經濟管理、金融、財會、勞動人事等相關學科領域。
目前, EBSCOhost系統中ASP、BSP全文資料庫正對我校試用開通。在校園網IP段內的用戶均可直接訪問。
三.如何進入
首次使用請下載並安裝"Adobe Acrobat Reader " 全文閱讀器。
⑴啟動WEB瀏覽器(IE),在地址欄直接鍵入http://search.ebscohost.com, 進入檢索資料庫選擇頁面。
⑴.瀏覽//檢索方法
①按字母順序查找//瀏覽出版物。
②按主題和說明查找//瀏覽出版物。
③按任意詞查找//瀏覽出版物。
⑵.點擊出版物名,顯示年卷信息;點擊年卷,顯示卷期信息。
⑶.點擊卷期,顯示所載文章篇名等記錄結果。
4.其它檢索功能
⑴.Subject terms(按鈕):主題檢索:可以按字母順序和相關性對資料庫的主題詞表進行檢索。
⑵.Index(按鈕):欄位索引(除主題索引外)。可瀏覽或查找某個檢索詞。
⑶.Company Profiles(按鈕):公司概況資料庫。在單獨檢索商業資源( Business Source 系列)資料庫時使用,可以提供較詳細的公司情況報告。
⑷.References(按鈕):參考文獻檢索。可根據作者、題名、文獻來源等檢索參考文獻。
⑸.Image(按鈕):一個可檢索的圖片資料庫。可檢索人物、自然科學、地理、歷史、地圖和旗幟等類別的圖片。
五. 結果處理
在檢索結果中,如果出現「 HTML Full Text 」 (文本型全文)或 「 PDF Full Text 」(PDF格式全文)標示,則系統提供有這篇文獻的全文,否則就沒有提供全文。
可根據需要對檢索結果進行瀏覽、選擇(添加到收藏夾)、E-mail發送、下載復制、存檔、列印等。使用「Print、E-mail、Save」功能處理檢索結果:點擊按鈕後,可根據個人需要,選擇相應的形式和內容列印、保存或E-mail檢索結果。
8. 做一個搜索引擎要涉及那些知識求專家建議
隨著互聯網的迅猛發展、WEB信息的增加,用戶要在信息海洋里查找自己所需的信息,就象大海撈針一樣,搜索引擎技術恰好解決了這一難題(它可以為用戶提供信息檢索服務)。搜索引擎是指互聯網上專門提供檢索服務的一類網站,這些站點的伺服器通過網路搜索軟體(例如網路搜索機器人)或網路登錄等方式,將Intemet上大量網站的頁面信息收集到本地,經過加工處理建立信息資料庫和索引資料庫,從而對用戶提出的各種檢索作出響應,提供用戶所需的信息或相關指針。用戶的檢索途徑主要包括自由詞全文檢索、關鍵詞檢索、分類檢索及其他特殊信息的檢索(如企業、人名、電話黃頁等)。下面以網路搜索機器人為例來說明搜索引擎技術。
1.網路機器人技術
網路機器人(Robot)又被稱作Spider、Worm或Random,核心目的是為獲取Intemet上的信息。一般定義為「一個在網路上檢索文件且自動跟蹤該文件的超文本結構並循環檢索被參照的所有文件的軟體」。機器人利用主頁中的超文本鏈接遍歷WWW,通過U趾引用從一個HT2LIL文檔爬行到另一個HTML文檔。網上機器人收集到的信息可有多種用途,如建立索引、HIML文件合法性的驗證、uRL鏈接點驗證與確認、監控與獲取更新信息、站點鏡像等。
機器人安在網上爬行,因此需要建立一個URL列表來記錄訪問的軌跡。它使用超文本,指向其他文檔的URL是隱藏在文檔中,需要從中分析提取URL,機器人一般都用於生成索引資料庫。所有WWW的搜索程序都有如下的工作步驟:
(1)機器人從起始URL列表中取出URL並從網上讀取其指向的內容;
(2)從每一個文檔中提取某些信息(如關鍵字)並放入索引資料庫中;
(3)從文檔中提取指向其他文檔的URL,並加入到URL列表中;
(4)重復上述3個步驟,直到再沒有新的URL出現或超出了某些限制(時間或磁碟空間);
(5)給索引資料庫加上檢索介面,向網上用戶發布或提供給用戶檢索。
搜索演算法一般有深度優先和廣度優先兩種基本的搜索策略。機器人以URL列表存取的方式決定搜索策略:先進先出,則形成廣度優先搜索,當起始列表包含有大量的WWW伺服器地址時,廣度優先搜索將產生一個很好的初始結果,但很難深入到伺服器中去;先進後出,則形成深度優先搜索,這樣能產生較好的文檔分布,更容易發現文檔的結構,即找到最大數目的交叉引用。也可以採用遍歷搜索的方法,就是直接將32位的IP地址變化,逐個搜索整個Intemet。
搜索引擎是一個技術含量很高的網路應用系統。它包括網路技術、資料庫技術動標引技術、檢索技術、自動分類技術,機器學習等人工智慧技術。
2.索引技術
索引技術是搜索引擎的核心技術之一。搜索引擎要對所收集到的信息進行整理、分類、索引以產生索引庫,而中文搜索引擎的核心是分詞技術。分詞技術是利用一定的規則和詞庫,切分出一個句子中的詞,為自動索引做好准備。目前的索引多採用Non—clustered方法,該技術和語言文字的學問有很大的關系,具體有如下幾點:
(1)存儲語法庫,和詞彙庫配合分出句子中的詞彙;
(2)存儲詞彙庫,要同時存儲詞彙的使用頻率和常見搭配方式;
(3)詞彙寬,應可劃分為不同的專業庫,以便於處理專業文獻;
(4)對無法分詞的句子,把每個字當作詞來處理。
索引器生成從關鍵詞到URL的關系索引表。索引表一般使用某種形式的倒排表(1nversionUst),即由索引項查找相應的URL。索引表也要記錄索引項在文檔中出現的位置,以便檢索器計算索引項之間的相鄰關系或接近關系,並以特定的數據結構存儲在硬碟上。
不同的搜索引擎系統可能採用不盡相同的標引方法。例如Webcrawler利用全文檢索技術,對網頁中每一個單詞進行索引;Lycos只對頁名、標題以及最重要的100個注釋詞等選擇性詞語進行索引;Infoseek則提供概念檢索和片語檢索,支持and、or、near、not等布爾運算。檢索引擎的索引方法大致可分為自動索引、手工索引和用戶登錄三類。
3. 檢索器與結果處理技術
檢索器的主要功能是根據用戶輸入的關鍵詞在索引器形成的倒排表中進行檢索,同時完成頁面與檢索之間的相關度評價,對將要輸出的結果進行排序,並實現某種用戶相關性反饋機制。
通過搜索引擎獲得的檢索結果往往成百上千,為了得到有用的信息,常用的方法是按網頁的重要性或相關性給網頁評級,進行相關性排序。這里的相關度是指搜索關鍵字在文檔中出現的額度。當額度越高時,則認為該文檔的相關程度越高。能見度也是常用的衡量標准之一。一個網頁的能見度是指該網頁入口超級鏈接的數目。能見度方法是基於這樣的觀點:一個網頁被其他網頁引用得越多,則該網頁就越有價值。特別地,一個網頁被越重要的網頁所引用,則該網頁的重要程度也就越高。結果處理技術可歸納為:
(1)按頻次排定次序 通常,如果一個頁麵包含了越多的關鍵詞,其搜索目標的相關性應該越好,這是非常合平常理的解決方案。
(2)按頁面被訪問度排序 在這種方法中,搜索引擎會記錄它所搜索到的頁面被訪問的頻率。人們訪問較多的頁面通常應該包含比較多的信息,或者有其他吸引入的長處。這種解決方案適合一般的搜索用戶,而因為大部分的搜索引擎都不是專業性用戶,所以這種方案也比較適合一般搜索引擎使用。
(3)二次檢索 進一步凈化(比flne)結果,按照一定的條件對搜索結果進行優化,可以再選擇類別、相關詞進行二次搜索等。
由於目前的搜索引擎還不具備智能,除非知道要查找的文檔的標題,否則排列第一的結果未必是「最好」的結果。所以有些文檔盡管相關程度高,但並不一定是用戶最需要的文檔。
搜索引擎技術的行業應用:
搜索引擎的行業應用一般指類似於千瓦通信提供的多種搜索引擎行業與產品應用模式,大體上分為如下幾種形式:
1、 政府機關行業應用
n 實時跟蹤、採集與業務工作相關的信息來源。
n 全面滿足內部工作人員對互聯網信息的全局觀測需求。
n 及時解決政務外網、政務內網的信息源問題,實現動態發布。
n 快速解決政府主網站對各地級子網站的信息獲取需求。
n 全面整合信息,實現政府內部跨地區、跨部門的信息資源共享與有效溝通。
n 節約信息採集的人力、物力、時間,提高辦公效率。
2、企業行業應用
n 實時准確地監控、追蹤競爭對手動態,是企業獲取競爭情報的利器。
n 及時獲取競爭對手的公開信息以便研究同行業的發展與市場需求。
n 為企業決策部門和管理層提供便捷、多途徑的企業戰略決策工具。
n 大幅度地提高企業獲取、利用情報的效率,節省情報信息收集、存儲、挖掘的相關費用,是提高企業核心競爭力的關鍵。
n 提高企業整體分析研究能力、市場快速反應能力,建立起以知識管理為核心的競爭情報數據倉庫,是提高企業核心競爭力的神經中樞。
3、新聞媒體行業應用
n 快速准確地自動跟蹤、採集數千家網路媒體信息,擴大新聞線索,提高採集速度。
n 支持每天對數萬條新聞進行有效抓取。監控范圍的深度、廣度可以自行設定。
n 支持對所需內容智能提取、審核。
n 實現互聯網信息內容採集、瀏覽、編輯、管理、發布的一體化。
4、 行業網站應用
n 實時跟蹤、採集與網站相關的信息來源。
n 及時跟蹤行業的信息來源網站,自動,快速更新網站信息。動態更新信息。
n 實現互聯網信息內容採集、瀏覽、編輯、管理、發布的一體化。
n 針對商務網站提出商務管理模式,大大提高行業網站的商務應用需求。
n 針對資訊網站分類目錄生成,提出用戶生成網站分類結構。並可以實時增加與更新分類結構。不受級數限制。從而大大利高行業的應用性。
n 提供搜索引擎SEO優化專業服務,快速提高行業網站的推廣。
n 提供與CCDC呼叫搜索引擎的廣告合作。建立行業網站聯盟,提高行業網站知名度。
5) 網路信息監察與監控
n 網路輿情系統。如「千瓦通信-網路輿情雷達監測系統」
n 網站信息與內容監察與監控系統,如「千瓦通信-網站信息與內容監測與監察系統(站內神探)」
隨著網際網路的迅猛發展、WEB信息的增加,用戶要在信息海洋里查找信息,就象大海撈
針一樣,搜索引擎技術恰好解決了這一難題(它可以為用戶提供信息檢索服務)。目前,
搜索引擎技術正成為計算機工業界和學術界爭相研究、開發的對象。
搜索引擎(Search Engine)是隨著WEB信息的迅速增加,從1995年開始逐漸發展起來
的技術。據發表在《科學》雜志1999年7月的文章《WEB信息的可訪問性》估計,全球目前
的網頁超過8億,有效數據超過9T,並且仍以每4個月翻一番的速度增長。用戶要在如此浩
瀚的信息海洋里尋找信息,必然會"大海撈針"無功而返。搜索引擎正是為了解決這個"迷航
"問題而出現的技術。搜索引擎以一定的策略在互聯網中搜集、發現信息,對信息進行理解
、提取、組織和處理,並為用戶提供檢索服務,從而起到信息導航的目的。搜索引擎提供
的導航服務已經成為互聯網上非常重要的網路服務,搜索引擎站點也被美譽為"網路門戶"
。搜索引擎技術因而成為計算機工業界和學術界爭相研究、開發的對象。本文旨在對搜索
引擎的關鍵技術進行簡單的介紹,以起到拋磚引玉的作用。
分 類
按照信息搜集方法和服務提供方式的不同,搜索引擎系統可以分為三大類:
1.目錄式搜索引擎:以人工方式或半自動方式搜集信息,由編輯員查看信息之後,人
工形成信息摘要,並將信息置於事先確定的分類框架中。信息大多面向網站,提供目錄瀏
覽服務和直接檢索服務。該類搜索引擎因為加入了人的智能,所以信息准確、導航質量高
,缺點是需要人工介入、維護量大、信息量少、信息更新不及時。這類搜索引擎的代表是
:Yahoo、LookSmart、Open Directory、Go Guide等。
2.機器人搜索引擎:由一個稱為蜘蛛(Spider)的機器人程序以某種策略自動地在互
聯網中搜集和發現信息,由索引器為搜集到的信息建立索引,由檢索器根據用戶的查詢輸
入檢索索引庫,並將查詢結果返回給用戶。服務方式是面向網頁的全文檢索服務。該類搜
索引擎的優點是信息量大、更新及時、毋需人工干預,缺點是返回信息過多,有很多無關
信息,用戶必須從結果中進行篩選。這類搜索引擎的代表是:AltaVista、Northern Ligh
t、Excite、Infoseek、Inktomi、FAST、Lycos、Google;國內代表為:"天網"、悠遊、O
penFind等。
3.元搜索引擎:這類搜索引擎沒有自己的數據,而是將用戶的查詢請求同時向多個搜
索引擎遞交,將返回的結果進行重復排除、重新排序等處理後,作為自己的結果返回給用
戶。服務方式為面向網頁的全文檢索。這類搜索引擎的優點是返回結果的信息量更大、更
全,缺點是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。這類搜索引
擎的代表是WebCrawler、InfoMarket等。
性 能 指 標
我們可以將WEB信息的搜索看作一個信息檢索問題,即在由WEB網頁組成的文檔庫中檢索
出與用戶查詢相關的文檔。所以我們可以用衡量傳統信息檢索系統的性能參數-召回率(R
ecall)和精度(Pricision)衡量一個搜索引擎的性能。
召回率是檢索出的相關文檔數和文檔庫中所有的相關文檔數的比率,衡量的是檢索系
統(搜索引擎)的查全率;精度是檢索出的相關文檔數與檢索出的文檔總數的比率,衡量
的是檢索系統(搜索引擎)的查准率。對於一個檢索系統來講,召回率和精度不可能兩全
其美:召回率高時,精度低,精度高時,召回率低。所以常常用11種召回率下11種精度的
平均值(即11點平均精度)來衡量一個檢索系統的精度。對於搜索引擎系統來講,因為沒
有一個搜索引擎系統能夠搜集到所有的WEB網頁,所以召回率很難計算。目前的搜索引擎系
統都非常關心精度。
影響一個搜索引擎系統的性能有很多因素,最主要的是信息檢索模型,包括文檔和查詢
的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結果的排序方法和用戶進行相
關度反饋的機制。
主 要 技 術
一個搜索引擎由搜索器、索引器、檢索器和用戶介面等四個部分組成。
1.搜索器
搜索器的功能是在互聯網中漫遊,發現和搜集信息。它常常是一個計算機程序,日夜
不停地運行。它要盡可能多、盡可能快地搜集各種類型的新信息,同時因為互聯網上的信
息更新很快,所以還要定期更新已經搜集過的舊信息,以避免死連接和無效連接。目前有
兩種搜集信息的策略:
● 從一個起始URL集合開始,順著這些URL中的超鏈(Hyperlink),以寬度優先、深
度優先或啟發式方式循環地在互聯網中發現信息。這些起始URL可以是任意的URL,但常常
是一些非常流行、包含很多鏈接的站點(如Yahoo!)。
● 將Web空間按照域名、IP地址或國家域名劃分,每個搜索器負責一個子空間的窮盡
搜索。 搜索器搜集的信息類型多種多樣,包括HTML、XML、Newsgroup文章、FTP文件、
字處理文檔、多媒體信息。 搜索器的實現常常用分布式、並行計算技術,以提高信息
發現和更新的速度。商業搜索引擎的信息發現可以達到每天幾百萬網頁。
2.索引器
索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用於表示文檔以及生
成文檔庫的索引表。
索引項有客觀索引項和內容索引項兩種:客觀項與文檔的語意內容無關,如作者名、
URL、更新時間、編碼、長度、鏈接流行度(Link Popularity)等等;內容索引項是用來
反映文檔內容的,如關鍵詞及其權重、短語、單字等等。內容索引項可以分為單索引項和
多索引項(或稱短語索引項)兩種。單索引項對於英文來講是英語單詞,比較容易提取,
因為單詞之間有天然的分隔符(空格);對於中文等連續書寫的語言,必須進行詞語的切
分。 在搜索引擎中,一般要給單索引項賦與一個權值,以表示該索引項對文檔的區分
度,同時用來計算查詢結果的相關度。使用的方法一般有統計法、資訊理論法和概率法。短
語索引項的提取方法有統計法、概率法和語言學法。
索引表一般使用某種形式的倒排表(Inversion List),即由索引項查找相應的文檔
。索引表也可能要記錄索引項在文檔中出現的位置,以便檢索器計算索引項之間的相鄰或
接近關系(proximity)。
索引器可以使用集中式索引演算法或分布式索引演算法。當數據量很大時,必須實現即時
索引(Instant Indexing),否則不能夠跟上信息量急劇增加的速度。索引演算法對索引器
的性能(如大規模峰值查詢時的響應速度)有很大的影響。一個搜索引擎的有效性在很大
程度上取決於索引的質量。
3.檢索器 檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與
查詢的相關度評價,對將要輸出的結果進行排序,並實現某種用戶相關性反饋機制。
檢索器常用的信息檢索模型有集合理論模型、代數模型、概率模型和混合模型四種。
4.用戶介面
用戶介面的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。主要的
目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時的信息。
用戶介面的設計和實現使用人機交互的理論和方法,以充分適應人類的思維習慣。
用戶輸入介面可以分為簡單介面和復雜介面兩種。
簡單介面只提供用戶輸入查詢串的文本框;復雜介面可以讓用戶對查詢進行限制,如
邏輯運算(與、或、非;+、-)、相近關系(相鄰、NEAR)、域名范圍(如.e、.com)
、出現位置(如標題、內容)、信息時間、長度等等。目前一些公司和機構正在考慮制定
查詢選項的標准。
未 來 動 向
搜索引擎已成為一個新的研究、開發領域。因為它要用到信息檢索、人工智慧、計算
機網路、分布式處理、資料庫、數據挖掘、數字圖書館、自然語言處理等多領域的理論和
技術,所以具有綜合性和挑戰性。又由於搜索引擎有大量的用戶,有很好的經濟價值,所
以引起了世界各國計算機科學界和信息產業界的高度關注,目前的研究、開發十分活躍,
並出現了很多值得注意的動向。
1.十分注意提高信息查詢結果的精度,提高檢索的有效性 用戶在搜索引擎上進行
信息查詢時,並不十分關注返回結果的多少,而是看結果是否和自己的需求吻合。對於一
個查詢,傳統的搜索引擎動輒返回幾十萬、幾百萬篇文檔,用戶不得不在結果中篩選。解
決查詢結果過多的現象目前出現了幾種方法:一是通過各種方法獲得用戶沒有在查詢語句
中表達出來的真正用途,包括使用智能代理跟蹤用戶檢索行為,分析用戶模型;使用相關
度反饋機制,使用戶告訴搜索引擎哪些文檔和自己的需求相關(及其相關的程度),哪些
不相關,通過多次交互逐步求精。二是用正文分類(Text Categorization)技術將結果分
類,使用可視化技術顯示分類結構,用戶可以只瀏覽自己感興趣的類別。三是進行站點類
聚或內容類聚,減少信息的總量。
2.基於智能代理的信息過濾和個性化服務
信息智能代理是另外一種利用互聯網信息的機制。它使用自動獲得的領域模型(如We
b知識、信息處理、與用戶興趣相關的信息資源、領域組織結構)、用戶模型(如用戶背景
、興趣、行為、風格)知識進行信息搜集、索引、過濾(包括興趣過濾和不良信息過濾)
,並自動地將用戶感興趣的、對用戶有用的信息提交給用戶。智能代理具有不斷學習、適
應信息和用戶興趣動態變化的能力,從而提供個性化的服務。智能代理可以在用戶端進行
,也可以在伺服器端運行。
3.採用分布式體系結構提高系統規模和性能
搜索引擎的實現可以採用集中式體系結構和分布式體系結構,兩種方法各有千秋。但
當系統規模到達一定程度(如網頁數達到億級)時,必然要採用某種分布式方法,以提高
系統性能。搜索引擎的各個組成部分,除了用戶介面之外,都可以進行分布:搜索器可以
在多台機器上相互合作、相互分工進行信息發現,以提高信息發現和更新速度;索引器可
以將索引分布在不同的機器上,以減小索引對機器的要求;檢索器可以在不同的機器上.