『壹』 智能語義檢索怎麼實現
以圖像識別技術、光學字元識別(OCR)技術為基礎,利用語義工程技術對文檔文件進行解析,在此基礎上開發智能化數據應用,把資料庫內海量的信息梳理成知識圖譜,從而實現智能語義檢索。
隨著神經網路深度學習技術的突破性發展,OCR技術也得到了突飛猛進的發展。對圖片或PDF形式的電子文檔進行OCR,還原其中的文本信息,就能實現基於關鍵詞的全文檢索技術,可以不經過繁瑣的分類目錄系統,直接通過文檔文件原文,快速地定位和查詢所需內容,實現數據的局部此彎重組和復用。
現在市面上部分基於關鍵詞的全文檢索技術可以實現信息數字化,但它們實現不了信息資源的數據化,特別是當知識體系中的關鍵詞不在檔案原文中時,文檔中即便有相關信息,也檢索不到。計算機是靠「結構」來存儲知識的,也只有結構化的資料庫才支持處理復雜的業務邏輯。
隨著人兆扒談工智能自然語言理解(NLP)技術的不斷發展,語義工程技術也得到了很大發展。語義工程技術能對文檔文件進行解析,並將解析結果整合到人們設定的知識結構中,把數字化信息(各部分)按業務邏輯重組為一張張結構化的表格,支持各種計算、統計和分析。
與基於關鍵詞的全文檢索相比,智能語義檢索系統可以不依賴關鍵詞從文本中提取所需信息,只要相關的語義存在於文本中即可,用戶輸入的檢索請求可以是標簽、事件、事理圖譜、欄位等;與族碰傳統的關系資料庫相比,語義工程不需要在事先將完整的知識結構都想好,它可以隨時設計、補充和完善知識結構。並且,無論知識結構變動多大,都不需要像一些神經網路解決方案那樣重新標注訓練素材、重新訓練模型,才能適應新的變化。智能語義檢索系統只需要完成知識結構的簡單配置就可投入使用。
『貳』 資料庫智能模糊查詢
你的要求其實是一個全文檢索的功能,數槐慎山據庫的SQL恐怕達不到你的要求,可以考慮使用軟體來實現分詞技術,對「中國歷史的進程」這個詞進行分詞然後索引,這樣就可鉛中以打倒你的孝培要求了
『叄』 哪個資料庫提供智能檢索選項
萬方資料庫提供智能檢索選項。
萬方資料庫是我國第一套具有主題詞、關鍵詞、分類號智能檢索的全文資料庫系統,因此萬方資料庫提供智能檢索選項。
資料庫系統,是由正拍資料庫及其管理軟體組成的舉肆羨雹手系統。它是為適應數據處理的需要而發展起來的一種較為理想的數據處理的核心機構。
『肆』 常用的醫葯文獻檢索外文資料庫有哪些
國際醫學文獻資料庫檢索網站
Medline——世界上最著名的醫學文獻檢索系統之一
AIDS Databases——有關艾滋病的臨床實驗、葯物研製以及相關文獻資料庫
CANCERLIT——癌症資料庫(National Cancer Institute)
CHID online——綜合衛生信息資料庫,提供有關衛生、衛生教育資源的題錄、文摘等信息
ClinicalTrials.gov——向醫患人員提供的臨床實驗信息資料庫
DIRLINE——收集美國約17,000個政府機構、研究機構、公司、學術機構等信息
葯物信息庫——包含有9,000餘種美國處方與非處方葯物信息
HSTAT——包括有健康指南、評價、和消費者指南信息的全文資料庫
NCCAM Resources——補充和替代醫學資源
Dietary Supplements——提供維生素、礦物質、植物等信息
畸形、智力遲緩資料庫——提供先天畸形、智力發育遲緩信息
LOCATORplus——雜志、書籍和視聽教材目錄資料庫
Chemical Abstract——覆蓋化學、化工、醫學、生物學、環境、食品等多學科的科技文獻系統
Dialog 聯機檢索系統——世界上最大的文獻檢索系統
Biomedicine——荷蘭醫學文摘,世界權威性的醫葯文獻資料庫。
RHO——生殖健康展望,由William H .Gates 基金會的基金資助
Out Look——有關生殖健康的論題,由 PATH 出版,聯合國人口基金資助,可免費索取
醫葯信息網——有葯品資料庫、疾病資料庫、新葯資料庫、醫葯市場等主要資料庫
MEDLINE Search——最權威的生物醫學文獻資料庫,可獲取全球范圍內的4300種期刊的文獻
Consensus Statements——提供對醫生、患者有重要意義的有爭議醫學問題一致性見解
Cancer net Database——綜合癌症信息資料庫
Rare Diseases Database——罕見疾病臨床研究資料庫
Visible Human Project——可視人計劃資料庫
TOXNET Databases——毒理學資料庫,將有關毒理和有害物質信息分為八個文檔
FDA——最新的有關食品、葯物、生物制劑、美容品、醫學裝置等通過、調整等信息
Guideline Clearinghouse——提供臨床醫療指南,匯總美國各權威協會和學術機構制定的各種指南性文件
Women's Health & Environment——婦女衛生與健康研究信息資料庫
Rehabilitation Information——康復信息資料庫
INFOTRIEVE——可通過WEB瀏覽器查找醫學文獻
CLINIWEB——醫學信息檢索系統,幫助醫生從WEB上查詢有用的醫學信息
Health A to Z——一個功能強大的INTERNET醫學信息資源搜索器
Medguide——收錄了網上大部分生物醫學資源,支持多詞邏輯檢索
achoo——INTERNET醫學信息資源搜索
MedAll List——是哈佛大學收集醫葯網點的列表,有大量網上醫學院校和圖書館的聯接
MedExplorer——檢索方法簡便,主要提供有關醫學新聞及雜志的信息
MEL health resources——將INTERNET上的醫葯信息按學科分類進行整理,提供關鍵詞查找
Medical Virtual library——是一個分布式的資源系統,提供關鍵詞查找,並有按字序排列的列表
BiomedNet——由美國多家機構聯合建立,收集網頁1萬余個
Medscape——面向臨床醫師和其他醫療衛生專業人員的互動式的商用Web站點
Medical Matrix——有分類檢索和關鍵詞檢索兩種檢索方式。還提供免費Mailing lists
Doctor's Guide——向醫生和患者提供信息和服務,特色服務是新聞和會議消息
美國化學文摘社——世界最大、最強化學信息庫,1300萬條摘要、1650萬種物質
美國專利資料庫——提供美國專利目錄和摘要資料庫,免費查找專利名稱、摘要等信息
天然產物資料庫——提供75年以來活性天然產物,通過電子郵件申請幫助查詢
IBM 專利伺服器——提供美國專利局26年來的專利摘要,免費摘要、付費定購拷貝件
Science 科學——世界訂戶最多綜合性科學刊物,這是我國引進的電子版
PharmInfoNet——醫葯信息網,提供葯品、疾病、新葯資料庫;醫學專題綜述、醫葯市場等
Nature Medicine——自然雜志出版生物醫學論文,提供1996年以來各期目錄及摘要
The Lancet 柳葉刀——始於1823年著名醫學雜志,提供大量全文,全部免費閱讀')
美國國家健康研究所——聯邦政府生物醫學研究中心,世界上著名的生物醫學研究中心
HealthGate數據公司——提供免費Medline查詢,最新研究信息,幫助臨床治療、生物醫學研究及教育
生物醫學文獻資料庫——中國醫科院信息研究所研製,綜合性生物醫學資料庫,國內權威
美國醫學協會出版物——美國醫學協會出版,新聞、文摘或全文,包括以下部分。內科學文卷、皮膚病文卷、外科學文卷、眼科學文卷、美國醫學會志、美國醫學新聞、神經病學文卷、婦女健康雜志、家庭醫療文卷、普通精神病學文卷、耳鼻喉、頭頸外科、兒科及青春期醫學
British Medical Journal——英國醫學雜志
Medical Conference——醫學會議庫,4500多條會議信息,每日更新
NIST Webbook and Chemistry Webbook——美國國家標准與技術研究所數據集,免費查詢5000多種化合物的紅外光譜,8000多種化合物質譜等等。
New England Journal of Medicine——報道醫學重要研究成果的周刊,提供全部過刊信息及現刊的論文摘要
『伍』 資料庫設計:有X個用戶,每個用戶有N個設備,每個設備有M個特徵。應該建幾個表,怎麼建
可以
1.不會,畢業設計並不是讓你做個多麼復雜的東西,只要你能實現一些基本的功能就可以。主要是考察你的基礎知識和一定的動手能力的
2.選擇你熟悉一點的,或者了解的編程語言來做,使用什麼軟體取決於你是否熟悉他們,或者你以後想學習的軟體,這樣來選擇就可以,如果你想學習,那麼不會也可以。畢業設計么,就是鍛煉
3.開題報告?不是很重要的,不過是必須要走的一個形式,去網上找找吧,照人家的格式,內容,把你要做的項目寫下來就行了。
兄弟,在這里只能給你一個綱領了,具體的東西沒辦法給你的啊,東西太多了,不是在這里幾個字能說完的,既然導師給了你們題目,那你有不明白的就去問他,他也只能給你個方向而已,還是要靠自己的,別人幫不了你太多,我作為一個過來人(目前從事JAVA軟體開發),給你些忠告吧,如果你想從事軟體開發方面的工作,畢業設計一定要認真對待,去學習,自己動手去做,不要怕困難,沒人一開始就會的,畢業設計對你以後求職和工作都有很大的幫助,尤其是解決問題的能力,不能都靠別人,要提高自己解決問題的能力。悄坦如果你不想從事軟體開發這個行業,那我勸你還是找別人買一份畢業設計算了,也不要再網上問這么麻煩。希望我說的對你有所幫岩配助
。。。。。。。。。
開題報告啊~~~真想要找個,在網路上搜,一大把~~~~
好吧,幫你找個範文,你根據你的實際情況修改下吧~~回答你的問題好累啊,回答了三次
計 算 機 畢 業 論 文 開 題 報 告 范 文2009-02-28 10:06計 算 機 畢 業 論 文 開 題 報 告 范 文
1.本課題的研究意義
在Internet飛速發展的今天,互聯網成為人們快速獲取、發布和傳遞信息的重要渠道,它在人們政治、經濟、生活等各個方面發揮著重要的作用.因此網站建設在Internet應用上的地位顯而易見,它已成為政府、企事業單位信息化建設中的重要組成部分,從而倍受人們的重視。
這次我們所設計的課題正是互聯網與社會生活之間的緊密關系的體現,現今的社會,人們已經離不開了網路,網路已經成為人與人之間交流的一種形式,他能夠把事情的復雜化轉為簡單化。老幹部局網網站的建設不僅能夠使該事業單位的工作方式有所改變,也大大地提高了該單位工作人員的辦事效率,也增加了該單位的知明度,更重要的是為我們局的老幹部們提供了一個網路生活空間,促進了他們對網路知識的進一步地了解。
通過該網站展示了機構設置、政策法規、辦事指南、電子刊物、新聞、學習園地、問題集錦、養生保健、生活小常識、旅遊簡介等系列內容的介紹。同時您也可以利用電子信箱經濟而又快捷地與外界進行各種信息溝通。
ASP簡介
1 什麼是A S P Microsoft Active Server Pages (ASP)實際上是將標準的H T M L文件拓展了一些附加特徵, A S P像標準的H T M L文件一樣包含H T M L語句並且在一個瀏覽器上解釋並顯示。但它為H T M L編寫人員提供了在伺服器端運行腳本的環境,使H T M L編寫人員可以利用V B S c r i p t和J S c r i p t或其他
第三方腳本語言來創建A S P,實現過去需要編寫復雜的C G I程序才能實現的有動態內容的網頁,如計數器等。一個A S P文件的後綴為. a s p,其中包含實現動態功能的V B S c r i p t或J S c r i p t語句,如果去掉那些V B S c r i p t或J S c r i p t語句,它和標準的H T M L文件沒有任何區別。A S P提供了一些內建對象(參見後面關於內建對象的章節)。利用這些內建對象,你可以使你的腳本更加強大;這些
對象會允許您從瀏覽器中接收和發送信息。例如,利用r e q u e s t對象,你可以接收用戶的H T M L表單中的信息並加以處理。A S P包含標準的A c t i v e X組件(參見後面關於組件的章節),這些組件可以實現一些復雜的功能,如使用資料庫等。不過,你並不會被此局限,你可以輕松創建屬於你自啟棗桐己的附加A c t i v e X組件。這意味著你可以不加限制地拓展你的A c t i v e X組件(參見後面關於自製組件的章節)。A S P可以和諸如SQL Server這樣的資料庫行掛接,在本書後面的章節中,我
們將詳細地學習這方面的內容。重要的是,這是A S P一個非常強大的功能所在,在線商務以及在線論壇等各種非常高級的、動態更新的站點都需要資料庫的支持,而且需要隨資料庫內容的更新而自動更新,這樣,你就可以利用A S P自己建立很多類似的高級站點。通過上面的描述,我們可以了解到, A S P就是由伺服器端腳本、對象以及組件拓展過的標准網頁並為其提供了運行的環境。而它的網頁並不是在建立初期存在的,而是當某個瀏覽器向它提出請求時,它才根據需要產生所需要的標准網頁,這克服了過去H T M L編寫的網頁的靜態缺點,從而使網頁上可以有許多動態的信息存在。如:當前的計算機時間、計數器的計數值等。
2 ASP的功能
A S P是一套伺服器端的腳本運行環境,當用戶從瀏覽器向We b伺服器請求.asp 文件時, ASP 腳本開始運行,然後Web 伺服器調用A S P,A S P全面讀取請求的文件,執行所有的腳本命令,並將標準的Web 頁傳送給瀏覽器,而並不包含你所寫的腳本命令。
2使用ASP與SQL Server 網站架設
而A S P的每一個命令都首先被用來生成H T M L文件,因此A S P允許生成動態內容。
下載對於Web 伺服器來說, A S P與H T M L有著本質的區別, H T M L不經任何處理送回給瀏覽器另一方面,對於瀏覽器來說, A S P和H T M L幾乎是沒有區別的,僅僅是後綴為. a s p和. h t m的區別,當我們在客戶端提出對A S P的申請後,我們的瀏覽器接受的是H T M L格式的文件。因此它根據以上特性,我們用A S P可以方便地實現諸如表格信息收集、計數器、留言簿、公告板、A S P還可以輕松地實現對頁面內容的動態控制,為不同的瀏覽者定製不同的頁面內容,實現
適用於任何瀏覽器。
聊天室甚至電子商務等過去必須由C G I才能實現的功能。
個性化的網站。
3 使用范圍
用A S P實現各功能時幾乎沒有什麼限制,只要網站存在並正常運行,以下是的應用示例列表:
. 在你的網站主頁頂部添加一個滾動顯示的廣告欄。
. 從H T M L的表單中接受信息並且存到資料庫中。
. 根據不同訪問者顯示不同內容,創建個性化主頁。
. 在你的主頁中添加點擊計數器。
. 根據用戶瀏覽器的版本、類型和能力顯示不同檔次的內容。
. 連接多個主頁使之容易網際導航。
. 跟蹤用戶網站上的活動信息並且存入日誌文件。
. 使用基於Windows NT的I n t r a n e t建立你的M I S應用。
用A S P編寫出的系統,完全可以達到原來使用C l i e n t / S e r v e r的網路資料庫系統的水平。使用A S P最大的好處是,在你對程序進行升級時,你只需要修改伺服器上的A S P文件,而不需要修改客戶端程序。
以上只是簡單介紹,看完下面章節,你會對利用A S P做的事情有更加全面深入的了解。你會真正學會如何使用A S P建立各種應用。
2.本課題的基本內容
為了樹立中國各級政府各部門在網路上的嶄新形象,有利於使各級政府由管理型向管理服務型的角色轉換,降低辦公費用,提高辦公效率,促進勤政、廉政建設,提高政府公務員的信息化水平,市委老幹部局網站的建立將為辦公網路化,自動化、電子化,全面信息的共享所提供了優越的條件
本課題介紹了市老幹部局網站建設的做法和具體步驟,給出了老幹部局網站建設的方案選擇、設備配置。還介紹了老幹部局網站建設的運用目的和發展方向以充分實現以上目的。還全面介紹了在Internet上建設和管理網站的技術。內容涉及網站的基礎建設,對原始數據進行調查,重點放在新聞更新、辦事指南等的事務處理以及站點管理,使用ASP,HTML開發前台程序,完成網站的鏈接,從相關系統中導入數據,編寫相應的存儲過程,以便聯系老幹部局的需要開發出功能強大的網站。
老幹部局網站為幹部的工作、管理、生活、信息交流個通訊等提供綜合的網路環境。網站的使用,使幹部的辦公、學術研究和管理條件跨上一個新台階,同時也給老幹部局的宣傳,發展,提供了一個平台。我們可以充分利用現用計算機資源,實現信息交流和軟硬體資源的共享,實現老幹部局辦公、管理、服務於社會的現代化新形式。
關於建設老幹部局網站的一些內容,包括網站的結構,特點以及網站建設的理論知識要點。其最大的特點就是在於對ASP中的每個知識點都精心運用到了實際需要中,通過對理論的研究來聯系實際操作,並全面地掌握ASP開發WEB動態網站的思路、技巧和體系。另外,ASP還提供可更簡單、更方面的資料庫訪問方法,使開發基於資料庫驅動的WEB應用程序更容易,ASP支持VBScript和Jscript,並能以插件形式支持其他腳本語言,如HTML。
3.本課題的重點和難點
本課題的重點主要是網站素材的選擇與框架的搭建,一個好的網站要有許多的主頁相互之間鏈接起來,以及其中添加一些動態、圖片、聲效等鏈接。綜合地完成網站的建設才能體現主題,才能把瀏覽者的目光吸引到每一個主頁上,內容的及時更新也是網站建設的一個主要實際問題,只有不斷得到更新的主頁內容才能使瀏覽者再次訪問該網站,沒有新鮮的內容素材,沒有時代性的哲學理念,遠遠不能稱得為好網站。
新穎的框架結構也能使瀏覽者的目光更長久地被吸引,再擁有好的素材基礎上,框架的搭建也是網站建設所必須考慮到的問題, 只有把這兩者相結合進行周密地布置,相信建設出來的網站必然是點擊率最高的網站。
該網站的建設也牽涉到了動態網頁的製作,因此,這必然成了製作過程中的難點,就我個人而言,對動態網頁的製作方面還缺少很多的理論與實際操作知識,曾經只是做一些簡單的個人主頁,僅此而已,而現今,卻得必須運用ASP程序進行動態網站的編輯,運用ASP把腳本、HTML、組件和強大的WEB資料庫訪問功能結合在一起,形成一個能在伺服器上運行的應用程序,並把按用戶的要求專門製作的HTML頁面送給客戶端瀏覽器。此技術的運用使我的工作量大大地提高了幾倍,當然這正是我以前沒好好學的不好表現,但通過這次設計使我認識提高了,在學好靜態網頁製作的基礎上則不能忽視對動態網頁製作的重要性。此後,我將借鑒這次的領悟,認真學習並全面地掌握ASP中的每個知識點,以便今後熟練地運用到實際問題中,充分展現自我價值。為自己以後的生活道路鋪上一層更牢固的奠基石!
用ASP實現搜索引擎的功能是一件很方便的事,可是,如何實現類似3721的智能搜索呢?比如,當在搜索條件框內輸入「中國人民」時,自動從中提取「中國」、「人民」等關鍵字並在資料庫內進行搜索。看完本文後,你就可以發現,這個功能實現起來竟然是如此的簡單。OK,Follow Me!
第一步,我們要建立一個名為db_sample.mdb的資料庫(本文以Access2000資料庫為例),並在其中建立表T_Sample。表T_Sample包括如下欄位:
ID 自動編號
U_Name 文本
U_Info 備注
第二步,我們開始設計搜索頁面Search.asp。該頁麵包括一個表單(Frm_Search),表單內包括一個文本框和一個提交按鈕。並將表單的method屬性設為「get」 ,action屬性設為「Search.asp",即提交給網頁自身。代碼如下:
<!-- Search.asp -->
<form name="frm_Search" method="get" action="Search.asp">
請輸入關鍵字:
<input type="text" name="key" size="10">
<input type="submit" value="搜索">
</form>
下面,就進入了實現智能搜索的關鍵部分。
首先,建立資料庫連接。在Search.asp的開始處加入如下代碼:
<%
4.論文提綱
1.緒論
2.課題任務書
1)設計依據
2)課題總體體會要求
3)設計要求
3.系統規劃
1)系統分析
2)系統具體分析
3)功能圖
4.主體
1)程序代碼
2)結論
5.參考文獻
6.個人體會
7.附錄
指導教師意見:
(對本課題的深度、廣度及工作量的意見)
『陸』 智能資料庫和傳統資料庫的區別
智能資料庫和傳統資料庫的區別主要在於效率。
智能資料庫通過有效組織,效率高;傳統資料庫方式冗雜,效率低。
智能資料庫是研究利用人的推理、想像、記憶原理,實現對資料庫的存儲、搜索和修改。通過有效的組織,能夠滿足人們快速檢索和修改資料庫的要求。傳統資料庫是關系型資料庫,開發這種資料庫的目的,是處理永久、穩定的數據。
『柒』 資料庫CBM的題錄是按什麼進行分類標引的
醫學主題詞表(MESH詞表)和《中國中醫葯學主題詞表》
『捌』 資料庫的數據檢索和 搜索引擎的信息檢索的不同點是什麼需要解決的核心問題和核心技術有何不同
信息檢索不等於搜索引擎。
互聯網的發展明顯地促進了信息檢索技術的發展和應用,一大批搜索引擎產品誕生,為網民提供了很好的快速信息獲取和網路信息導航工具,但是將信息檢索等同於使用搜索引擎就陷入了誤區。搜索引擎技術中也普遍採用了全文信息檢索技術,但互聯網信息搜索和企業信息搜索是不同的。
一是數據量。傳統信息檢索系統一般索引庫規模多在GB級,但互聯網網頁搜索需要處理幾千萬上億的網頁,搜索引擎的基本策略都是採用檢索伺服器群集,對大多數企業應用是不合適和不必要的,並不適用於企業應用。
二是內容相關性。信息太多,查准和排序就特別重要,Google等搜索引擎發展了網頁鏈接分析技術,根據互聯網上網頁被連接次數作為重要性評判的依據。但企業網站內部的網頁鏈接由網站內容采編發布系統決定,其鏈接次數存在偶然因素,不能作為判別重要性的依據。真正的企業應用的檢索要求基於內容的相關性排序,就是說,和檢索要求最相關的信息排在檢索結果的前面,鏈接分析技術此種排序基本不起作用。
三是實時性。搜索引擎的索引生成和檢索服務是分開的,周期性更新和同步數據,大的搜索引擎的更新周期需要以周乃至月度量;而企業信息檢索需要實時反映內外信息變化,搜索引擎系統機制並不能適應企業中動態性數據增長和修改的要求。
四是安全性。互聯網搜索引擎都基於文件系統,但企業應用中內容一般均會安全和集中地存放在數據倉庫中以保證數據安全和管理的要求。
五是個性化和智能化。由於搜索引擎數據和客戶規模的限制,相關反饋、知識檢索、知識挖掘等計算密集的智能技術很難應用,而專門針對企業的信息檢索應用能在智能化和個性走得更遠。
(InformationRetrieval),通常指文本信息檢索,包括信息的存儲、組織、表現、查詢、存取等各個方面,其核心為文本信息的索引和檢索。從歷史上看,信息檢索經歷了手工檢索、計算機檢索到目前網路化、智能化檢索等多個發展階段。
目前,信息檢索已經發展到網路化和智能化的階段。信息檢索的對象從相對封閉、穩定一致、由獨立資料庫集中管理的信息內容擴展到開放、動態、更新快、分布廣泛、管理鬆散的Web內容;信息檢索的用戶也由原來的情報專業人員擴展到包括商務人員、管理人員、教師學生、各專業人士等在內的普通大眾,他們對信息檢索從結果到方式提出了更高、更多樣化的要求。適應網路化、智能化以及個性化的需要是目前信息檢索技術發展的新趨勢。
信息檢索技術的熱點
◆智能檢索或知識檢索
傳統的全文檢索技術基於關鍵詞匹配進行檢索,往往存在查不全、查不準、檢索質量不高的現象,特別是在網路信息時代,利用關鍵詞匹配很難滿足人們檢索的要求。智能檢索利用分詞詞典、同義詞典,同音詞典改善檢索效果,比如用戶查詢「計算機」,與「電腦」相關的信息也能檢索出來;進一步還可在知識層面或者說概念層面上輔助查詢,通過主題詞典、上下位詞典、相關同級詞典,形成一個知識體系或概念網路,給予用戶智能知識提示,最終幫助用戶獲得最佳的檢索效果,比如用戶可以進一步縮小查詢范圍至「微機」、「伺服器」或擴大查詢至「信息技術」或查詢相關的「電子技術」、「軟體」、「計算機應用」等范疇。另外,智能檢索還包括歧義信息和檢索處理,如「蘋果」,究竟是指水果還是電腦品牌,「華人」與「中華人民共和國」的區分,將通過歧義知識描述庫、全文索引、用戶檢索上下文分析以及用戶相關性反饋等技術結合處理,高效、准確地反饋給用戶最需要的信息。
◆知識挖掘
目前主要指文本挖掘技術的發展,目的是幫助人們更好的發現、組織、表示信息,提取知識,滿足信息檢索的高層次需要。知識挖掘包括摘要、分類(聚類)和相似性檢索等方面。
自動摘要就是利用計算機自動地從原始文獻中提取文摘。在信息檢索中,自動摘要有助於用戶快速評價檢索結果的相關程度,在信息服務中,自動摘要有助於多種形式的內容分發,如發往PDA、手機等。相似性檢索技術基於文檔內容特徵檢索與其相似或相關的文檔,是實現用戶個性化相關反饋的基礎,也可用於去重分析。自動分類可基於統計或規則,經過機器學習形成預定義分類樹,再根據文檔的內容特徵將其歸類;自動聚類則是根據文檔內容的相關程度進行分組歸並。自動分類(聚類)在信息組織、導航方面非常有用。
◆異構信息整合檢索和全息檢索
在信息檢索分布化和網路化的趨勢下,信息檢索系統的開放性和集成性要求越來越高,需要能夠檢索和整合不同來源和結構的信息,這是異構信息檢索技術發展的基點,包括支持各種格式化文件,如TEXT、HTML、XML、RTF、MSOffice、PDF、PS2/PS、MARC、ISO2709等處理和檢索;支持多語種信息的檢索;支持結構化數據、半結構化數據及非結構化數據的統一處理;和關系資料庫檢索的無縫集成以及其他開放檢索介面的集成等。所謂「全息檢索」的概念就是支持一切格式和方式的檢索,從目前實踐來講,發展到異構信息整合檢索的層面,基於自然語言理解的人機交互以及多媒體信息檢索整合等方面尚有待取得進一步突破。
另外,從工程實踐角度,綜合採用內存和外部存儲的多級緩存、分布式群集和負載均衡技術也是信息檢索技術發展的重要方面。
隨著互聯網的普及和電子商務的發展,企業和個人可獲取、需處理的信息量呈爆發式增長,而且其中絕大部分都是非結構化和半結構化數據。內容管理的重要性日益凸現,而信息檢索作為內容管理的核心支撐技術,隨著內容管理的發展和普及,亦將應用到各個領域,成為人們日常工作生活的密切夥伴。
信息檢索起源於圖書館的參考咨詢和文摘索引工作,從19世紀下半葉首先開始發展,至20世紀40年代,索引和檢索成已為圖書館獨立的工具和用戶服務項目。
隨著1946年世界上第一台電子計算機問世,計算機技術逐步走進信息檢索領域,並與信息檢索理論緊密結合起來;離線批量情報檢索系統、聯機實時情報檢索系統相繼研製成功並商業化,20世紀60年代到80年代,在信息處理技術、通訊技術、計算機和資料庫技術的推動下,信息檢索在教育、軍事和商業等各領域高速發展,得到了廣泛的應用。Dialog國際聯機情報檢索系統是這一時期的信息檢索領域的代表,至今仍是世界上最著名的系統之一。
搜索引擎工作流程
互聯網是一個寶庫,搜索引擎是打開寶庫的一把鑰匙。然而,絕大多數網民在搜索引擎的相關知識及使用技巧上能力不足。國外的一次調查結果顯示,約有71%的人對搜索的結果感到不同程度的失望。作為互聯網的第二大服務,這種狀況應該改變。
互聯網的迅速發展,導致了網上信息的爆炸性增長。全球目前的網頁超過20億,每天新增加730萬網頁。要在如此浩瀚的信息海洋里尋找信息,就像「大海撈針」一樣困難。搜索引擎正是為了解決這個「迷航」問題而出現的技術。
搜索引擎的工作包括如下三個過程:
1.在互聯中發現、搜集網頁信息;
2.對信息進行提取和組織建立索引庫;
3.再由檢索器根據用戶輸入的查詢關字,在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,並將查詢結果返回給用戶。
發現、搜集網頁信息
需要有高性能的「網路蜘蛛」程序(Spider)去自動地在互聯網中搜索信息。一個典型的網路蜘蛛工作的方式,是查看一個頁面,並從中找到相關信息, 然後它再從該頁面的所有鏈接中出發,繼續尋找相關的信息,以此類推,直至窮盡。網路蜘蛛要求能夠快速、全面。網路蜘蛛為實現其快速地瀏覽整個互聯網,通常在技術上採用搶先式多線程技術實現在網上聚集信息。通過搶先式多線程的使用,你能索引一個基於URL鏈接的Web頁面,啟動一個新的線程跟隨每個新的URL鏈接,索引一個新的URL起點。當然在伺服器上所開的線程也不能無限膨脹,需要在伺服器的正常運轉和快速收集網頁之間找一個平衡點。在演算法上各個搜索引擎技術公司可能不盡相同,但目的都是快速瀏覽Web頁和後續過程相配合。目前國內的搜索引擎技術公司中,比如網路公司的網路蜘蛛採用了可定製、高擴展性的調度演算法使得搜索器能在極短的時間內收集到最大數量的互聯網信息,並把所 獲得的信息保存下來以備建立索引庫和用戶檢索。
索引庫的建立
關繫到用戶能否最迅速地找到最准確、最廣泛的信息,同時索引庫的建立也必須迅速,對網路蜘蛛抓來的網頁信息極快地建立索引,保證信息的及時性。對網頁採用基於網頁內容分析和基於超鏈分析相結合的方法進行相關度評價,能夠客觀地對網頁進行排序,從而極大限度地保證搜索出的結果與用戶的查詢串相一致。新浪搜索引擎對網站數據建立索引的過程中採取了按照關鍵詞在網站標題、網站描述、網站URL等不同位置的出現或網站的質量等級等建立索引庫,從而保證搜索出的結果與用戶的查詢串相一致。
本文來自CSDN博客,轉載請標明出處:http://blog.csdn.net/xdtech/archive/2009/09/22/4579795.aspx