当前位置:首页 » 数据仓库 » 数据库智能搜索
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

数据库智能搜索

发布时间: 2023-04-07 11:36:12

‘壹’ 智能语义检索怎么实现

以图像识别技术、光学字符识别(OCR)技术为基础,利用语义工程技术对文档文件进行解析,在此基础上开发智能化数据应用,把数据库内海量的信息梳理成知识图谱,从而实现智能语义检索。

随着神经网络深度学习技术的突破性发展,OCR技术也得到了突飞猛进的发展。对图片或PDF形式的电子文档进行OCR,还原其中的文本信息,就能实现基于关键词的全文检索技术,可以不经过繁琐的分类目录系统,直接通过文档文件原文,快速地定位和查询所需内容,实现数据的局部此弯重组和复用。
现在市面上部分基于关键词的全文检索技术可以实现信息数字化,但它们实现不了信息资源的数据化,特别是当知识体系中的关键词不在档案原文中时,文档中即便有相关信息,也检索不到。计算机是靠“结构”来存储知识的,也只有结构化的数据库才支持处理复杂的业务逻辑。
随着人兆扒谈工智能自然语言理解(NLP)技术的不断发展,语义工程技术也得到了很大发展。语义工程技术能对文档文件进行解析,并将解析结果整合到人们设定的知识结构中,把数字化信息(各部分)按业务逻辑重组为一张张结构化的表格,支持各种计算、统计和分析。
与基于关键词的全文检索相比,智能语义检索系统可以不依赖关键词从文本中提取所需信息,只要相关的语义存在于文本中即可,用户输入的检索请求可以是标签、事件、事理图谱、字段等;与族碰传统的关系数据库相比,语义工程不需要在事先将完整的知识结构都想好,它可以随时设计、补充和完善知识结构。并且,无论知识结构变动多大,都不需要像一些神经网络解决方案那样重新标注训练素材、重新训练模型,才能适应新的变化。智能语义检索系统只需要完成知识结构的简单配置就可投入使用。

‘贰’ 数据库智能模糊查询

你的要求其实是一个全文检索的功能,数槐慎山据库的SQL恐怕达不到你的要求,可以考虑使用软件来实现分词技术,对“中国历史的进程”这个词进行分词然后索引,这样就可铅中以打倒你的孝培要求了

‘叁’ 哪个数据库提供智能检索选项

万方数据库提供智能检索选项。
万方数据库是我国第一套具有主题词、关键词、分类号智能检索的全文数据库系统,因此万方数据库提供智能检索选项。
数据库系统,是由正拍数据库及其管理软件组成的举肆羡雹手系统。它是为适应数据处理的需要而发展起来的一种较为理想的数据处理的核心机构。

‘肆’ 常用的医药文献检索外文数据库有哪些

国际医学文献数据库检索网站

Medline——世界上最着名的医学文献检索系统之一

AIDS Databases——有关艾滋病的临床实验、药物研制以及相关文献数据库

CANCERLIT——癌症数据库(National Cancer Institute)

CHID online——综合卫生信息数据库,提供有关卫生、卫生教育资源的题录、文摘等信息

ClinicalTrials.gov——向医患人员提供的临床实验信息数据库

DIRLINE——收集美国约17,000个政府机构、研究机构、公司、学术机构等信息

药物信息库——包含有9,000余种美国处方与非处方药物信息

HSTAT——包括有健康指南、评价、和消费者指南信息的全文数据库

NCCAM Resources——补充和替代医学资源

Dietary Supplements——提供维生素、矿物质、植物等信息

畸形、智力迟缓数据库——提供先天畸形、智力发育迟缓信息

LOCATORplus——杂志、书籍和视听教材目录数据库

Chemical Abstract——覆盖化学、化工、医学、生物学、环境、食品等多学科的科技文献系统

Dialog 联机检索系统——世界上最大的文献检索系统

Biomedicine——荷兰医学文摘,世界权威性的医药文献数据库。

RHO——生殖健康展望,由William H .Gates 基金会的基金资助

Out Look——有关生殖健康的论题,由 PATH 出版,联合国人口基金资助,可免费索取

医药信息网——有药品数据库、疾病数据库、新药数据库、医药市场等主要数据库

MEDLINE Search——最权威的生物医学文献数据库,可获取全球范围内的4300种期刊的文献

Consensus Statements——提供对医生、患者有重要意义的有争议医学问题一致性见解

Cancer net Database——综合癌症信息数据库

Rare Diseases Database——罕见疾病临床研究数据库

Visible Human Project——可视人计划数据库

TOXNET Databases——毒理学数据库,将有关毒理和有害物质信息分为八个文档

FDA——最新的有关食品、药物、生物制剂、美容品、医学装置等通过、调整等信息

Guideline Clearinghouse——提供临床医疗指南,汇总美国各权威协会和学术机构制定的各种指南性文件

Women's Health & Environment——妇女卫生与健康研究信息数据库

Rehabilitation Information——康复信息数据库

INFOTRIEVE——可通过WEB浏览器查找医学文献

CLINIWEB——医学信息检索系统,帮助医生从WEB上查询有用的医学信息

Health A to Z——一个功能强大的INTERNET医学信息资源搜索器

Medguide——收录了网上大部分生物医学资源,支持多词逻辑检索

achoo——INTERNET医学信息资源搜索

MedAll List——是哈佛大学收集医药网点的列表,有大量网上医学院校和图书馆的联接

MedExplorer——检索方法简便,主要提供有关医学新闻及杂志的信息

MEL health resources——将INTERNET上的医药信息按学科分类进行整理,提供关键词查找

Medical Virtual library——是一个分布式的资源系统,提供关键词查找,并有按字序排列的列表

BiomedNet——由美国多家机构联合建立,收集网页1万余个

Medscape——面向临床医师和其他医疗卫生专业人员的交互式的商用Web站点

Medical Matrix——有分类检索和关键词检索两种检索方式。还提供免费Mailing lists

Doctor's Guide——向医生和患者提供信息和服务,特色服务是新闻和会议消息

美国化学文摘社——世界最大、最强化学信息库,1300万条摘要、1650万种物质

美国专利数据库——提供美国专利目录和摘要数据库,免费查找专利名称、摘要等信息

天然产物数据库——提供75年以来活性天然产物,通过电子邮件申请帮助查询

IBM 专利服务器——提供美国专利局26年来的专利摘要,免费摘要、付费定购拷贝件

Science 科学——世界订户最多综合性科学刊物,这是我国引进的电子版

PharmInfoNet——医药信息网,提供药品、疾病、新药数据库;医学专题综述、医药市场等

Nature Medicine——自然杂志出版生物医学论文,提供1996年以来各期目录及摘要

The Lancet 柳叶刀——始于1823年着名医学杂志,提供大量全文,全部免费阅读')

美国国家健康研究所——联邦政府生物医学研究中心,世界上着名的生物医学研究中心

HealthGate数据公司——提供免费Medline查询,最新研究信息,帮助临床治疗、生物医学研究及教育

生物医学文献数据库——中国医科院信息研究所研制,综合性生物医学数据库,国内权威

美国医学协会出版物——美国医学协会出版,新闻、文摘或全文,包括以下部分。内科学文卷、皮肤病文卷、外科学文卷、眼科学文卷、美国医学会志、美国医学新闻、神经病学文卷、妇女健康杂志、家庭医疗文卷、普通精神病学文卷、耳鼻喉、头颈外科、儿科及青春期医学

British Medical Journal——英国医学杂志

Medical Conference——医学会议库,4500多条会议信息,每日更新

NIST Webbook and Chemistry Webbook——美国国家标准与技术研究所数据集,免费查询5000多种化合物的红外光谱,8000多种化合物质谱等等。

New England Journal of Medicine——报道医学重要研究成果的周刊,提供全部过刊信息及现刊的论文摘要

‘伍’ 数据库设计:有X个用户,每个用户有N个设备,每个设备有M个特征。应该建几个表,怎么建

可以
1.不会,毕业设计并不是让你做个多么复杂的东西,只要你能实现一些基本的功能就可以。主要是考察你的基础知识和一定的动手能力的
2.选择你熟悉一点的,或者了解的编程语言来做,使用什么软件取决于你是否熟悉他们,或者你以后想学习的软件,这样来选择就可以,如果你想学习,那么不会也可以。毕业设计么,就是锻炼
3.开题报告?不是很重要的,不过是必须要走的一个形式,去网上找找吧,照人家的格式,内容,把你要做的项目写下来就行了。

兄弟,在这里只能给你一个纲领了,具体的东西没办法给你的啊,东西太多了,不是在这里几个字能说完的,既然导师给了你们题目,那你有不明白的就去问他,他也只能给你个方向而已,还是要靠自己的,别人帮不了你太多,我作为一个过来人(目前从事JAVA软件开发),给你些忠告吧,如果你想从事软件开发方面的工作,毕业设计一定要认真对待,去学习,自己动手去做,不要怕困难,没人一开始就会的,毕业设计对你以后求职和工作都有很大的帮助,尤其是解决问题的能力,不能都靠别人,要提高自己解决问题的能力。悄坦如果你不想从事软件开发这个行业,那我劝你还是找别人买一份毕业设计算了,也不要再网上问这么麻烦。希望我说的对你有所帮岩配助

。。。。。。。。。
开题报告啊~~~真想要找个,在网络上搜,一大把~~~~

好吧,帮你找个范文,你根据你的实际情况修改下吧~~回答你的问题好累啊,回答了三次
计 算 机 毕 业 论 文 开 题 报 告 范 文2009-02-28 10:06计 算 机 毕 业 论 文 开 题 报 告 范 文
1.本课题的研究意义
在Internet飞速发展的今天,互联网成为人们快速获取、发布和传递信息的重要渠道,它在人们政治、经济、生活等各个方面发挥着重要的作用.因此网站建设在Internet应用上的地位显而易见,它已成为政府、企事业单位信息化建设中的重要组成部分,从而倍受人们的重视。
这次我们所设计的课题正是互联网与社会生活之间的紧密关系的体现,现今的社会,人们已经离不开了网络,网络已经成为人与人之间交流的一种形式,他能够把事情的复杂化转为简单化。老干部局网网站的建设不仅能够使该事业单位的工作方式有所改变,也大大地提高了该单位工作人员的办事效率,也增加了该单位的知明度,更重要的是为我们局的老干部们提供了一个网络生活空间,促进了他们对网络知识的进一步地了解。
通过该网站展示了机构设置、政策法规、办事指南、电子刊物、新闻、学习园地、问题集锦、养生保健、生活小常识、旅游简介等系列内容的介绍。同时您也可以利用电子信箱经济而又快捷地与外界进行各种信息沟通。
ASP简介

1 什么是A S P Microsoft Active Server Pages (ASP)实际上是将标准的H T M L文件拓展了一些附加特征, A S P像标准的H T M L文件一样包含H T M L语句并且在一个浏览器上解释并显示。但它为H T M L编写人员提供了在服务器端运行脚本的环境,使H T M L编写人员可以利用V B S c r i p t和J S c r i p t或其他
第三方脚本语言来创建A S P,实现过去需要编写复杂的C G I程序才能实现的有动态内容的网页,如计数器等。一个A S P文件的后缀为. a s p,其中包含实现动态功能的V B S c r i p t或J S c r i p t语句,如果去掉那些V B S c r i p t或J S c r i p t语句,它和标准的H T M L文件没有任何区别。A S P提供了一些内建对象(参见后面关于内建对象的章节)。利用这些内建对象,你可以使你的脚本更加强大;这些
对象会允许您从浏览器中接收和发送信息。例如,利用r e q u e s t对象,你可以接收用户的H T M L表单中的信息并加以处理。A S P包含标准的A c t i v e X组件(参见后面关于组件的章节),这些组件可以实现一些复杂的功能,如使用数据库等。不过,你并不会被此局限,你可以轻松创建属于你自启枣桐己的附加A c t i v e X组件。这意味着你可以不加限制地拓展你的A c t i v e X组件(参见后面关于自制组件的章节)。A S P可以和诸如SQL Server这样的数据库行挂接,在本书后面的章节中,我
们将详细地学习这方面的内容。重要的是,这是A S P一个非常强大的功能所在,在线商务以及在线论坛等各种非常高级的、动态更新的站点都需要数据库的支持,而且需要随数据库内容的更新而自动更新,这样,你就可以利用A S P自己建立很多类似的高级站点。通过上面的描述,我们可以了解到, A S P就是由服务器端脚本、对象以及组件拓展过的标准网页并为其提供了运行的环境。而它的网页并不是在建立初期存在的,而是当某个浏览器向它提出请求时,它才根据需要产生所需要的标准网页,这克服了过去H T M L编写的网页的静态缺点,从而使网页上可以有许多动态的信息存在。如:当前的计算机时间、计数器的计数值等。
2 ASP的功能
A S P是一套服务器端的脚本运行环境,当用户从浏览器向We b服务器请求.asp 文件时, ASP 脚本开始运行,然后Web 服务器调用A S P,A S P全面读取请求的文件,执行所有的脚本命令,并将标准的Web 页传送给浏览器,而并不包含你所写的脚本命令。
2使用ASP与SQL Server 网站架设
而A S P的每一个命令都首先被用来生成H T M L文件,因此A S P允许生成动态内容。
下载对于Web 服务器来说, A S P与H T M L有着本质的区别, H T M L不经任何处理送回给浏览器另一方面,对于浏览器来说, A S P和H T M L几乎是没有区别的,仅仅是后缀为. a s p和. h t m的区别,当我们在客户端提出对A S P的申请后,我们的浏览器接受的是H T M L格式的文件。因此它根据以上特性,我们用A S P可以方便地实现诸如表格信息收集、计数器、留言簿、公告板、A S P还可以轻松地实现对页面内容的动态控制,为不同的浏览者定制不同的页面内容,实现
适用于任何浏览器。
聊天室甚至电子商务等过去必须由C G I才能实现的功能。
个性化的网站。

3 使用范围
用A S P实现各功能时几乎没有什么限制,只要网站存在并正常运行,以下是的应用示例列表:
. 在你的网站主页顶部添加一个滚动显示的广告栏。
. 从H T M L的表单中接受信息并且存到数据库中。
. 根据不同访问者显示不同内容,创建个性化主页。
. 在你的主页中添加点击计数器。
. 根据用户浏览器的版本、类型和能力显示不同档次的内容。
. 连接多个主页使之容易网际导航。
. 跟踪用户网站上的活动信息并且存入日志文件。
. 使用基于Windows NT的I n t r a n e t建立你的M I S应用。
用A S P编写出的系统,完全可以达到原来使用C l i e n t / S e r v e r的网络数据库系统的水平。使用A S P最大的好处是,在你对程序进行升级时,你只需要修改服务器上的A S P文件,而不需要修改客户端程序。
以上只是简单介绍,看完下面章节,你会对利用A S P做的事情有更加全面深入的了解。你会真正学会如何使用A S P建立各种应用。

2.本课题的基本内容
为了树立中国各级政府各部门在网络上的崭新形象,有利于使各级政府由管理型向管理服务型的角色转换,降低办公费用,提高办公效率,促进勤政、廉政建设,提高政府公务员的信息化水平,市委老干部局网站的建立将为办公网络化,自动化、电子化,全面信息的共享所提供了优越的条件
本课题介绍了市老干部局网站建设的做法和具体步骤,给出了老干部局网站建设的方案选择、设备配置。还介绍了老干部局网站建设的运用目的和发展方向以充分实现以上目的。还全面介绍了在Internet上建设和管理网站的技术。内容涉及网站的基础建设,对原始数据进行调查,重点放在新闻更新、办事指南等的事务处理以及站点管理,使用ASP,HTML开发前台程序,完成网站的链接,从相关系统中导入数据,编写相应的存储过程,以便联系老干部局的需要开发出功能强大的网站。
老干部局网站为干部的工作、管理、生活、信息交流个通讯等提供综合的网络环境。网站的使用,使干部的办公、学术研究和管理条件跨上一个新台阶,同时也给老干部局的宣传,发展,提供了一个平台。我们可以充分利用现用计算机资源,实现信息交流和软硬件资源的共享,实现老干部局办公、管理、服务于社会的现代化新形式。
关于建设老干部局网站的一些内容,包括网站的结构,特点以及网站建设的理论知识要点。其最大的特点就是在于对ASP中的每个知识点都精心运用到了实际需要中,通过对理论的研究来联系实际操作,并全面地掌握ASP开发WEB动态网站的思路、技巧和体系。另外,ASP还提供可更简单、更方面的数据库访问方法,使开发基于数据库驱动的WEB应用程序更容易,ASP支持VBScript和Jscript,并能以插件形式支持其他脚本语言,如HTML。
3.本课题的重点和难点
本课题的重点主要是网站素材的选择与框架的搭建,一个好的网站要有许多的主页相互之间链接起来,以及其中添加一些动态、图片、声效等链接。综合地完成网站的建设才能体现主题,才能把浏览者的目光吸引到每一个主页上,内容的及时更新也是网站建设的一个主要实际问题,只有不断得到更新的主页内容才能使浏览者再次访问该网站,没有新鲜的内容素材,没有时代性的哲学理念,远远不能称得为好网站。
新颖的框架结构也能使浏览者的目光更长久地被吸引,再拥有好的素材基础上,框架的搭建也是网站建设所必须考虑到的问题, 只有把这两者相结合进行周密地布置,相信建设出来的网站必然是点击率最高的网站。
该网站的建设也牵涉到了动态网页的制作,因此,这必然成了制作过程中的难点,就我个人而言,对动态网页的制作方面还缺少很多的理论与实际操作知识,曾经只是做一些简单的个人主页,仅此而已,而现今,却得必须运用ASP程序进行动态网站的编辑,运用ASP把脚本、HTML、组件和强大的WEB数据库访问功能结合在一起,形成一个能在服务器上运行的应用程序,并把按用户的要求专门制作的HTML页面送给客户端浏览器。此技术的运用使我的工作量大大地提高了几倍,当然这正是我以前没好好学的不好表现,但通过这次设计使我认识提高了,在学好静态网页制作的基础上则不能忽视对动态网页制作的重要性。此后,我将借鉴这次的领悟,认真学习并全面地掌握ASP中的每个知识点,以便今后熟练地运用到实际问题中,充分展现自我价值。为自己以后的生活道路铺上一层更牢固的奠基石!
用ASP实现搜索引擎的功能是一件很方便的事,可是,如何实现类似3721的智能搜索呢?比如,当在搜索条件框内输入“中国人民”时,自动从中提取“中国”、“人民”等关键字并在数据库内进行搜索。看完本文后,你就可以发现,这个功能实现起来竟然是如此的简单。OK,Follow Me!
第一步,我们要建立一个名为db_sample.mdb的数据库(本文以Access2000数据库为例),并在其中建立表T_Sample。表T_Sample包括如下字段:
ID 自动编号
U_Name 文本
U_Info 备注
第二步,我们开始设计搜索页面Search.asp。该页面包括一个表单(Frm_Search),表单内包括一个文本框和一个提交按钮。并将表单的method属性设为“get” ,action属性设为“Search.asp",即提交给网页自身。代码如下:
<!-- Search.asp -->
<form name="frm_Search" method="get" action="Search.asp">
请输入关键字:
<input type="text" name="key" size="10">
<input type="submit" value="搜索">
</form>
下面,就进入了实现智能搜索的关键部分。
首先,建立数据库连接。在Search.asp的开始处加入如下代码:
<%
4.论文提纲

1.绪论
2.课题任务书
1)设计依据
2)课题总体体会要求
3)设计要求
3.系统规划
1)系统分析
2)系统具体分析
3)功能图
4.主体
1)程序代码
2)结论
5.参考文献
6.个人体会
7.附录
指导教师意见:
(对本课题的深度、广度及工作量的意见)

‘陆’ 智能数据库和传统数据库的区别

智能数据库和传统数据库的区别主要在于效率。
智能数据库通过有效组织,效率高;传统数据库方式冗杂,效率低。
智能数据库是研究利用人的推理、想象、记忆原理,实现对数据库的存储、搜索和修改。通过有效的组织,能够满足人们快速检索和修改数据库的要求。传统数据库是关系型数据库,开发这种数据库的目的,是处理永久、稳定的数据。

‘柒’ 数据库CBM的题录是按什么进行分类标引的

医学主题词表(MESH词表)和《中国中医药学主题词表》

‘捌’ 数据库的数据检索和 搜索引擎的信息检索的不同点是什么需要解决的核心问题和核心技术有何不同

信息检索不等于搜索引擎。

互联网的发展明显地促进了信息检索技术的发展和应用,一大批搜索引擎产品诞生,为网民提供了很好的快速信息获取和网络信息导航工具,但是将信息检索等同于使用搜索引擎就陷入了误区。搜索引擎技术中也普遍采用了全文信息检索技术,但互联网信息搜索和企业信息搜索是不同的。

一是数据量。传统信息检索系统一般索引库规模多在GB级,但互联网网页搜索需要处理几千万上亿的网页,搜索引擎的基本策略都是采用检索服务器群集,对大多数企业应用是不合适和不必要的,并不适用于企业应用。

二是内容相关性。信息太多,查准和排序就特别重要,Google等搜索引擎发展了网页链接分析技术,根据互联网上网页被连接次数作为重要性评判的依据。但企业网站内部的网页链接由网站内容采编发布系统决定,其链接次数存在偶然因素,不能作为判别重要性的依据。真正的企业应用的检索要求基于内容的相关性排序,就是说,和检索要求最相关的信息排在检索结果的前面,链接分析技术此种排序基本不起作用。

三是实时性。搜索引擎的索引生成和检索服务是分开的,周期性更新和同步数据,大的搜索引擎的更新周期需要以周乃至月度量;而企业信息检索需要实时反映内外信息变化,搜索引擎系统机制并不能适应企业中动态性数据增长和修改的要求。
四是安全性。互联网搜索引擎都基于文件系统,但企业应用中内容一般均会安全和集中地存放在数据仓库中以保证数据安全和管理的要求。

五是个性化和智能化。由于搜索引擎数据和客户规模的限制,相关反馈、知识检索、知识挖掘等计算密集的智能技术很难应用,而专门针对企业的信息检索应用能在智能化和个性走得更远。

(InformationRetrieval),通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。
目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。

信息检索技术的热点

◆智能检索或知识检索

传统的全文检索技术基于关键词匹配进行检索,往往存在查不全、查不准、检索质量不高的现象,特别是在网络信息时代,利用关键词匹配很难满足人们检索的要求。智能检索利用分词词典、同义词典,同音词典改善检索效果,比如用户查询“计算机”,与“电脑”相关的信息也能检索出来;进一步还可在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典,形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果,比如用户可以进一步缩小查询范围至“微机”、“服务器”或扩大查询至“信息技术”或查询相关的“电子技术”、“软件”、“计算机应用”等范畴。另外,智能检索还包括歧义信息和检索处理,如“苹果”,究竟是指水果还是电脑品牌,“华人”与“中华人民共和国”的区分,将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理,高效、准确地反馈给用户最需要的信息。

◆知识挖掘

目前主要指文本挖掘技术的发展,目的是帮助人们更好的发现、组织、表示信息,提取知识,满足信息检索的高层次需要。知识挖掘包括摘要、分类(聚类)和相似性检索等方面。

自动摘要就是利用计算机自动地从原始文献中提取文摘。在信息检索中,自动摘要有助于用户快速评价检索结果的相关程度,在信息服务中,自动摘要有助于多种形式的内容分发,如发往PDA、手机等。相似性检索技术基于文档内容特征检索与其相似或相关的文档,是实现用户个性化相关反馈的基础,也可用于去重分析。自动分类可基于统计或规则,经过机器学习形成预定义分类树,再根据文档的内容特征将其归类;自动聚类则是根据文档内容的相关程度进行分组归并。自动分类(聚类)在信息组织、导航方面非常有用。

◆异构信息整合检索和全息检索

在信息检索分布化和网络化的趋势下,信息检索系统的开放性和集成性要求越来越高,需要能够检索和整合不同来源和结构的信息,这是异构信息检索技术发展的基点,包括支持各种格式化文件,如TEXT、HTML、XML、RTF、MSOffice、PDF、PS2/PS、MARC、ISO2709等处理和检索;支持多语种信息的检索;支持结构化数据、半结构化数据及非结构化数据的统一处理;和关系数据库检索的无缝集成以及其他开放检索接口的集成等。所谓“全息检索”的概念就是支持一切格式和方式的检索,从目前实践来讲,发展到异构信息整合检索的层面,基于自然语言理解的人机交互以及多媒体信息检索整合等方面尚有待取得进一步突破。

另外,从工程实践角度,综合采用内存和外部存储的多级缓存、分布式群集和负载均衡技术也是信息检索技术发展的重要方面。

随着互联网的普及和电子商务的发展,企业和个人可获取、需处理的信息量呈爆发式增长,而且其中绝大部分都是非结构化和半结构化数据。内容管理的重要性日益凸现,而信息检索作为内容管理的核心支撑技术,随着内容管理的发展和普及,亦将应用到各个领域,成为人们日常工作生活的密切伙伴。

信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。

随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统相继研制成功并商业化,20世纪60年代到80年代,在信息处理技术、通讯技术、计算机和数据库技术的推动下,信息检索在教育、军事和商业等各领域高速发展,得到了广泛的应用。Dialog国际联机情报检索系统是这一时期的信息检索领域的代表,至今仍是世界上最着名的系统之一。

搜索引擎工作流程

互联网是一个宝库,搜索引擎是打开宝库的一把钥匙。然而,绝大多数网民在搜索引擎的相关知识及使用技巧上能力不足。国外的一次调查结果显示,约有71%的人对搜索的结果感到不同程度的失望。作为互联网的第二大服务,这种状况应该改变。

互联网的迅速发展,导致了网上信息的爆炸性增长。全球目前的网页超过20亿,每天新增加730万网页。要在如此浩瀚的信息海洋里寻找信息,就像“大海捞针”一样困难。搜索引擎正是为了解决这个“迷航”问题而出现的技术。

搜索引擎的工作包括如下三个过程:

1.在互联中发现、搜集网页信息;

2.对信息进行提取和组织建立索引库;

3.再由检索器根据用户输入的查询关字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

发现、搜集网页信息

需要有高性能的“网络蜘蛛”程序(Spider)去自动地在互联网中搜索信息。一个典型的网络蜘蛛工作的方式,是查看一个页面,并从中找到相关信息, 然后它再从该页面的所有链接中出发,继续寻找相关的信息,以此类推,直至穷尽。网络蜘蛛要求能够快速、全面。网络蜘蛛为实现其快速地浏览整个互联网,通常在技术上采用抢先式多线程技术实现在网上聚集信息。通过抢先式多线程的使用,你能索引一个基于URL链接的Web页面,启动一个新的线程跟随每个新的URL链接,索引一个新的URL起点。当然在服务器上所开的线程也不能无限膨胀,需要在服务器的正常运转和快速收集网页之间找一个平衡点。在算法上各个搜索引擎技术公司可能不尽相同,但目的都是快速浏览Web页和后续过程相配合。目前国内的搜索引擎技术公司中,比如网络公司的网络蜘蛛采用了可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息,并把所 获得的信息保存下来以备建立索引库和用户检索。

索引库的建立

关系到用户能否最迅速地找到最准确、最广泛的信息,同时索引库的建立也必须迅速,对网络蜘蛛抓来的网页信息极快地建立索引,保证信息的及时性。对网页采用基于网页内容分析和基于超链分析相结合的方法进行相关度评价,能够客观地对网页进行排序,从而极大限度地保证搜索出的结果与用户的查询串相一致。新浪搜索引擎对网站数据建立索引的过程中采取了按照关键词在网站标题、网站描述、网站URL等不同位置的出现或网站的质量等级等建立索引库,从而保证搜索出的结果与用户的查询串相一致。

本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/xdtech/archive/2009/09/22/4579795.aspx