当前位置:首页 » 服务存储 » 信息存储与检索的典型事例
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

信息存储与检索的典型事例

发布时间: 2023-07-05 06:37:53

1. 信息检索的定义

信息检索有广义和狭义的之分。广义的信息检索全称为“信息存储与检索”,是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。狭义的信息检索为“信息存储与检索”的后半部分,通常称为“信息查找”或“信息搜索”,是指从信息集合中找出用户所需要的有关信息的过程。狭义的信息检索包括3个方面的含义:了解用户的信息需求、信息检索的技术或方法、满足信息用户的需求。
由信息检索原理可知,信息的存储是实现信息检索的基础。这里要存储的信息不仅包括原始文档数据,还包括图片、视频和音频等,首先要将这些原始信息进行计算机语言的转换,并将其存储在数据库中,否则无法进行机器识别。待用户根据意图输入查询请求后,检索系统根据用户的查询请求在数据库中搜索与查询相关的信息,通过一定的匹配机制计算出信息的相似度大小,并按从大到小的顺序将信息转换输出。

2. 急急急~网络信息检索方法与应用 论文

我给你找了一篇,摘要如下:
随着Internet在全世界范围内迅猛发展,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。
全文主要包括六个部分,
第一部分为网络信息检索述评,主要是阐述了网络信息检索所涉及到的有关概念,如信息检索技术、网络信息检索的特点及网络信息检索效果评价。
第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等,旨在弄清网络信息检索的技术支撑,为预测网络信息检索的发展趋势作下铺垫。
第三部分对网络信息检索的重要工具——搜索引擎进行了阐述,主要从其检索机制入手,分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括,并对目前流行的搜索引擎进行科学的分类...
第四部分分析讨论了检索技术的另一分支—基于内容的检索技术
第五部分则分析了网络信息搜索工具的局限,主要从文本信息检索和多媒体信息检索两方面进行阐述。

好不容易给转成 .txt文本,贴在下面:
1.1网络信息资源
网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。
随着Intemet的迅速发展,网上信息资源也以指数形式增加,网络信息资源作
为一种新型的信息资源,发挥着越来越重要的作用,其内容几乎无所不包,涉
及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样,包括文
本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学
和工程技术等各个领域。
1.2信息检索技术
信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信
息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的
过程和技术,所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索
仅指从信息集合中找出所需信息的过程,也就是利用信息系统检索工具查找所
需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如
烟海的图书馆资料中,通过人工查找索引找到对应的文献索引号再获取文献原
文;②联机信息检索。这其中也存在一个发展过程,由检索结果来看,从提供
目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法
来看,从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索
到以原始文献中任意词检索的全文检索等等。其中,全文检索由于其包含信息
的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比
较迅速,成为深受人们关注的一种非常有效的信息检索技术,它是从大容量文
档库中精确定位所需信息的最有效手段l3]。
.3.2web信息检索
其检索方式有:浏览器方式和搜索引擎方式。
(l)浏览器方式(Br,singsystelns)。只要能够进入hitemct就能够通过浏
览器,利用HTTP协议提供的WV乃万服务,浏览认触b页面和通过W匕b页面提
供的检索方式访问数据库。
(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检
索服务的W七b站点,它是以一定的技术和策略在intemet中搜集和发现网络信
息,并对网络信息进行理解、提取和处理,建立数据库,同时以认倪b形式提
供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在
数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从
而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务
器上的信息,另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满
足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。
网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。
1.4网络信息检索效果评价
目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查
准率、收录范围、输出格式,其中以查全率和查准率最为重要。
现代信息科学技术的发展,为人们提供了多种多样的信息获取和传送方法
及技术,从“信源”与“用户”的关系来看,可分为两种模式:“信息推送”
模式(InformationPush),由“信源”主动将信息推送给“用户”,如电台广播;
“信息拉取”模式(InformationPull),由“用户”主动从“信源”中拉取信息,
如查询数据库。
2.2.1信息推送技术
“推”模式网络信息服务,是基于网络环境下的一种新的服务形式,即信
息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术
之所以成为Intemet上一项新兴的技术,是因为借助该技术使网络信息服务具
有主动性,不仅可以直接把用户感兴趣的信息推送给用户,而且可有效地利用
网络资源,提高网络吞吐率;再者,Push技术还允许用户与提供信息的服务器
之间透明地进行通信,极大地方便了用户。
所谓Push技术,又称“推送”技术、Web广播(Webeasting)技术,实质
上是一种软件,这种软件可以根据用户定义的准则,自动搜集用户最可能发生
兴趣的信息,然后在适当的时候,将其传递至用户指定的“地点”。因而从技
术上看,“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息
服务的一组计算机软件,该软件不仅能够了解、发现用户的兴趣(可能关心的
某些主题的信息),还能够主动从网上搜寻信息,并经过筛选、分类、排序,
然后按照每个用户的特定要求,主动推送给用户141。
(l)信息推送方式。信息推送方式分两类,即网播方式和智能方式。
网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式,
它将某些页面定义为浏览器中的频道,用户可像选择电视频道那样接受有兴趣
的网播信息;邮件式推送,用电子邮件方式主动将所推送信息发布给各用户,
如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送
信息发布给各用户,如某企业、某组织、某个人的网页;专用式推送。采用专
门的信息发送和接收软件,信源将信息推送给专门用户,如机密的点对点通信。
智能推送方式有:操作式推送(客户推送式),由客户数据操作启动信息
推送。当某客户对数据进行操作时,把修改后的新数据存入数据库后,即启动
信息推送过程,将新数据推送给其他客户;触发式推送(服务器推送式),由
ll硕士学位论文
MASTER,5THESIS⑧
数据库中的触发器启动信息推送过程,将新数据推送给其他客户,当数据发生
变化,如出现增加(Insert)、删除(Delete)、修改(update)操作时,触发器
启动信息推送过程。
(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效
性·灵活性和综合性I5]。
主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将
数据传送到客户方。因而,主动性是“推”模式网络信息服务最基本特征之一。
这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。
针对性(个性化)。针对性是说,Push技术可以针对用户的特定信息需求
进行检索、加工和推送,并根据用户的特定信息需求为其提供个人定制的检索
界面。
智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定
期推送给用户。甚至,Push技术中的“客户代理(ClientAgent)”可以定期自
动对预定站点进行搜索,收集更新信息送回用户。同时个人信息服务代理和主
题搜索代理还可为了提高“推送”的准确性,控制搜索的深度,过滤掉不必要
的信息,将认飞b站点的资源列表及其更新状态配以客户代理完成。因而,网
络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务
(SDI)不能比的。
高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push
技术的应用可在网络空闲时启动,有效地利用网络带宽,比较适合传送大数据
量的多媒体信息。
灵活性。灵活性是指用户可以完全根据自己的方便和需要,灵活地设置连
接时间,通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。
综合性。“推”模式网络信息服务的实现,不仅需要信息技术设备,而且
还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。
但在当前信息技术的发展阶段,“推”技术还存在很大的缺陷,比如:不
能确保信息发送,没有状态跟踪,缺乏群组管理功能等等。因此,国内外的研
究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继
承、完善了Push的优点(主动传递和个性化定制),摒弃了Push的诸多缺点之
!2硕士学位论文
MASTER,5THESIS管
后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所
有的信息都是在特定的时间送给特定的信息用户,同时保持连续性的用户资
料,随时可以知道谁收到了信息,信息是否为该用户定制,用户环境是否适当
等等[刀。
2.2.2信息拉取技术
常用的、典型的信息拉取技术,如数据库查询,是由用户主动查询数据库,
从数据库中拉取所需信息。其主要优点是:针对性好,用户可针对自己的需求
有目的地去查询、搜索所需的信息。
Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网
络上,用户面对的不止是一个数据库,而是拥有海量信息的hitemet环境,因
此,各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点,在实际中常常是将两者的结合
起来,常用的结合方式为:
(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息),再有针
对性地拉取所需的信息。这样,便于用户注意信息变化的新情况和趋势,从而
动态地选取需要深入了解的信息。
(2)“先拉后推”式。用户先拉取所需信息,然后根据用户的兴趣,再有针
对性地推送相关的其它信息。
(3)“推中有拉”式。在信息推送过程中,允许用户随时中断、定格在所感
兴趣的网页上,作进一步的搜索,主动拉取更丰富的信息。
(4)“拉中有推”式。在用户拉取信息的搜索过程中,根据用户输入的关键
词,信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用
户服务,又可以减轻网络的负担,并便于扩大用户范围[8]。
因此,信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信
息系统为用户提供主动信息服务的一个发展方向。
2.3Web挖掘技术
随着功temet的发展,W己b已经成为人类社会的公共信息源。在hitemet
给人类带来前所未有的信息机遇的同时,又使得人类的信息环境更加复杂,人硕士学位论文
MASTER,5THESIS⑧
类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解
决,相反,随着信息技术的发展,信息量的激增,造成了个人实际所需信息量
与研触b上的海量信息之间的矛盾,因而也就造成了个人利用信息的困难。在
这种情况下,虽然出现了叭范b环境下的专门检索工具,但是由于搜索引擎是
由传统检索技术发展而来,在当前用户要求不断提高的情况下,传统的搜索技
术己经不能够满足人们的需要。为了更加有效地利用网络信息资源,W七b挖掘
作为新的知识挖掘的手段,为Web信息的利用提出了新的解决方案叨。
2.3,1姗eb挖掘的内容
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,
提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其
中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文
件以及用户资料,从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识
发现的手段,它主要从下面3个方面进行仁’时。
(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识,以实现Web
资源的自动检索,提高web数据的利用效率。随着Intemet的进一步延伸,Web
数据越来越庞大,种类越来越繁多,数据的形式既有文本数据信息,也有图像、
声音、视频等多媒体数据信息,既有来自于数据库的结构化数据,也有用HTML
标记的半结构化数据及非结构化的自由文本数据信息。因而,对W己b内容信
息挖掘主要从下面两个角度进行〔”]。
一是从信息检索的角度,主要研究如何处理文本格式和超级链接文档,这
些数据是非结构化或半结构化的。处理非结构化数据时,一般采用词集方法,
用一组组词条来表示非结构化的文本,先用信息评价技术对文本进行预处理,
然后采取相应的模型进行表示。另外,还可以用最大字序列长度、划分段落、
概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时,
可以利用一些相关算法给超级链接分类,寻求认七b页面关系,抽取规则。同
处理非结构化数据相比,由于半结构化数据增加了HTM毛标记信息及Web文
档内部超链结构,使得表示半结构化数据的方法更加丰富。
二是从数据库的角度,主要处理结构化的W匕b数据库,也就是超级链接
14⑧蕊誉蕊
文档,数据多采用带权图或者对象嵌入模型(OME),或者关系数据库表示,
应用一定的算法,寻找出网站页面之间的内在联系,其主要目的是推导出Web
站点结构或者把W匕b变成一个数据库,以便进行更好的信息管理和查询。数
据库管理一般分成三个方面:一是模型化,研究认触b上的高级查询语言,使
其不局限于关键字查询;二是信息的集成与抽取,把每个W七b站点及其包装
程序看成是一个认范b数据源,通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构,通过研
究web上的查询语言来实现建立并维护web站点的途径[’“]。
(2)札b结构挖掘。W匕b结构挖掘,主要指的是通过对W七b文档的分析,从
文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系,
W七b结构挖掘关注的则是网站中的超级链接结构之间的关系,找到隐藏在一个
个页面之后的链接结构模型,可以用这个模型对W七b页面重新分类,也可以
用于寻找相似的网站。
W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述
网页内容组织方式的数据,页内结构可以用超文本标记语言等表示成树型结
构,此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映
了文档信息间的某种联系,如隶属平行关系、引用与被引用关系等。对W七b
页面的超级链接进行分类,可以判断与识别页面信息间的属性关系。由于Web
页面内部存在或多或少的结构信息,通过研究W亡b页面内部结构,可寻找出
与用户选定的页面集合信息相关的其它页面信息模式,以检测W己b站点所展
示的信息完整程度。
③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日
志文件以及用户信息的分析,从而获得有关用户的有用模式。W七b行为挖掘的
数据信息主要指网络日志中包括的用户行为模式,它包括检索时间、检索词、
检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、
分布、动态、无统一结构等特点,使得在认七b网上进行内容挖掘比较困难,
它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务
器的109日志存在着完整的结构,当信息用户访问web站点时,与访问相关的
页面、时间、用户ro等信息,日志中都作了相应的记录,因而对其进行信息
l5硕士学位论文
MASTER,5THESIS⑥
挖掘是可行的,也是有意义的。在技术实践过程中,一般先把日志中的数据映
射成诸种关系信息,并对其进行预处理,包括清除与挖掘不相关的信息等。为
了提高性能,目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、
模式发现、聚类分析等。为了提高精确度,行为挖掘也应用到站点结构信息和
页面内容信息等方面。
2.3.2web挖掘技术在网络信息检索中的应用
(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述
中获取知识的过程,由于用传统的信息检索技术对W己b文档的处理不够深入,
因此,可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分
进行进一步的完善,具体而言表现在以下几个方面。
①文本总结技术。文本总结技术是指从文档中抽取出关键信息,然后以简
洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信
息,就可以对W七b网页的信息有大致的了解,决定其相关性并对其进行取舍。
②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题
类别,利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息
检索中的价值在于可以缩小检索范围,大大提高查准率。目前,己经出现了很
多文本分类技术,如TFIFF算法等,由于文本挖掘与搜索引擎所处理的文本几
乎完全一样,所以可以直接将文本分类技术应用于搜索引擎的自动分类之中,
通过对大量页面自动、快速、有效的分类,来提高文档检索的查准率。
③文本聚类技术。文本聚类与文本分类的过程J险洽相反,文本聚类指的是
将文档集合中的文档分为更小的簇,要求同一簇内的文档之间的相似性尽可能
大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。文本聚类
技术不需要预先定义好的主题类别,从而使得搜索引擎的类目能够与所收集的
信息相适应。文本聚类技术与人工分类相比,它的分类更加迅速、客观。同时,
文本聚类可与文本分类技术相结合,使得信息处理更加方便。可以对检索结果
进行分类,并将相似的结果集中在一起。
(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一
种非平面结构,一般来说W己b的信息组织方式是根据内容来进行组织的。但
是由于W匕b的这些结构信息比较难以处理,所以搜索引擎一般不处理这些信
16硕士学位论文
MASTER,S竹正515⑧
息,而是将叭触b页面作为平面机构的文本进行处理。但是,在从触b结构挖掘
中,通过对研触b文档组织结构的挖掘,搜索引擎可以进一步扩展搜索引擎的
检索能力,改善检索效果〔’3]。
(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘
总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究
内容,通过研触b行为挖掘,不仅可以发现多数用户潜在共同的行为模式,而
且还可以发现单个用户的个性化行为,对这些模式进行研究,可以更好地对搜
索引擎的检索效果进行反馈,以便进一步改进搜索策略,提高检索效果。
2.3.3web挖掘技术的局限及方向
(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示,
都不能完全解决W七b数据的非结构性问题,特别是汉语句子格式繁多,虚词、
实词没有绝对的界限,切分词难度大,这些是造成无法对数据进行完全自动标
引的根本性问题,因此,从七b内容挖掘技术有必要结合数据仓库等信息技术进
行信息存储,并最终实现智能化、自动化的数据表示和标引,以供搜索之用。
通常数据的表示和数据的利用形式是相互关联的,因此,设计相应的具有高查
全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数
据如何进行识别分类标引,这也是未来的研几b内容挖掘研究的难点和方向。
(2)梅b结构数据挖掘。随着Intemet的迅猛发展,网站的内容也越来越丰
富,结构也越来越庞杂,用有向图表示巨型网站链接结构将不能满足数据处理
的需要,需要设计新的数据结构来表示网站结构。
由于用来作对比分析发现问题所在的用户使用信息只有日志流,那么,对
用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用
的模式等等,不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要
研究方向之一。
(3),eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性,客户端、
代理服务器端缓存的存在,使用户访问日志分别存在于服务器、代理服务器和
客户端,因此,从W七b用户访问日志中研究用户访问规律最大的难点在于如
何把分布于不同位置的访问日志经过预处理,形成一个个用户一次的访问期
间。通常来讲,对于静态W七b网站,服务器端的日志容易取得,客户端和代
l7理服务器用户访问日志不容易取得;其次,由于一个完整的W匕b是由一个个
图片和框架页面组成的,而用户访问服务器也有并发性,在确定用户访问内容
时,必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。
另外,由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来
的,在处理海量Web用户访问日志中也需要重新设计算法结构〔’41。
2.4信息过滤技术
hitemet开放式的环境,为人们检索和利用信息提供了极大的方便,但同
时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为,第
一,网络环境中信息的来源复杂多样,随意性大,任何人、任何单位不管其背
景和动机如何都可以在网络上发布信息,信息的产生和传播没有经过筛选和审
定,因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二,目
前大多数据搜索工具的检索范围是综合性的,它们的Robots尽可能地把各种
网页抓回来,经过简单加工后存放在数据库中备检;第三,搜索引擎直接提供
给用户的检索途径大都是基于关键词的布尔逻辑匹配,返回给用户的就是所有
包括关键词的文献,这样的检索结果在数量上远远超出了用户的吸收和使用能
力,让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现
象。信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让
搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到
用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,
帮助用户在浩如烟海的信息中找到和需求真正相关的资料。
2.4.1信息过滤模型
信息过滤其实质仍是一种信息检索技术,因此它仍依托于某一信息检索模
型,不同的检索模型有不同的过滤方法。51。
(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索
中,它以文献中是否包含关键词来作为取舍标准,因此,它不需要对网页数据
进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括
关键词的文献号、关键词在相应文献中出现的次数。检索时,用户提交关键词

……………………………………
太长 发不全 希望对你有用 实在不行联系我(给我留言)我发给你邮箱。

3. 信息检索的基本原理

信息检索有广义和狭义的之分。广义的信息检索全称为“信息存储与检索”,是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。

狭义的信息检索为“信息存储与检索”的后半部分,通常称为“信息查找”或“信息搜索”,是指从信息集合中找出用户所需要的有关信息的过程。狭义的信息检索包括3个方面的含义:了解用户的信息需求、信息检索的技术或方法、满足信息用户的需求。

(3)信息存储与检索的典型事例扩展阅读:

信息检索四要素:

1 信息检索的前提----信息意识:所谓信息意识,是人们利用信息系统获取所需信息的内在动因,具体表现为对信息的敏感性、选择能力和消化吸收能力,从而判断该信息是否能为自己或某一团体所利用,是否能解决现实生活实践中某一特定问题等一系列的思维过程。

2.信息检索的基础----信息源:信息源定义:在联合国教科文组织出版的《文献术语中》,将信息源定义为:个人为满足其信息需要而获得信息的来源,称为信息源。

3、信息检索的核心----信息获取能力:通过熟练使用检索工具来了解各种信息来源的效果。

4.信息检索的关键----信息利用:获取学术信息的最终目的是通过对所得信息的整理、分析、归纳和总结,根据自己学习、研究过程中的思考和思路,将各种信息进行重组,船造出新的知识和信息,从而达到信息激活和增值的目的。

参考资料来源:网络-信息检索



4. 信息检索中主体法和分类法是如何进行信息存储和检索(原理和过程)

主题法和分类法在信息检索中的原理基本相同.即信息储存和信息检索两个过程.信息储存是对文献进行收集、标引及着录,并加以有序化编排,编制信息检索的工具的过程;信息检索是从大量的信息中查找出用户所需的特定信息的过程.而实施检索的主要方法就是利用各种检索工具.
但是也有细微的差别.
1、在主题概念表达上
分类语言的一个显着特点是用码号(如字母或数字)作为文献的标识,标引或检索时都必须使用分类号.主题语言则是直接以自然语言中的话词作为标引和检索的标识.
2.在主题概念的组织上
主题法与分类法都要将主题概念组织成可迅速查找的检索工具或检索系统.分类语言主要是按学科体系或逻辑体系组织的,由于分类体系不是显而易见、易于掌握的,因此读者在使用分类检索工具或检索系统时,往往难以确定新主题、细小主题以及复杂主题在体系中的准确位置.主题语言按照语调的字顺来组织主题概念,因而可以直呼其名,依名检索.
3.在主题内在关系的显示上
分类语言中主题内在关系主要通过上下位类、同位类以及交替类目、参见类目和类目注释来显示.尤其在体系分类表中,类目之间的等级关系可以通过类目排列的位置、乃至印刷字体的不同而直接明显地展示由来.因而分类法系统的系统性、等级性强,便于进行浏览性检索,并可以根据检索的需要进行扩检和缩检.主题语言中,主题内在关系主要通过建立词间参照系统的方式来显示.此外也通过辅助索引进行分类显示.所以,在主题词表中,相关主题之间的关系难以直接地、一目了然地展示出来,因而在族性检索、尤其是较大范围课题的检索中,不如分类语言.
4、在标引方法上
使用分类语言标引时,主题分析的重点是辨别确定文献主题的学科性质,以便进一步确定所属类目.使用主题语言标引时,主题分析的重点是辩明文献主题各构成因素之间的关系,区别论述对象的中心部分和次要部分,以便选定中心主题概念.分类法表现的是族性,主题法表现的是特性.
信息检索的整个过程如图.

5. 现代信息检索服务系统有哪些类型各自的特点是什么举例说明

现代信息检索服务系统指计算机信息检索系统,主要包括,联机检索系统、光盘检索系统和网络信息检索系统。
(一)光盘数据库检索
光盘数据库检索是由微机、光盘数据库、检索软件等组成,目前国内普遍采用的是网络检索系统,它是由光盘服务器、计算机局域网、光盘库/磁盘阵列、检索软件等组成,其特点是设备简单、费用低、检索技术易掌握,但检索范围受到光盘数据库的限制。更新不够及时;相对于手工检索而言,它的检索速度快,检索灵活方便,检索入口多。
(二)联机检索
联机检索系统是由联机服务的中心计算机,检索终端。通讯网络、联机数据库、检索软件等构成,检索终端通过信息路线与信息系统的主机连接,在中央处理机的控制之下查询系统的若干个数据库,并能够与系统实时对话,随时调整检索策略。其特点是检索范围广泛、检索速度快,检索功能完善,及时性好,可以联机订购原文,它拥有的数据库量大,更新及时,但检索技术复杂,设备要求高,费用昂贵。
(三)网络信息检索
网络信息检索系统是由计算机服务器,用户终端、通讯网络、网络数据库等组成,其特点是检索方法简单、检索灵活方便、及时性好,检索费用和速度低于联机检索系统。通过网络接口软件,用户可以在任何一个终端查询各地网络上的信息资源。网络检索实际上是更加广泛的联机信息检索系统。

1.DIALOG系统概述
美国Dialog系统是目前世界上规模最大、影响最广泛的综合性商业联机检索系统,也是我国科技界广泛使用的系统。其中心设在美国加利福尼亚州的PALOALTO市。
Dialog联机检索用户遍布世界100多个国家。D1ALoG现有全文、题录、事实及数据型数据库数百个,都是质量很高、很权威的核心数据库,其中包括着名的工程索引(Ei)、科学引文索引(SCI)、英国科学文摘(1NSPEC)、世界专利索引(WPI)等,其数量平均每年约增长20%一28%。文献量已近数亿篇,内容涉及自然科学、社会科学、工程技术、人文科学、时事报道及商业经济等各个领域。
DIAIOG提供的服务项目有各种类型信息检索、定题股务、原文订购(E—mail,FAX或邮寄传递)等。它的检索功能强大,深度和广度要求高的检索均可做到,数据库更新及时,数据库中收录的文献年限长。利用Dialog系统,可进行项目交新、文献调研、课题立项、申报专利、了解市场动态和竞争对手、新产品开发、公司的背景憾况、经济预测等信息。

(1)联机准备。对于用户而言,要想使用Dialog联机检索系统,首先要具备相应的软、硬件设备;其次,要向Dialog系统申请联号,交纳一定的开户费用,每年要文年费和数据库使用费。

与DIALOG联机所需要的软、硬件设备包括终端、通信软件和调制解调器。通信软件安装在用户终端,用于实现用户和主机间的通信,Dialog LINK是dialog系统专门为用户设计的通信软件。该软件功能丰富,集成化程度高,具有自动登录或按号功能及在联机前建立并存储检索式,存储、显示和打印检索结果,显示图形,标记、存储记录,追踪记忆等功能。该软件是动态更新的。

在申请成为Dialog用户后,系统将为用户提供两个号码:
1)用户号。用户号(User Name)是D1ALog用户的账号,也是用户的标记。系统将对此用户使用系统的情况进行跟踪、记殿、邮寄账单和数据库更新资料。当用户与DIALOG系统进行各种联系时,均须提供账号。
2)用户口令。用户口令(Password)是用户进入D1ALog系统的钥匙,当用户进行联机登录时,用户名和口令必须结合起来使用。
(2)联机方式。在用户具备了上述条件并安装好各种硬件及软件后,就可以实现与Dialog检索系统联机。Dialog系统向用户提供多种服务方式、检索界面及各种数据库。DIALOG的联机方式有两种:
1)通过CHINAPAC(专线)与D1ALOG联机。具体过程为:①输入主机所属的分组交换网址;②输入系统标识符;②输入用户号;④输入用户密码。
2)通过CHINANET或Internet与Dialog联机。如果用户的计算机已经与Internet联网,则可使用远程登录命令Telnet diaLoG.com或通信软件Dialog LINK,就可以登录到DIALOG联机系统,以文本界面方式检索Dialog数据库,也可以使用ie浏览器以Web的方式检索Dialog数据库。与专线方法相比,这种联机方法更加直接、方便。DIALOG系统的Internet Web界面的检索方法有以下几种:

a.利用Web直接上网检索,其web网址为http://www.DialogWeb.com。这种方式检索赞用较低,缺点是如果用户需要将所有检索过程存盘,就要一屏一屏地存盘,否则随着检索指令的变化,不及时存盘,数据容易丢失。
b.特别为专业人员推出的web界面。其网址为http://www.dialogclassic.com。这是最新推出的界面,速度快,检索过程每一屏幕均保留,不丢失效据,便于存盘,界面是专业人员熟悉的界面,能很快地从旧检索方式转入适应新的web界面。
c.非专业检索人员web界面。其网址为http://www.dialogselect.com。dialog select作为在Internet上的傻瓜界面主要针对最终用户,而非专业人员。对于初学者、最终信息用户和不愿学习Dialog检索指令的人可使用其傻瓜界面。 ‘
d.数据库蓝页网址:http://library.Dialog.com/bluesheets。用户可以按数据库名称、文档号、主题浏览蓝页。数据库蓝页提供每一种数据库的收录范围,可供检索的字段、打印格式、记录样式及收费状况等。
(3)Dialog系统的检索特点。
1)Dialog系统具有两种检索方式:菜单式和命令式。菜单式指Dialogweb (guided search)及DialogSelect的检索方式,其检索界面为图形界面,明确直观。该界面无须了解Dialog检索指令,适合于非专业检索人员和初学者使用,用户可以按照系统提示一步一步进行检索;命令式指远程登录(Telnet)、DialogClassic及DialogWeb(command search)的检索方式,检索时需输入各种指令,检索快速、准确,适合于专业人员使用。
2)DIALOG系统有两种索引:基本索引和辅助索引。从上述可知,联机检索是通过倒排档进行的,Dialog系统的田搽档就是基本索引和辅助索引。
基本索引字段主要有标题、规范词、自由词、文摘等(各个数据库的基本检索字段不完全相同,用户需要查问相关数据库的主页才能确定)。绝大多数数据库都包含TA、DE、ID、AB(标题、叙词、自由词、文摘)4个基本索引字段。基本索引字段采用后级代码进行检索。如SMOTOROLA/CO将检索字段限于公司名称字段;SANTHRAX/TI将检索词限于标题字段。
Dialog系统数据库将作者、单位名称、期刊名称、文献类型、语种、出版年份等作为辅助索引字段,采用前缀代码检索。如SAU=JOHNSON,S?;S PY=1998等。适当使用这些检索途径,用户可以迅速、准确地找到自己所需要的信息。
3)DIALOG系统的多数据库访问和查重功能。DIAOG可用一次性检索方法对多个数据库进行检索。用一次性检索方法不仅可以比较交叉文档的检索结果,而且可以限制检索项、组配检索项和显示检索结果,使多文档查找犹如在单一文档中查找一样灵活,该功能一次最多可以检索60个数据库。由于一次性检索的命中文献为所选数据库检索文献之和,其中有些文献为重复文献,dialog提供了查重功能,以便提高检索效率和降低检索赏用。

2. 《工程索引 (Ei Compendex PIus)》数据库光盘
1)简介
《工程索引(Ei ComPendex PIus)》数据库光盘简称CoM—PENDEx数据库,是KR OnDisc for windows光盘系列中的一种光盘,由美国Knight—Ridder信息公司发行。这个数据库就是印刷本《The Engineering lndex)的光盘版,该光盘收录了自1970年以来的工程索引信息,内容包括空间技术、应用物理、生物医学仪器、化学工程、城市建设工程、环境工程、电子工程、能源技术、工程材料、海洋工程、机械工程、采矿和冶金、管理工程等。该光盘有DOS版、Windows版、Macintosh版等几种,以便适合不同的PC与操作系统。检索系统与数据一般在同一张光盘上,数据每月更新,检索系统的安装十分简单方便,几乎不需要更改任何系统参数,如果在DOS环境下检索,则不在硬盘上安装检索系统也可以,直接在光盘驱动器盘符下键入ONDISC命令,即可进入检索系统。该光盘上一般还附带有与Dialog联机的远程终端访问系统,时间跨度为19洲午主今。l 988年-1991年,各个年份的光盘检索系统工作在DOS平台上,1992年以后的检索系统工作在Windows平台上。1999年,Dialog公司推出了提供Web浏览方式的光盘数据库服务软件Dialog@site,购买并在本地装有Windows NT系统的服务器上安装运行Dialog@site软件后,即可通过局域网或因特网访问该数据库。它们的检索步骤和检索策略基本相同。COMPEND—EX数据库的特点是检索途径多,策略变换灵活,显示格式多,另外还有多种辅助分析手段,因而是工程技术领域最常用的数据库光盘。

3. 《中国学术期刊(光盘版)》全文数据库
1)简介
《中国学术期刊(光盘版)》全文数据库,简称CAJR数据库,是中国制作的第一个集成化、多功能型电子学术期刊数据库。这个数据库由清华大学主办,1996年起出版发行。CAJR数据库的特点是期刊全文入编,图文混排,显示、打印输出格式与印刷版期刊保持一致。对最新内容,数据库实行按月更新,以保证信息的及时性,对不在数据库重点收录范围的期刊文献(或称为过刊文献),陆续建立过期期刊题录摘要库,与现刊文献合并成同一光盘.可实现题录摘要的追溯查询。对重点学科的过期期刊,则可建立过期期刊全文回溯库,以实现全文追溯查询。在软件方面,CAJR数据库采用传统和智能化全文检索相结合的方案,保留了传统数据库检索的优点,增加了检索入口。

4. 中国知识资源总库简介 .
中国知网又称中国知识基础设施工程(China National knowledge infrastructure)是以实现全社会知识资源传播共享与增值利用为目标的国家信息化重点建设项目,于1995年正式立项。它由清华同方光盘股份有限公司、中国学术期刊(光盘版)电子杂志社、光盘国家工程研究中心等单位于1999年6月在《中国学术期刊光盘版)》(caj-cd)和中国期刊网.(CJN)全文数据库建设的基础上研制开发的一项规模更大、内容更广、结构更系统的知识信息化建设项目。
截止2007年底,cnki涵盖了国内9000多种期刊杂志,1500多种重要会议文献,420多家博士培养单位论文,650多家硕士培养单位论文,300多家出版社已经出版的图书、全国的重要报纸以及网络全书、专利、年鉴、标准、科技成果、政府文件、因特网信息汇总以及国内外上千个各类加盟数据库等知识资源。据相关统计,cnki已经被海内外17000多个高校、科研单位、医院、企业、政府;中小学等各类机构所采用,最终用户群超过2600万人。

5、基于Internet的信息检索

在Internet 上,www 信息资源的一般查询方法有:基于超文本的信息查询、基于目录的信息查询和基于搜索引擎的信息查询。
1.) 基于超文本的信息查询
通过超文本链接逐步遍历庞大的Internet,从一个www 服务器到另一个www 服务
器,从一个目录到另一个目录,从一篇文章到另一篇文章,浏览查找所需信息的方法称为浏览,也称基于超文本的信息查询方法。

基于超文本的浏览模式是一种有别于传统信息检索技术的新型检索方式,它已成为Internet 上最基本的查询模式。利用浏览模式进行检索时,用户只需以一个节点作为入口,根据节点中文本的内容了解嵌入其中的热链指向的主题,然后选择自己感兴趣的节点进一步搜索。在搜索过程中,用户会发现许多相关的节点内容根本没被自己所预想到,而是在浏览过程中不断蹦出来,提醒用户注意它。
随着 www 服务器的急剧增加,通过一步步浏览来查找所需信息已非常困难。为帮助用户快速方便地搜寻所需信息,各种www 信息查询工具便应运而生,其中最有代表性的是基于目录和基于搜索引擎的信息查询工具,而利用这些工具来查找信息的方法就被称为基于目录和基于搜索引擎的信息查询方法。
2). 基于目录的信息查询
为了帮助Internet 上用户方便地查询到所需要的信息,人们按照图书馆管理书目的方法设置了目录。网上目录一般以主题方式来组织,大主题下又包括若干小主题,这样一层一层地查下去,直到比较具体的信息标题。目录存放在www 服务器里,各个主题通过超文本的方式组织在一起,用户通过目录最终可得到所需信息的网址,即可到相应的地方查找信息,这种通过目录帮助的方法获得所需信息的网址继而查找信息的方法称为基于目录的信息查询方法。

有许多机构专门收集Internet 上的信息地址,并编制成目录提供给网上用户。Yahoo就是一个非常着名的基于目录帮助的网址,其目录按照一般主题组织,顶层按经济、计算机、教育、政治、新闻、科学等分成14 大类目录,每一大类又分成若干子类,层层递进。
3). 基于搜索引擎的信息查询
搜索引擎又称www 检索工具,是www 上的一种信息检索软件。www 检索工具的工
作原理与传统的信息检索系统类似,都是对信息集合和用户信息需求集合的匹配和选择。基于搜索工具的检索方法接近于我们通常所熟悉的检索方式,即输入检索词以及各检索词之间的逻辑关系,然后检索软件根据输入信息在索引库中搜索,获得检索结果(在Internet 上是一系列节点地址)并输出给用户。

搜索引擎实际上是Internet 的服务站点,有免费为公众提供服务的,也有进行收费服务的。不同的检索服务可能会有不同界面,不同的侧重内容,但有一点是共同的,就是都有一个庞大的索引数据库。这个索引库是向用户提供检索结果的依据,其中收集了Internet 上数百万甚至数千万主页信息,包括该主页的主题、地址,包含于其中的被链接档主题,以及每个文档中出现的单词的频率、位置等。最着名的搜索引擎莫过于Google和网络了。