科技时代新浪首页 > 科技时代 > 滚动新闻 > 正文

信息检索的黄金时代


http://www.sina.com.cn 2006年02月15日 16:23 赛迪网--中国计算机用户

  作者:那罡

  【赛迪网讯】信息检索的发展已经成为包括信息的存储、组织、查询、提取等多个工作过程的一整套方法。逐步向应用需求靠拢,信息检索市场掀起了前所末有的热潮,新技术概念层出不穷,创造出了一个黄金时代。

  当互联网出现之后,以数字形式保存下来并且能够被大众获取的数据,呈现出前所未见的爆炸性增长态势,这使得如何有效利用这些信息,成为社会发展的重要课题之一。

  信息检索的特殊价值

  从某个信息集合中选取符合需要的信息以供使用这项工作,通常被称之为信息检索(Information Retrieval)。真正意义上的信息检索直到电子计算机获得普及才显现出其独特的价值。

  当今的信息检索早已超越了对信息按照条件进行提取这一范畴,发展并且成为包括信息的存储、组织、查询、提取等多个工作过程的一整套方法。

  信息检索工作,起源于对

图书馆中的图书、文献进行索引编排以方便查阅,在1945年,Vannevar Bush的文集中确定了一个规划至2010年的目标,该目标致力于使人们更加快捷地访问世界上各个图书馆中的信息。

  从这一时期开始,信息的存储与检索问题开始逐步受到关注。特别是随着第一台电子计算机的问世,信息时代的帷幕正式拉开,以往手工方式的信息检索工作逐步被计算机承担。

  电子计算机为人们提供了从所有文档中快速提取所需文档的能力,信息检索的效率和可用性都获得了大幅度的提升。

  事实上,应用计算机进行信息处理工作更深远的利益在于,可以对信息应用实施更复杂、可控的管理策略。在数据库软件蓬勃发展,存储介质成本大幅度下降的背景下,信息检索技术也逐步向应用需求靠拢,从而真正发展成为一项对整个信息产业举足轻重的基础技术。

  信息检索不等于数据检索

  用户常常将以数据检索技术与信息检索等同视之,尽管数据检索和信息检索之间有着千丝万缕的联系,而且两者之间在底层的技术手段上有很多类似,但事实上这两种技术还是有着相当大的差别。

  从表格中的数据可以看出,数据检索技术更类似于机器处理,信息检索技术则致力于提供更具智能、人性化的检索结果。相比之下,信息检索系统所能够处理的信息范围,大于数据检索系统。

  不过,在数据检索和信息检索之间,并没有不可逾越的鸿沟,在现实的应用环境中,往往不存在绝对的数据检索系统,或者绝对的信息检索系统。为了达到最优化的检索效果,两者的特征和技术运用,体现出一种融合的趋势。

  事实上,当数据检索技术发展至数据挖掘阶段之后,已经具备了大量的智能特征,从而成为一种重要的信息检索技术。

  信息检索的四大核心技术

  1.全文检索技术

  这是最基本也是最重要的信息检索技术,通常被应用于文本类型的信息。通过对一组文本中的全部信息进行索引和归档,全文检索技术能够让用户检索到文本信息中的所有内容。

  从理论上来讲,全文检索在全部目标文档中搜索所有的关键词,然而直接采用这种处理方式会耗费大量的时间,与用户在目标的局部进行缩小范围的搜索,相比其综合效用并不会有显著提高。

  为了提高检索的处理速度和准确程度,全文检索技术都会事先完成绝大部分操作。具体的实现方法是,在启用全文检索功能的时候,对所有目标信息进行分析,并使用便于检索的方式保存全部的结果,而在执行信息检索时,无须再扫描全部文档,只需提取分析结果中的数据,并摘选出最匹配的信息即可。

  2.自动分类技术

  分类方法往往被视为检索技术的一个组成部分,很少被单独提及,实际上其重要性被严重低估了。尽管这项技术看起来相当的平凡,甚至为其进行定义都显得有些困难,但良好的信息归类是管理信息的基础,也是使信息能够被有效分析的保障。

  目前信息检索领域的信息分类主要包含两种方式:关键词和文档。按照关键词进行信息汇聚是目前最常用的方式,按照文档进行信息汇聚,可以更好地整合文档之间的关系,但是处理速度相对较慢。

  为了提高处理效能,当前的信息检索系统中往往使用自动化的归类程序处理分类和其间的关系,并且通过尽可能与查询条件的匹配次数提高速度。除了为信息检索提供基层支持之外,分类也能够为信息检索功能提供直接的帮助。

  以近期百度推出的针对国学信息的搜索服务“国学频道”来说,通过其检索到的信息实际上是中心数据库中所存储的信息。“国学频道”的搜索只在频道内部进行,不会出现其他网页的搜索结果,这样能够保障信息的精确无误。

  而如果直接通过百度搜索引擎搜索,其搜索的信息子集,通过百度网页数据库的学术领域索引建立,通过对更具专门意义的信息分类进行搜索,虽然检索范围更广,但是准确程度和精度也会降低。

  3.异构检索技术

  现在的应用需要在网络环境下完成对信息检索工作,这大大增加了信息格式和通讯方式的复杂度,在异构平台之间,整合信息用于检索是非常必要的。

  不同的文档格式或是不同的语种语系,异构检索系统提供将这些迥然不同的信息纳为一体的能力。异构检索系统主要通过统一的接口,从不同架构的信息平台上采集信息,这种方式的一个最主要问题是实现起来比较复杂。

  为了实现不同平台间的互联互通,往往需要大量的修改和调整接口。针对此等问题,异构检索领域提出在全文检索技术的基础上结合元数据检索的方式,这种方式也为信息的全息式检索提供了可能。

  4.智能检索技术

  传统的全文检索技术,虽然能够提供相当丰富的检索结果,但是在对结果的精度和完整程度要求较高的时候,全文检索技术往往无法达到要求,这就需要提高信息检索系统的智能判断能力,以提供更贴合用户需要的检索结果。

  举例来说,当用户在搜索引擎中输入一个关键词的时候,可能由于拼写错误使得搜索引擎没有返回真正需要的搜索结果,一个具有智能判断功能的搜索引擎会尝试给出一些纠正结果。

  而且,现在很多搜索引擎都能够提供正常搜索结果,同时也会给出各种意义相近,或拼写笔画相近的关键词供用户参考。在人工智能技术尚没有取得突破性进展的今天,智能检索还无法替代传统的信息检索技术成为核心。

  就目前已经在市场上出现的智能检索技术来说,其仍以辅助的形式出现,这也是一个符合时宜的状况。相信随着智能技术的不断发展前进,信息检索领域会融合更多的智能特性以为用户提供更优良的服务。

  信息检索系统的典型架构

  1.组件结构

  从构成上来看,一个典型的信息检索系统通常包含三个组件:输入、处理系统和输出。这种高度抽象的划分方式可以套用于多种不同类型的信息检索系统。在这个部分,以搜索引擎这种最典型的信息检索系统作为示例,来讲解该类系统的构成。

  输入组件

  该组件主要代表,信息检索系统的条件输入端,所有的信息检索条件都通过输入端被采集,并传送到处理中枢。例如一个搜索引擎的查询条件是单个或者一组关键词,而且多个关键词之间可以通过符号进行组合,从而创造出更复杂的查询条件。

  处理系统

  该组件是信息检索系统的中枢,集中管理和处理各种检索操作。处理系统可通过适当的方法对所有的信息进行组织和构造(例如对信息进行分类),以更快的速度和更高的准确性向用户返回信息。

  在执行检索工作时,处理系统遵循事先定义的检索策略,以特定的模式、顺序、表现形式来完成检索操作,并将结果提供给输出端,这些策略是定义在搜索引擎的服务软件系统中的。

  输出组件

  输出组件根据处理系统中定义的策略,将检索的结果返回给用户,同时向用户反馈的信息通常都回环到信息检索系统的输入组件,像搜索引擎,就是将搜索结果在输入查询条件的浏览器窗口中显示输出,用户可以根据返回的结果进一步修改输入条件,获得更理想的检索结果。

  2.流程结构

  每一个信息检索系统都有完整的工作流程,这是达到良好运作的基础。下面仍旧以搜索引擎为例顺序介绍主要的几个工作流程。

  获取信息

  在提供信息访问和检索服务之前,必须获取足够的信息。主流搜索引擎获取信息的渠道主要有两个,一是通过被称为网络蜘蛛的程序,自动从网络上获取信息;二是将网络用户手动提交的信息纳入到信息库中,其中第一种方法是搜索引擎最主要的信息来源。

  网络蜘蛛能够根据其预先定义的详尽规则,沿着网页上的链接,抓取网络上所有网页和文件的信息,并将这些信息返回处理中心,通过网格技术,实现高性能计算和数据共享。

  处理信息

  在信息收集并存储到处理中心之后,搜索引擎系统会对所有获取的信息进行分析,并提取所有文件的地址、编码、关键词、时间、大小、链接等,所有相关的信息提取出来进行分类和存储。

  处理中心会根据一整套复杂的规则对这些信息进行运算,评估出每个网页和文件的重要性和等级,以供更加复杂的检索功能使用。

  同时,在对信息进行分析的过程中,还会为这些信息建立索引,这不但能够更进一步挖掘这些数据之间的联系,而且还能够对检索信息的性能进行优化。

  检索信息

  当用户通过搜索引擎提供的Web页面,以及其它程序接口进行信息检索的时候,搜索引擎的处理中心会根据请求,将符合条件的信息取出并传送给用户。

  除了这一基本功能之外,搜索引擎还提供与用户查询条件相关的查询线索供用户参考,从而提供更具智能特征的信息检索服务。

  监控检索

  事实上这个步骤的工作与处理信息有很多类似之处,不过与处理信息不同,对信息检索的监控所得出的数据结果,被用于指导信息检索服务的改善和运行,而并非采集信息的过程。

  由于每个信息条目所受到的检索操作,都会影响到该信息条目的重要性和等级一类指标。所以,监控检索的工作也起到了不断实时更新,反映这些变化的作用。

  数据检索与信息检索的区别

  技术特征 数据检索 信息检索

  匹配方法 精确匹配 模糊匹配

  模式 确定性模式 或然性模式

  分类 单一的分类 多样的分类

  查询语言 非自然语言 自然语言

  查询规格 完整的 不完整的

  信息条目 致力于匹配 致力于相关性

  对错误进行响应 敏感 不敏感

  链 接

  什么是数据挖掘?

  随着数据库应用的不断发展,全球存储在数据库系统中的数据,始终保持着高速的增长,但是根据很多专业机构的研究结果显示,这些海量的数据却并不都能被有效利用。

  如果能够更加有效地将信息海洋中的数据抽取出来,并正确地使用,将创造出巨大的实用价值,这也正是数据挖掘技术产生的原因。

  数据挖掘产品能够智能地发现有用的数据集合,找到大量数据中潜在的联系,并自动按照所定义的规则进行趋势预测和决策支持。数据挖掘使数据库技术进入了一个更高级的阶段,Gartner Group的调研结果显示,数据挖掘已成为与人工智能等同样重要的变革性技术。

发表评论

爱问(iAsk.com)



评论】【论坛】【收藏此页】【 】【多种方式看新闻】【下载点点通】【打印】【关闭




科技时代意见反馈留言板 电话:010-82628888-5595   欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

Copyright © 1996 - 2006 SINA Corporation, All Rights Reserved

新浪公司 版权所有