当前位置:论文网 > 论文宝库 > 信息科技类 > 计算机信息管理论文 > 正文

信息检索新技术解析

来源:UC论文网2019-04-08 17:33

摘要:

  随着现在计算机技术的不断扩大和发展,文章主要分析了基于XML的、基于多语言的、基于(多媒体)内容的、基于自然语言(智能)以及基于智能代理的信息检索新技术,并着重指出了它们的工作过程和原理。  【关键词】基于XML的信息检索新技术,基于多语言的信息检索新技术,多媒体信息检索,智能信息检索,基于智能代理的信息检索,信息检索  【中图分类号】G434【文献标识码】B【论文编号】1009―8097(2...

  随着现在计算机技术的不断扩大和发展,文章主要分析了基于XML的、基于多语言的、基于(多媒体)内容的、基于自然语言(智能)以及基于智能代理的信息检索新技术,并着重指出了它们的工作过程和原理。


  【关键词】基于XML的信息检索新技术,基于多语言的信息检索新技术,多媒体信息检索,智能信息检索,基于智能代理的信息检索,信息检索


  【中图分类号】G434【文献标识码】B【论文编号】1009―8097(2007)04―0080―03


  一、引言


  利用传统的搜索引擎检索信息,通常检索出大量的无用的垃圾信息,以至于人们被淹没于“海量”的信息之中,而无所适从。在知识时代,人们不再需要这样的海量信息,而是需要符合用户需求、对用户有价值的知识――经过分析、概括和提炼出来信息。而传统的搜索引擎无法实现由搜索信息向检索知识转变的需求,因而出现了“信息爆炸而知识贫乏”的怪象。因笔者认为很有必要追踪信息检索的新技术。[1]


  二、信息检索新技术


  1.基于XML的信息检索技术


  HTML是目前因特网上广泛应用的标记语言,存在着难以扩展、交互性差、尤其是基于HTML的搜索引擎存在着返回结果太多和检索精度差的弊端。而XML可以有效地克服这些不足。与HTML不同的是,XML语言能把数据与数据表示分开。


  1.1.XML标记在搜索中的优点


  因为搜索引擎可以利用XML文档中的标签来确定在文档中的哪一部分查找,而不是像在HTML文档中一样,是在整个文档中查找,避免了传统搜索引擎的全文检索技术。而且,自然语言中的词经常多义,XML能帮助人们辨别模糊词义。有助于解决词义模糊问题,提高检索的准确性。另外,XML使得能用结构相邻关系来替代物理相邻关系进行检索结果相关性排序。XML可允许利用非文本数据,如数值数据、地理位置等进行检索。


  1.2.基于XML的搜索引擎(XMLSearchEngine)


  基于XML的搜索引擎以信息检索单位来分有两种:一种是以文档为检索单位,一种是以文档中的被标注元素为检索单位。我们通常关心的是后一种。其查询方法是文档中的由标记标注的数据段;返回的结果是从整个网页中抽出的数据段。在查询时可以在查找到的数据的基础上,进行计算和格式转换,合并多个数据中的数据,甚至自动对文档进行更新。我们利用XML搜索引擎检索信息,能充分利用XML的标记字段所带来的上下文信息,大幅度缩小检索的范围,提高查询的准确率。


  已开发出的以文档中的被标注元素为检索单位的XML搜索引擎有,比较成熟的有XRS(XMLRetrievalSystem)。它是基于BUS(BottomUpScheme)技术的用Java实现的一个搜索引擎。采用的基本思想是:在文档的最低的结构层次上建立索引,在进行查询的时候在较高的结构层次上计算词的权重信息。它十分依赖于文档的结构信息,在已知文档的结构定义的情况下能够很好地在数据记录一级进行文档的查询。[2]


  2.基于多种语言的信息检索技术――跨语言信息检索技术


  传统的搜索引擎中,中英文混合检索词是不被支持的,跨语言搜索(MultilingualSearch)引擎就能解决这个问题。


  跨语言综合搜索引擎通常是在传统的搜索引擎的基础上,增加了两个功能:一是提交检索关键字时,先翻译成不同的语种,再检索。即:检索词为同一语种,检索结果为不同语种。这是一种是架构在单一搜索引擎的基础上多语种检索引擎。二是不同(语种)搜索引擎检索结果之间的集成。是一种架构在多搜索引擎的基础上多语种检索引擎。


  跨语言搜索引擎的工作过程如下:用户向系统提交检索词,形成一个源语言的搜索式,系统对搜索式进行语言识别,识别出语种后,就对进行提问式的词法分析和结构分析,然后把这个分析过的搜索式翻译成各种语言的搜索式,最后把这一系列的搜索式提交给系统进行检索就可以了。检索结果是含有多个语种的页面。如使用多搜索引擎,转换成不同语言搜索式时还需注意各种搜索引擎搜索式表达方法的不同。[3]


  3.基于内容的信息检索技术――多媒体信息检索技术


  因特网的资源可分为结构化数据和非结构化数据。传统的搜索引擎只能处理如字符、数字等的结构化数据,而对于多媒体等非结构化的多媒体数据则无可奈何。因而,这些多媒体资料的管理和再利用变得非常困难,需要合适的归档体系允许高效的浏览、搜索和检索。传统的方法是采用文本注释图像和视频信息,但这种方法显得力不从心,许多应用场合文字不足以描述具有丰富内容的视频等。而MPEG-7的发布,支持对音视频内容的元数据和文本描述,并且进一步发展了基于内容的描述和检索规范,支持尽可能广泛的应用领域,使资源的全球共享成为可能。并由此而形成了基于内容的检索CBR(Content-BasedRetrieval)。


  3.1.CBR检索特点


  基于内容的检索也称多媒体信息检索(MultimediaSearch),它是建立在MPEG-7的多重和分层描述的基础之上的。根据媒体对象的内容语义及上下文联系进行检索。具有以下特点[4]:(1)直接对多媒体内容进行分析,抽取特征和语义建立索引。(2)采用相似性匹配的方法逐步迭代求精获得检索结果,避免常规数据库检索中的精确匹配方法。(3)采用多种检索手段,除提取多媒体内容特征进行检索外,还提供了其它检索手段,如通过提供样本图像进行相似性检索,或通过人机交互进行浏览检索。


  3.2.CBR系统构成


  完整的CBR系统一般由两个子系统构成,即数据库生成子系统和检索子系统。每个子系统由相应的功能模块和部件组成,包括:(1)对象标识;(2)特征提取;(3)数据库;(4)搜索引擎;(5)用户检索和浏览接口。


  3.3.CBR检索过程


  对因特网多媒体资源的CBR检索历经特征调整、重新匹配、逐步求精的循环过程:(1)最初用户可用检索语言形成一个初始化的检索,系统提取该示例的特征或把检索描述映射为具体的特征矢量。(2)将检索特征与特征库中特征按一定匹配算法进行相似匹配。(3)按相似度大小,将满足一定相似条件的候选结果排序后反馈给用户。(4)用户挑选候选满意的结果,或从候选结果中选择一个示例,经特征调整后形成新的检索。(5)逐步缩小检索范围,直到用户对检索满意为止。[5]


  目前,已经出现了许多专门针对多媒体的搜索引擎,其中较成熟的有:Columbia大学开发的专门用于因特网上图像检索的WebSeek、东北大学研制的分布式多媒体信息系统等。


  4.基于自然语言的信息检索技术――智能检索技术


  由于多种原因,用传统的搜索引擎,在搜索信息时,通常会造成信息丢失、信息太多以及信息无关等多种弊端。造成这些问题的根本原因在于:传统的搜索引擎对要检索的问题仅仅采用“机械式”、“孤立的”关键词匹配来实现,缺乏知识处理能力和理解能力,而不能结合句子,在特定的语境或用户的专业领域中来进行检索。因此,结合人工智能技术的智能搜索(IntelligentSearch)引擎把信息检索从目前基于关键词层面提高到基于知识(或概念)和自然语言的层面,才能有效地解决这个问题。


  基于自然语言的搜索引擎是智能搜索引擎的一种形式,是一种狭义的搜索引擎。它是结合了人工智能技术的新一代搜索引擎,它能够利用分词技术、同义词技术、概念搜索、短语识别和句子理解等技术,来实现信息检索服务的智能化、人性化特征,从而最终实现利用自然语言进行信息的检索(NaturalLanguageSearch)。再加上智能搜索引擎可以根据互联网本身的链接结构对相关网站用自动方法进行分类,以及结构严谨,萃取精华的开放式信息目录,为每一个查询迅速提供准确的结果。目前比较成功的智能搜索引擎有FSA,InFind,CompassWare和FAQFinder。


  基于自然语言的搜索引擎的实现各不相同、各有特点,但从实现的基本思路上是相通的。下面简要说明一下其实现过程[6]。


  4.1.知识库


  这里的知识库是对理论上完整知识库的一种近似,一种局部实现。知识库是实现基于自然语言搜索的基础和核心。知识库中的知识用以为智能搜索引擎分析、概括提供依据和基础。


  4.2.信息库


  信息库就是互联网。互联网是一个巨大的、非结构化而且处于不停变化的信息空间。信息库可以起到两方面的作用。首先,信息库是知识库存在和发展的空间。其次,信息库也是用户所要检索的内容。


  4.3.语义分析、知识管理和知识检索


  要做到基于自然语言的搜索还必须做到知识库和信息库结合的问题。要做到两个核心库的有机结合,就必须要做到:(1)知识管理。知识管理主要实现知识库的自增长和结构优化,知识库的增长的基础是对信息库的概括和提取,结构优化是机器自身学习的结果。只有知识库不断增长和优化,才能不断地解决新的信息检索问题。(2)语义分析。分析用户语言的具体含义。借助于分词技术、词法分析、语法分析、篇章结构的分析等技术,实现整句分词、处理同义词,并根据知识库分析关键词明确概念或自然语言句子的语义,确定用户真正用意,并不断进行自身学习,丰富知识库。(3)知识检索。知识检索是实现基于自然语言搜索的最后一环,通过前面语义分析结果,明确用户用意,对信息库进行知识(概念)层次的检索,从多方位对用户的问题进行回答。


  基于自然语言的信息检索具有以下优点:(1)检索过程智能化;(2)检索范围定位的准确性;(3)检索结果的准确性;(4)检索结果的综合性。它重点实现检索的智能化问题。至于用户检索的个性化问题,则可以由智能搜索引擎的另外一种形式――基于智能代理技术的信息检索来实现。


  5.基于智能代理的信息检索技术


  智能代理技术在搜索引擎中的应用,可以看成是搜索引擎发展的主要趋势和目标。基于智能代理信息检索(AgentAssistedSearch)技术是智能信息检索的一种高级形式,是信息智能化和个性化的一种结合。


  5.1.智能代理概述


  智能代理(Agent)是人工智能研究的新成果,一般认为:Agent是一个具有自主性、社会能力、反应性和能动性等性质的基于硬件或(更经常的)基于软件的计算机系统(实体)。智能代理应用于信息检索领域之中,成为开发智能化、个性化信息检索的重要和主流的技术之一。


  智能代理具有以下特点[7]:①智能性,②代理性,③移动性,④主动性,⑤协作性,每一个特点都与智能化、个性化的信息检索的要求不谋而合。


  5.2.基于智能代理技术的搜索引擎


  智能代理技术在信息检索中主要可以完成以下功能:①代理,②导航,③解惑,④过滤,⑤发现,⑥整理,⑦推送(报告)。具体来说:


  (1)智能代理可以在任何时候,任何机器上,代理或引导用户检索信息。


  (2)智能代理进行机器学习,并且具有从经验中不断学习的能力,适当地进行自我调节,提高处理问题能力。


  (3)可以根据用户的行为,了解掌握用户的兴趣、专业领域等,借助于自身丰富的知识和推理能力,揣测用户的意图。也可对用户的检索需求进行分析,处理复杂的难度高的检索任务。


  (4)理解用户用自然语言表达的对信息资源的需求,在一定程度上消除用户在输入信息检索关键字上的多义和歧义,缩小并较为精确地接近用户的检索需求内容。


  (5)智能Agent可在无法事先建模的、动态变化的信息环境中,独立规划复杂的信息检索步骤,解决信息检索问题。它可被看成是代表用户驻网络的常设机构,在用户不参与或不在线的情况下,独立地、及时地、有针对地发现和索取符合用户需求资源。


  (6)在网络计算环境下,它可以在网络上灵活机动地访问各种资源和服务,还可以为完成特定任务同其他智能Agent进行协商和合作,甚至把自己“迁移”到网络中的其他主机上去执行任务。


  (7)它可以把其检索来的资源包装起来,并可进行聚类,产生个性化模式,同时存入该用户的个性化模式库中,引导或代替用户对这些资源进行访问,成为便于通达这些资源的枢纽和中介。或者可及时地、直接地通过某种方式,把检索的信息推送(报告)给用户或提醒用户查收信息。推送的形式可采用频道式推送、邮件式推送、网页式推送或专用式推送。


  5.3.基于智能代理技术的实现模式[8]


  (1)服务器端智能代理检索的模型(如图2)


  (2)客户端智能代理检索的模型(如图3)


  搜索引擎技术与智能代理技术在网络信息检索上结合的发展潜力是巨大的,但要真正实现优势结合,还有待在机器学习、相关度分析、信息推送等方面进行逐渐的研究和改进。


  三、结束语


  信息检索已成为仅次于电子邮件的互连网络第二大服务,通过新技术的不断引用,信息检索技术获得了长足地发展。促使了目前信息检索服务中的“信息过载”和“资源迷向”的根本转变;使信息检索的问题从“机械式”、“孤立的”关键词匹配、缺乏知识处理能力和理解能力的层面上,提高到基于知识(或概念)和自然语言的智能层面;从而实现了由搜索信息向检索知识的转变。并在扩大信息检索范围、提高检索的结果的精确度、提高信息检索的专业化、智能化、个性化、人性化,乃至整个信息检索的服务上都有了实质性的转变和提高。


  


核心期刊推荐