基于语义技术的搜索引擎平台搭建的可行性研究论文

2021-04-13 论文

　　摘要：首先分析了目前主流搜索引擎存在的问题，然后对国内外将语义技术应用到搜索引擎中的现状进行了分析，最后具体分析了将语义技术应用到存储技术、检索技术、数据库技术和分词算法的可行性。

　　关键词：语义技术，搜索引擎，语义搜索引擎，搜索引擎技术

　　随着Internet的飞速发展，各种各样的信息资源在网络上发布，用户通过什么样的技术策略或者手段才能在这个信息的海洋中找到自己需要的信息成为专家学者研究的对象，于是基于分类目录和基于关键词技术的搜索工具应运而生，它们的出现给用户使用网络信息资源带来了很大的方便。但是由于计算机技术和知识的普及，致使网络信息资源爆炸式的增加，目前的检索工具出现了不能满足人们需要的情形。针对Internet暴露出来的缺陷，1998年，Web的创始人TimBerners-Lee首次提出了“语义Web”（SemanticWeb）的概念及其技术路线，阐述了语义Web的基本思想，语义Web的目标是使得Web上的信息具有计算机可以理解的语义，满足智能软件代理（Agent）对www上异构和分布信息的有效访问和检索[1]。语义技术的核心就是：为万维网上发布的信息进行语义的标注，使机器可以理解这些数据的含义，最后实现智能推理和信息自动化的处理。因此关于将语义技术和搜索引擎技术相结合的智能化搜索引擎的研究已经迫在眉睫。

　　1目前搜索引擎存在的问题

　　随着社会经济和计算机技术的发展，社会上的信息量剧增，为方便信息交流和获取，随之产生了搜索引擎，无论是目录式搜索，还是关键词搜索，都给用户使用网络来获取信息提供了巨大的方便，使得网络在人们的生活中显得越来越重要，网络信息也随之剧增。近几年，专家和企业都在研究搜索技术与搜索的策略，并且取得了很大的进步，但是这种进步在网络信息量的剧增面前显得很微小，这时，一些搜索引擎的弊端就逐渐地显现出来。

　　从目前用户的使用角度来看，搜索引擎有以下几点不足：

　　1）随着网络技术的发展，一些网站建设的新技术应运而生，一些新的网站应用技术也在网络上流行，Flash导航，视频资源播放等新型技术的产生，直接对传统的搜索引擎带来挑战。

　　2）网络上页面资源的更新速度大大加快，现在几乎每个公司都有自己的网站，并且几乎每天都有新的信息更新。同时，一些新型网络社区的建设，给很多用户提供了创建个人主页的机会，信息量增加的速度变快，大量的信息给搜索引擎的Crawler系统带来新的挑战。

　　3）网络信息的异构性更加突出。由于网络技术的发展，可以发布网络信息的用户群发生了变化，以前都是以单位为主要的群体，转变成以个人为目标用户群的。这样发布的信息从格式上更加难以控制，并且结构类型也有不小的变化，从而增加了信息的异构性，这样对搜索引擎的标引技术提出了新的要求。

　　4）动态生成技术，数据库技术的广泛应用，使网络上的很大一部分网站从静态转换成了动态。好多网站信息是由数据库代码自动生成了，这样对网络资源的真正URL以及资源的数据不好确认，给搜索程序带来不小的困难。

　　5）由于信息量巨大以及部分网络信息描述的不准确，给检索带来不小的误差，这样用户输入关键词以后，搜索引擎检索出来的数据量很庞大，一些用户真正需要的数据不一定能够排在显示的前端，而用户也不会一一的耐心看下去，这样产生的检索噪音给用户的使用带来很大的影响。

　　2基于语义技术的搜索引擎平台研究现状

　　2.1国外相关研究

　　相关理论主要有，NEC美国研究所的SteveLawrenee和C.LeeGiles从1998年和l999年起连续在《自然》和《科学》杂志上撰文对搜索引擎技术的研究进行评述。著名的信息检索会议TREC也从1998年开始增加了WebTrack课题，以考察Web文档与其他类型文档在检索性质上的不同之处，并将测试在大规模的Web库（如100G字节）上进行信息检索的算法性能[2]。由美国Information公司主办的搜索引擎国际会议从l996年开始每年举行一次，对搜索引擎技术进行总结、讨论和展望，对搜索引擎技术起到了很好的推动作用。此外还有EIEE主办的国际万维网会议、人机交互会议等。然后就是在Berners-Lee提出了语义网的设想，相关专家和学者开始将语义网思想运用到搜索引擎中，提高和优化Boulos，MagedN.Kamel[3]的“AFirstLookatHealthCyberMapMedicalSemanticSubjectSearchEngine”，D-LibMagazine[4]的“ALVIS-SuperpeerSemanticSearchEngine”，2005年Schenkel，Ralf；Theobald，Anja；Weikum，Gerhard[5]的“SemanticSimilaritySearchonSemistructuredDatawiththeXXLSearchEngine”，2007年YufeiLi；YuanWang；XiaotaoHuang[6]的“A”等关于语义搜索的文章。

　　相关技术主要有：l990年蒙特利尔的McGill大学学生AlanEmtage、PeterDeutsch、BillWheelan开发了一个自动索引因特网上的匿名FTP网站文件的程序，它就是Archie（ArchieFAQ），搜索引擎的首例。然后到目录式搜索引擎雅虎，关键字搜索引擎Google。现在国外已经在Mozilla浏览器的pre-Nglyauot版本和Netscpae浏览器的.407或.45+版本大量采用RDF技术，实现了智能浏览，帮助浏览网页的用户提供其他与其浏览内容有关的信息。美国FourthoughtInc公司是专为企业知识管理应用提供XML解决方案的软件供应商和咨询公司，开发了4Suite，它是XML、RDF和知识管理应用的一个开放源码平台，并在其知识管理解决方案中，实现从XML数据抽取RDF数据、并在RDF基础上提出一种简洁的语义搜索功能[7]。斯坦福大学、微软和W3C共同开发的TAP也是基于SemanticWeb的语义搜索引擎。

　　2.2国内相关研究

　　在技术方面，国内先后有清华大学、北京大学、国家智能研究中心等高校和研究机构对搜索引擎技术开展研究，并开发出了几个较好的系统。如由北京大学计算机系网络研究室开发的“天网”中英文搜索引擎，在系统规模及系统性能方面达到了国外中型搜索引擎系统的技术水平。Google作为第二代智能全文式搜索工具，可以对网页的'全文进行检索。百度是目前最大的中文搜索引擎，使用超链接分析技术，除了分析索引网页本身的内容，还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。我国从2002年起在863计划中把语义Web技术与Ontology，列为“十五”期间计算机技术的重大课题之一。国家自然科学基金项目《基于本体论和语义Web的产品信息基础结构》，以本体论为指导，以XML形式化描述基于知识的产品信息模型数据，在语义Web上建立产品信息基础结构[8]。宋峻峰[9]提出的基于本体的信息检索模型采用描述逻辑构造本体，利用本体对文档进行了语义标注，生成文档的逻辑视图和用户信息需求的逻辑视图，实现了检索过程中真正的语义匹配，是真正的语义检索。郭少友教授提出和设计的“以文档为中心的上下文检索研究”也属于语义检索的范畴。

　　3语义技术应用到搜索引擎的可行性分析

　　3.1语义技术与信息存储技术的结合

　　目前，RDF数据的存储基本上有两种方案，XML/RDF文件的形式存储是一种可行的方式，但是考虑到对于大量的事实数据，考虑到可扩展性，查询方式，效率等诸多的因素，以RDF数据库或者关系数据库来存储RDF事实数据库是一种比较好的选择。

　　3.2语义技术与检索技术的结合

　　通过对用户查询关键词的语义匹配和语义相关性扩展，最后形成符合特定知识本体语言的查询语句实现语义检索，例如：

　　SELECT？a，SELECT（http：//127.0.0.2/Milan#动物，松鼠）

　　但是这样的形式比较复杂，因此可以在语义检索中设计一个Agent，用来分析用户输入的关键词，查询Agent接收用户输入的关键词，并将它传递给匹配Agent，根据知识本体和语

　　义词典对这些关键词进行比较分析，并构造出适合该检索的新的检索式或者查询语句，并且将该检索式返回，这个过程实现语义匹配过程。但是有的时候为了进一步获得更多的信息，还需要根据知识本体或者语义词典对输入的查询语句进行相关的推理，推理的过程有很高的智能化，例如在检索的过程中，发现没有松鼠这个关键字，但是松鼠是喜欢吃松子的，所以当检索到松子的时候，这个页面有可能也是关于“松鼠”这个关键词的相关页面，同时推理机制也会根据情况构造出新的检索式：

　　SELECT？a，WHERE（http：//127.0.0.2/Milan#坚果，松子）

　　3.3语义技术在数据库搭建中的应用

　　我们知道数据库构建的过程中是有很多表或者集合组成，传统的描述仅仅是描述其关键字字段或者其属性值，利用相似度算法进行机械的匹配查询，满足一定的相似度就对该条记录做读取、删除等操作。

　　王珊教授等研究了基于本体的关系数据库语义检索，分析和研究单个关系数据库上基于本体的语义检索问题，其中指出，关系数据库主要有两部分组成，一部分是元数据（Meta-data）也称为模式（Schema）如数据类型名，表的属性名，表名，主键及外键[10]。另外一部分是真正的数据，关键数据库的元数据描述了其存储数据之间的简单语义关系，由于关系模型描述能力的限制，并不能完全的描述数据库之问丰富的语义关系。关系数据库的查询语句使用的是结构化查询语句SQL进行的，这是一种精确的查询语句，查询条件是精确的，同时查询结果也是精确的，由于关系数据库仅仅只能表现数据库中有限的语义关系，所以其查询的语义性也是有限的，而本体则能进一步的描述关系数据库的语义。

　　随着本体跟语义网的技术的不断发展和应用，基于本体的关系数据库也逐渐成为研究的热点。关系数据库的语义可以分为两级语义，一级是元数据级别的语义，另外一级是数据级的语义，利用不同语义级别可以实现不同的语义检索。文献指出本体通过对数据库进行两种级别的语义描述，分别可以从元数据或者数据中抽取，识别出概念，然后对本体中已经存在的概念进行映射，或者根据本体的学习技术，构建出一个新的本体[10]。也可以直接使用已有的本体中的概念来描述元数据的数据，这两种方法都称为本体标注。本体标注也是关系数据库语义检索的基础技术。本体标注就是把本体和数据联系到一起，以便建立基于本体的语义索引[11]。

　　3.4元数据标引技术

　　利用元数据技术对网络信息资源进行标引，有利于信息资源的描述，同时也可以缩小网络信息资源的异构特点，根据元数据的标准对网络信息资源进行统一的标引，这样对信息的描述更详尽，同时也可以体现各个相关数据之间的语义特点。目前比较通用的是DC，利用DC的著录格式对网络信息资源进行著录与表示，其不但能详尽的描述信息资源的特点，同时也可以体现出描述各项之间的语义关系。因此将元数据引入到网络信息资源标引技术中，有利于改善网络搜索引擎。

　　3.5语义技术在分词算法中的应用

　　常用的分词算法主要有正向最大匹配法、逆向最大匹配法、专家系统分析法、高频优先法、全自动词典切词法、扩充转移网络分词法、神经网络等分词方法。但是以上所有的分词方法都会存在一定的错误率，所以我们要在分词算法中引入语义技术，以便提高分词的准确性。这种思维方式就是根据汉语的特点以及其自身的规律，可以考虑从汉语的构词规则如笔画来试图解决这样的问题，这是一种新的自动分词研究方向。另外再对数据或者信息资源进行处理和标引时，在使用受控语言和自然语言的同时，还可以运用其他的人工构造语言，像程序设计语言，逻辑语言，数学公式等。这几种人工语言跟自然语言一样，他们都有一套自己的完整的语法规则与相当数量的符号组成，我们可以根据他们的特点，对其组成规律进行总结，并且并入到语义字典中，并利用本体对其相互关系进行描述。

　　为了便于计算机对汉语进行自动分词处理，就需要对现在的分词语法方法做以下三方面的改造：一是要在待分词的汉语文本的词与词之间增加适当的间隔符，即设立分词标志，这样通过设立的分词标志，可以方便地对文本进行分词处理，大大提高效率；二是要对汉语的词语进行明确界定，即规定什么是“词”，这样主要可以解决两方面的问题，单字词与字元素之间的区别以及短语或者成语与词（词组）之间的区别；三是要制定完整的汉语书写规则。这些都是应该在汉语文本生成之前完成，并且从技术实现的条件来看是可行的，这样就省去了很大一部分精力对预处理文本进行分词[12]。

　　4结论

　　基于语义技术的搜索引擎平台的搭建是一门新兴的研究课题，它旨在解决如何让信息用户在海量的信息中，精准地找到自己需求的信息，在构建的过程中，可以将语义技术运用到信息的描述、信息的存储、信息的检索以及信息的输出过程中。国内外也有了一定的研究成果，并且也构建了一些语义技术的搜索引擎平台，但是大部分还是处于试验阶段，很多的关键技术难题还没有攻克。笔者认为，数字资源的语义描述，中文的分词技术，还有语义的检索方式和输出排序是目前需要进一步研究的重点。

　　参考文献：

　　[1]Berners-LeeT.SemanticWebRoadMap[EB/OL].[2010-10-23].http：//www.w3.org/designissuee/semantic.

　　[2]Mikeusehold，Michalgruninger.TheWebSearchEngineReview[J].IGCA199，1999，93-96.

　　[3]Boulos，MagedN，Kamel.AFirstLookatHealthCyberMapMedicalSemanticSubjectSearchEngine[J].Technology&HealthCare，2004（11）：33-41.

　　[4]ALVIS.SuperpeerSemanticSearchEngine[J].PreviewD-LibMagazine，20O4（6）：10-12.

　　[5]SchenkelRalf，TheobaldAnja，WeikumGerhard.SemanticSimilaritySearchonSemistructuredDatawiththeXXLSearchEngine[J].InformationRetrieval，2005（12）：521-545.

　　[6]YufeiLi，YuanWang，XiaotaoHuang.ARelation-BasedSearchEngineinSemanticWeb[J].IEEETransactionsonKnowledge&DataEngineering，2007（2）：273-281.

　　[7]黄大鹏.基于语义Web的搜索引擎研究[D].西安：西安理工大学，2004.

　　[8]杨秋芬，陈跃新.ontology方法学综述[J].计算机应用研究，2002（4）：24-25.

　　[9]宋俊峰，张维明，肖卫东，唐九阳.基于本体的信息检索模型研究[J].南京大学学报（自然科学），2005，41（2）：189-197.

　　[10]王珊，张俊，彭朝辉等.基于本体的关系数据库语义检索[J].计算机科学与检索，2007（1）：59-77.

【基于语义技术的搜索引擎平台搭建的可行性研究论文】相关文章：

基于语义识别分析论文04-27

搭建实践平台,培养综合能力论文02-17

基于Android平台软件开发技术研究论文11-07

教学中如何搭建情感体验的平台教育论文01-01

重视知识强化技能搭建学生就业平台论文01-04

基于Android平台的纹理映射分析与实现论文04-27

基于lucene的垂直搜索引擎的研究与设计论文11-02

简析基于web 的虚拟实验平台的设计论文11-17

关于邯钢基于WEB的客户服务平台设计论文11-17