摘 要:随着互联网技术的不断发展,通用搜索引擎就需要采集的更多的信息和内容,但是面对巨大的搜索结果,用户要想准确找到他们所需要的信息,这样将会耗费很大的精力。因此,需要以数据的特定领域为重点,全面进行深入的研究,注重专业化的垂直搜索引擎就产生了,它能够准确、及时返回用户需要的信息。本文主要分析垂直搜索引擎的特点和结构,并分析了基于Lucene的垂直引擎的研究和设计,对提高互联网信息的搜索速度具效率具有重要的意义。
随着互联网的飞速发展,互联网信息迅猛增长,人们已经习惯从互联网上获取他们所需的信息。然而,一些通用搜索引擎无法及时准确地反馈给人们需要的信息,不能够做到有针对性的搜索一些信息,无法满足人们的基本需求。在进行搜索的过程中,想搜索一件物品,系统将会提供给你很多的搜索结果。但是,这些搜索引擎返回结果中有大量排在前面的信息可能不是我们需要的,这样就会让人感觉郁闷,得不到自己想要的信息。而且,60%的搜索引擎没有机会收录一些有价值的的信息,需要用户进行注册才能够得到一些更有价值的信息。基于lucene的垂直搜索引擎,能够及时、准确给用户反馈出他们需要的信息。
1 垂直搜索引擎的概述
垂直搜索引擎能够在一些专业领域得到广泛的应用,为用户提供更加便捷的搜索服务。垂直搜索引擎能够在某一特定领域内启动一些网络爬虫,在进行网页下载的时候,能够找到和本地网页库中相关的信息,然后对这些信息进行处理,将一些数据转化为结构化数据,最后反馈给用户的搜索入口。垂直搜索能够有针对性进行搜索,能够根据用户的具体要求进行搜索和检测,为他们提供具有非常鲜明特色的搜索服务,这种搜索引擎一个非常突出的特点就是深入、详细。由于通用搜索引擎搜索的范围十分广泛,因此,它不能满足细致的搜索工作,不能够将准确的信息反馈给需要的特定人群[2]。根据市场需求的多样化,搜索引擎必须进行细分,给人们提供准确的搜索服务。
2 垂直搜索引擎的特点和框架结构设计
2.1 垂直搜索的特点 垂直搜索引擎能够有针对性进行搜索,能够准确提供给人们需要的信息。通用的搜索引擎更加注重数据分离和关键词搜索,垂直搜索更多注重文本的分离,对数据信息进行处理,使得数据能够满足人们的`需求,通用的搜索引擎就不需要考虑数据结构。由于相关信息垂直搜索引擎只需要捕捉到一些某个特定的行业,这样的信息采集方式的使用只需要爬虫找题相关信息,垂直搜索引擎具有以下特点。一是垂直搜索引擎的爬虫具有定制性,能够深入抓取特定行业的一些信息。二是垂直搜索引擎是针对行业的特点来进行抓取信息的,以网站的数据为例,各种人才网数据源的来源于求职的网站,从股票网站中搜索到相关的信息。三是垂直搜索引擎更倾向于抓住一些结构化数据和元数据,例如,在寻找一所房子的过程中,其能够捕捉到相关的地理位置、价格、小区环境、房地产价格等一些系统的信息[3]。
2.2 垂直搜索引擎的框架设计 垂直搜索引擎的建设需要做好以下几个方面的工作。一是网站分析。抓捕器需要设置所需的网站信息,并且还要结合特定的行业模板进行抓捕工作。二是站点初始化分析。一些网站需要用户登录以后才能够获得详细信息,因此,有必要在垂直搜索引擎中,设置这个注册和登录过程,这样才能够完善详细的信息。三是页面爬虫。网络爬虫主要负责抓取一些web数据。四是数据分析。分析有用的链接和数据,并且利用爬虫来提取这些新的数据。五是建立索引。将爬虫抓取到的信息进行整理和分析,将这些信息进行选择并存储在数据库中当中,并结合数据库来建立索引,以便能够快速获取信息。六是搜索查询。设计一个个性化的应用程序,或融合一些其他网站,能够搜索到其他网站的一些信息。
3 基于Lucene的垂直引擎的设计
3.1 lucene全文搜索框架 Lucene是一个子项目,能够有效利用开放源代码来对全文的搜索,它能够给开发人员提供了大量的外部接口,这是一个易于使用的工具。在垂直搜索引擎的部件当中,建立基于Lucene的索引和查询,用户只需要按照该方法来进行操作,就能够实现对全文进行检索。因为Lucene是开源的,具有面向全体对象的特点,程序员还能够在此基础
【基于lucene的垂直搜索引擎的研究与设计论文】相关文章:
垂直绿化的设计研究论文11-04
垂直搜索引擎核心技术研究及展望论文11-07
基于手持设备的智能球研究与设计论文11-02
关于搜索引擎的研究论文11-04
基于寒冷地区公共空间设计方法研究论文11-01
基于环境科学优化城市公园的设计研究论文04-14