搜索引擎的分类(2)
2023-03-16 来源:你乐谷
自动方式通常是由网络机器人来完成的。“网络机器人” 是一种自动运行的软件,其功能是搜索网上的网站和网页。这种软件定期在网上漫游,通过网页间的链接按顺序地搜索新的地址,当遇到新的网页时,就给该网页上的某些字或全部字做上索引,并把它们加人搜索引擎的数据库中,由此搜索引擎的数据库得以定期更新。
一般来说, 人工方式收集信息的准确性要远优于“网络机器人” ,但其收集信息的效率及全面性低于“网络机器人”。
2.3.2信息预处理技术
信息预处理包括信息格式支持与转换及信息过滤。目前网上的信息发布格式多种多样,这就要求搜索引擎支持多种文件格式。从实际情况来看,所有的搜索引擎都支持HTML格式,而对于其他文件格式的支持,不同的搜索引|擎有不同的规定,最多的能支持200.多种文件格式。
一般来说,一个企业级的公用Web站点起码应该支持40~60种文件格式。搜索引擎应具备信息转换功能,以保证不同格式的数据均能在网络上流通。信息过滤也是搜索引擎的一项重要技术,因为网上存在大量的无用信息,一个好的搜索引擎应当尽量减少垃圾站点的数量,这是信息过滤要着重解决的问题。
2.3.3信息索引技术
信息索引就是创建文档信息的特征记录,以便用户能够快速地检索到所需信息。建立信息索引主要涉及以下几个问题。
(1) 信息语词切分和语词词法分析。语词是信息表达的最小单位,由于语词切分中存在切分歧义,切分需要充分利用各种上下文知识。语词词法分析是指识别出各个语词的词干,以便根据词干建立信息索引。
(2) 进行词性标注及相关的自然语言处理。词性标注是指利用基于规则和统计(马尔科夫链)的科学方法对语词进行标注,基于马尔科夫链随机过程的n元语法统计分析方法在词性标注中能达到较高的精度。可利用多种语法规则识别出重要的短语结构。自然语言处理是运用计算机对自然语言进行分析和理解,从而使计算机在某种程度上具有人的语言能力。将自然语言处理应用在信息检索中,可以提高信息检索的精度和相关性。
(3)建立检索项索引。使用倒排文件的方式建立检索项索引,一般包括“检索项”“检索项所在的文件位置信息”及“检索项权重”
(4)检索结果处理技术。搜索引擎的检索结果通常包含大量文件,用户不可能一一浏览。搜索引擎一般应按与查询的相关程度对检索结果进行排列,最相关的文件通常放在最前面。搜索引擎确定相关性的方法有概率方法、位置方法、摘要方法、分类或聚类方法等。
●概率方法。根据关键词在文中出现的频率来判定文件的相关性。这种方法对关键词出现的次数进行统计,关键词出现的次数越多,该文件与查询的相关程度就越高。
●位置方法。根据关键词在文中出现的位置来判定文件的相关性。关键词在文件中出现的越早,文件的相关程度就越高。
●摘要方法。搜索引擎自动地为每个文件生成一份摘要,让用户自己判断结果的相关性,以便用户进行选择。
●分类或聚类方法。 搜索引擎采用分类或聚类技术,自动把查询结果归入不同的类别中。
一般来说, 人工方式收集信息的准确性要远优于“网络机器人” ,但其收集信息的效率及全面性低于“网络机器人”。
2.3.2信息预处理技术
信息预处理包括信息格式支持与转换及信息过滤。目前网上的信息发布格式多种多样,这就要求搜索引擎支持多种文件格式。从实际情况来看,所有的搜索引擎都支持HTML格式,而对于其他文件格式的支持,不同的搜索引|擎有不同的规定,最多的能支持200.多种文件格式。
一般来说,一个企业级的公用Web站点起码应该支持40~60种文件格式。搜索引擎应具备信息转换功能,以保证不同格式的数据均能在网络上流通。信息过滤也是搜索引擎的一项重要技术,因为网上存在大量的无用信息,一个好的搜索引擎应当尽量减少垃圾站点的数量,这是信息过滤要着重解决的问题。
2.3.3信息索引技术
信息索引就是创建文档信息的特征记录,以便用户能够快速地检索到所需信息。建立信息索引主要涉及以下几个问题。
(1) 信息语词切分和语词词法分析。语词是信息表达的最小单位,由于语词切分中存在切分歧义,切分需要充分利用各种上下文知识。语词词法分析是指识别出各个语词的词干,以便根据词干建立信息索引。
(2) 进行词性标注及相关的自然语言处理。词性标注是指利用基于规则和统计(马尔科夫链)的科学方法对语词进行标注,基于马尔科夫链随机过程的n元语法统计分析方法在词性标注中能达到较高的精度。可利用多种语法规则识别出重要的短语结构。自然语言处理是运用计算机对自然语言进行分析和理解,从而使计算机在某种程度上具有人的语言能力。将自然语言处理应用在信息检索中,可以提高信息检索的精度和相关性。
(3)建立检索项索引。使用倒排文件的方式建立检索项索引,一般包括“检索项”“检索项所在的文件位置信息”及“检索项权重”
(4)检索结果处理技术。搜索引擎的检索结果通常包含大量文件,用户不可能一一浏览。搜索引擎一般应按与查询的相关程度对检索结果进行排列,最相关的文件通常放在最前面。搜索引擎确定相关性的方法有概率方法、位置方法、摘要方法、分类或聚类方法等。
●概率方法。根据关键词在文中出现的频率来判定文件的相关性。这种方法对关键词出现的次数进行统计,关键词出现的次数越多,该文件与查询的相关程度就越高。
●位置方法。根据关键词在文中出现的位置来判定文件的相关性。关键词在文件中出现的越早,文件的相关程度就越高。
●摘要方法。搜索引擎自动地为每个文件生成一份摘要,让用户自己判断结果的相关性,以便用户进行选择。
●分类或聚类方法。 搜索引擎采用分类或聚类技术,自动把查询结果归入不同的类别中。