什么搜索引擎好用 什么是搜索引擎( 六 )


【什么搜索引擎好用什么是搜索引擎】名词解释:什么是搜索引擎?
搜索引擎(英文: )是一个信息检索系统,旨在帮助搜索存储在计算机系统中的信息 。搜索结果通常被称为“命中”,并且通常以表格形式列出 。*** 搜索引擎是最常见和公共的搜索引擎,其功能是搜索存储在万维网上的信息 。
搜索引擎为一组项目提供了一个界面,使用户能够指定感兴趣的项目的标准,并使引擎能够找到匹配的项目 。这些标准称为搜索查询 。在文本搜索引擎的情况下,搜索查询通常被表达为标识一个或多个文档可能包含的期望概念的一组单词 。
有许多不同严格程度的搜索查询语法 。还可以在以前网站的搜索引擎里搜索名字 。虽然一些文本搜索引擎要求用户输入两到三个单词,用白色空网格隔开,但其他搜索引擎允许用户指定整个文档、图片、声音和各种形式的自然语言 。
一些搜索引擎通过称为查询扩展的过程来改进搜索查询,以增加提供高质量的可能性 。查询理解* * *可以用来规范查询语言 。
扩展数据:
一个完整的搜索引擎需要由五部分组成:抓取和收集网页、建立索引、分析查询词、搜索和排序、推荐系统 。
1.网页抓取和收集 。
*** 爬虫技术是 *** 爬行的核心技术,通过编写一定的程序或脚本来抓取互联网上的信息 。网页被抓取后,我们要建立一个相应的数据库来存储我们抓取的网页信息 。
而网上的信息是多余的,主要是各大网站也在后台抓取,也是用爬虫来检测一些热点内容或者文章,然后抓取它们的信息,重新组织格式,但其实网页的内容都差不多 。
因此,在收集爬虫抓取的网页信息之前,我们还应该增加一个关键环节——网页拷贝,以保证网页在我们数据库中的唯一性 。
建立索引
抓取网页信息后,需要对网页信息进行分析,提取网页的主题内容和类别信息 。涉及的主要技术有文本识别和文本分类 。
一个网页经过解析后的输出往往是一些结构化的信息(每个网页的信息完整性不一样,数据需要统一结构化) 。一般结构化信息包括URL、编码、标题、作者、生成时间、类别信息、摘要等 。
在获得网页的结构信息后,需要建立相应的索引 。为了加快对用户查询的响应速度,采用了一种称为“倒排索引”的高效查询数据结构来保存网页的内容,以及网页之间的链接关系 。
之所以要保存链接关系,是因为它可以用在Web F的相关度排名阶段,通过“链接分析”判断页面的相对重要性,对于为用户提供精准的搜索结果非常有帮助 。
由于互联网上网页信息量巨大,搜索引擎的建设离不开大数据处理平台和云计算技术 。目前常用的大数据处理平台是生态架构 。
3.查询词分析 。
查询词分析就是查询分析或者查询聚类 。当搜索引擎接收到用户的查询时,首先需要对查询进行分析,希望结合查询和用户信息来正确推断用户的真实搜索意图 。
比如用户输入查询词“养水仙花”,那么除了基本的内容匹配,搜索引擎还需要了解用户 。其实用户的查询词也可以理解为“养水仙花”“好好养水仙花”等类似的查询词 。
之后,先在缓存中搜索 。搜索引擎的缓存系统存储对应于不同查询意图的搜索结果 。如果能在缓存系统中找到符合用户需求的信息,就可以直接将搜索结果返回给用户,既节省了重复计算的资源消耗,又加快了响应速度 。
4.搜索排序
搜索引擎对用户的查询词进行分析后,如果缓存的信息不能满足用户的查询要求,就需要根据索引查询数据库的网页内容,根据网页内容和用户的要求对网页进行排序 。