阿拉丁计画


阿拉丁计画

文章插图
阿拉丁计画【阿拉丁计画】阿拉丁计画是新一代搜寻引擎 。阿拉丁是搜寻引擎公司百度推出的一个通用开放平台,它将接口开放给独特信息数据的拥有者,从而解决现有搜寻引擎无法抓取和检索的暗网信息 。
基本介绍中文名:阿拉丁计画
概述 :阿拉丁计画是新一
阿拉丁计画:用阿拉丁计画命名,寓含着
为什幺推出:能被搜寻引擎检索到的信
定义用阿拉丁计画命名,寓含着百度的这个平台可以像神灯那样帮助用户实现最便捷地获取信息的愿望 。意义能被搜寻引擎检索到的信息只占所有信息中非常小的一部分,大部分信息存没有被任何搜寻引擎编列索引,以至于无法通过搜寻引擎找到他们 。这些未被收录的信息即在“暗网”之中 。要明白为什幺推出百度百度阿拉丁计画?先来简单了解下“暗网”的分类 。1、由于技术的原因,很多网站本身不规範、或者说网际网路本身缺少统一规则,导致了搜寻引擎的爬虫无法识别这些网站内容并抓取,这不是搜寻引擎自身就能解决的问题,而是有赖整个网路结构的规範化 。2、很多网站因多种原因根本就不愿意被搜寻引擎抓取,robots禁止了搜寻引擎的抓取 。第二种暂且不做研究,因如果搜寻引擎去抓取那些信息就属于违法了 。“暗网”包含100亿个不重複的表单,其包含的信息量是“非暗网”的40倍,有效高质内容总量至少是后者的1000倍到2000倍 。如何能将这些允许被搜寻却因网站不规範原因而未被搜寻的网站的有用信息呈现给大家呢?百度“阿拉丁计画”就是要从根本解决这一问题的 。正是认识到“暗网”信息的存在和巨大价值,百度开始着手启动“阿拉丁平台”研发计画,期望能挖掘出更多存在于“暗网”之中的有价值信息,将更多的已知和未知信息分门别类融合,有序纳入搜寻体系 。含义阿拉丁计画旨在超越现有Web内容的限制,对包括众多未纳入搜寻引擎检索体系的“暗网”在内的所有信息进行更深一步的分析、融合、处理,以使这些信息能最富有效率地被用户通过搜寻引擎进行检索,从而逐步实现“只在一个最为简单的搜寻框里面,蕴藏了全人类最为丰富多彩的信息世界!大大增加对用户有用信息的可读性 。即所谓照亮“暗海” 。