小丸工具箱官方网站
从数据量上,正常可见网络占到整个网络小丸工具箱无法找到指定模块的4%,而暗网的内容占整个网络的96%,大约有7.9ZB(1ZB=1亿TB),当然这是当时的数据,到今天肯定还在增长,而且也难以有个准确的统计。
从数据量上,正常可见网络占到整个网络的4%,而暗网的内容占整个网络的96%,大约有7.9ZB(1ZB=1亿TB),当然这是当时的数据,到今天肯定还在增长,而且也难以有个准确的统计。
一、暗网的定义
互联网上的搜索服务就像在地球的海洋表面的拉起一个大网的搜索,大量的表面信息(Surface Web)固然可以通过这种方式被查找得到,可是还有相当大量的信息由于隐藏在深处而被搜索引擎错失掉。传统的搜索引擎“看”不到,也获取不了这些存在于暗网的内容。简而言之:搜索引擎无法抓取到的部分组成暗网所以,对于公众来说暗网就是隐形了。
暗网(不可见网,隐藏网)是指那些存储在网络数据库里、但不能通过超链接访问而需要通过动态网页技术访问的资源集合,不属于那些可以被标准搜索引擎索引的表面网络。
暗网是深网(Deep Web)的一个子集,属于深网的一小部分。据估计,暗网比表面网站大几个数量级。
迈克尔·伯格曼将当今互联网上的搜索服务比喻为像在地球的海洋表面的拉起一个大网的搜索,大量的表面信息固然可以通过这种方式被查找得到,可是还有相当大量的信息由于隐藏在深处而被搜索引擎错失掉。绝大部分这些隐藏的信息是须通过动态请求产生的网页信息,而标准的搜索引擎却无法对其进行查找。传统的搜索引擎“看”不到,也获取不了这些存在于暗网的内容,除非通过特定的搜查这些页面才会动态产生。于是相对的,暗网就隐藏了起来。
二、来源和现状
Hidden Web最初由Dr.Jill Ellsworth于1994年提出,指那些没有被任何搜索引擎索引注册的网站:
“这些网站可能已经被合理地设计出来了,但是他们却没有被任何搜索引擎编列索引,以至于事实上没有人能找到他们。我可以这样对这些不可见的网站说,小丸工具箱无法找到指定模块你们是隐藏了的。”
展开全文
另外早期使用“不可见网络”这一术语,是一家叫做“个人图书馆软件”公司的布鲁斯·芒特(产品开发总监)和马修·B·科尔(首席执行官和创建人)发明的。当他们公司在1996年12月推出和发行的一款软件时,他们对暗网工具的有过这样的一番描述:
不可见网络这一术语其实并不准确,它描述的只是那些在暗网中,可被搜索的数据库不被标准搜索引擎索引和查询的内容,而对于知道如何进入访问这些内容的人来说,它们又是相当可见的。
第一次使用暗网这一特定术语,是2001年伯格曼的研究当中。
从信息量来讲,与能够索引的数据相比,“暗网”更是要庞大得多。根据Bright Planet公司此前发布的一个名为《The Deep Web-Surfacing The Hidden Value》(深层次网络,隐藏的价值)白皮书中提供的数据,“暗网”包含100亿个不重复的表单,其包含的信息量是“非暗网”的40倍,有效高质内容总量至少是后者的1000倍到2000倍。更让人无所适从的是,Bright Planet发现,无数网站越来越像孤立的系统,似乎没有打算与别的网站共享信息,如此一来,“暗网”已经成为互联网新信息增长的最大来源,也就是说,互联网正在变得“越来越暗”。
当然,所谓“暗网”,并不是真正的“不可见”,对于知道如何访问这些内容的人来说,它们无疑是可见的。2001年,Christ Sherman、GaryPrice对Hidden Web定义为:虽然通过互联网可以获取,但普通搜索引擎由于受技术限制而不能或不作索引的那些文本页、文件或其它通常是高质量、权威的信息。根据对HiddenWeb的调查文献得到了如下有意义的发现:
1、Hidden Web大约有307,000个站点,450,000个后台数据库和1,258,000个查询接口。它仍在迅速增长,从2000年到2004年,它增长了3~7倍。
2、Hidden Web内容分布于多种不同的主题领域,电子商务是主要的驱动力量,但非商业领域相对占更大比重。
3、当今的爬虫并非完全爬行不到Hidden Web后台数据库内,一些主要的搜索引擎已经覆盖Hidden Web大约三分之一的内容。然而,在覆盖率上当前搜索引擎存在技术上的本质缺陷。
4、Hidden Web中的后台数据库大多是结构化的,其中结构化的是非结构化的3.4倍之多。
5、虽然一些Hidden Web目录服务已经开始索引Web数据库,但是它们的覆盖率比较小,仅为0.2%~15.6%。
6、Web数据库往往位于站点浅层,多达94%的Web数据库可以在站点前3层发现。
三、暗网之父可是有“军”字背景的
1996年5月,美国海军研究实验所提出打造一个[隐藏路径信息]的系统,使用者在连接因特网时不会向服务器泄露身份。访问暗网必须要使用TOR(洋葱路由),因为保护数据的口令像洋葱一样层层迭迭。
2003年10月,这一想法开始正式实施,为使用者提供免费的匿名网上场所。由于保护数据的密码就像洋葱一样层层包裹,这个系统最终被称为Tor(The Onion Router)。直到2011年,其60%资金仍来自美国政府。刚开始,它也的确为持不同政见者提供了庇护,但让美国政府尴尬的是,这个系统很快就开始堕落,成为了犯罪分子的天堂。2006年初,一个名叫“农贸市场”的网站开始出售大麻和克他命;臭名昭著的“丝绸之路”网站也是于2011年发源于Tor,用户可以在这里购买毒品、枪支和各种其他非法物品,最终由美国FBI亲自出面,花了一年多时间才剿灭。
然而,并不是所有的暗网都能被轻松解决掉。由于设计之初,就已经以不让任何软件检测到浏览痕迹和IP地址为目的,这个由美国政府亲自养大的网站,甚至强大到连设计者都无法销毁。2012年,“棱镜”项目揭秘者斯诺登除了揭露美国中情局监听全球的计划外,还泄露了一份美国国土安全部对于Tor的无奈,题目是《Tor糟透了》。文件讲述了国土安全部在摧毁Tor过程中遭遇的种种困难,并很悲观地表示:“我们将永远无法破解所有Tor用户的真实身份。”
就像普通的现金在现实生活中的作用一样,比特币在互联网上可以用于任何交易,而且可以全世界流通和提现,一些网站甚至能接受比特币兑换美元、欧元等服务。更重要的是,它允许匿名,没有人能追查使用者在购买非法物品时的交易记录,所以比特币的发明使得暗网如虎添翼。
四、暗网的分类
它分为两种:
一种是技术的原因,很多网站本身不规范、或者说互联网本身缺少统一规则,导致了搜索引擎的爬虫无法识别这些网站内容并抓取,这不是搜索引擎自身就能解决的问题,而是有赖整个网络结构的规范化,百度的“阿拉丁计划”、谷歌的“云计算”就是要从根本解决这一问题。
另一个原因则是很多网站根本就不愿意被搜索引擎抓取,比如考虑到版权保护内容、个人隐私内容等等,这更不是搜索引擎能解决的问题了。如果他们能被搜索引擎抓取到,就属于违法了。
数据显示,能够搜索到的数据仅占全部信息量的千分之二。而对暗网的发掘能扩大搜索数据库,使人们能够在搜索引擎上搜索到更多的网页、信息。
几乎任何有抱负的通用搜索引擎都有一个共同的梦想:整合人类所有信息,并让大家用最便捷的方式各取所需。
对此,百度说:“让人们最便捷地获取信息,找到所求”;谷歌说:“整合全球信息,使人人皆可访问并从中受益”。这两者表达的实际上是同一个愿景。
然而,这注定是一项不可能完成的任务。据科学家估测,人类信息大概只有0.2%实现了web化,并且这个比例很可能在持续降低。更甚的是,即便在已经Web化的信息中,搜索引擎的蜘蛛能抓取到的和不能抓取到的比例为1:500。
五、暗网的处理
为实现自动获取Hidden Web页面的任务,此爬虫必须能自动寻找表单,填写表单,然后获取和识别结果页面。HiddenWeb爬虫系统结构如图所示:
1.寻找Hidden Web入口页面
Web上存在多种多样的表单,同时表单上含有各种各样的元素,如单选按钮、下拉列表框、文本框等,有些还是用户自定义的,因此处理所有的表单是比较困难的。为此,需要先解析HTML页面,获取要研究的表单类型,同时从中抽取有用信息。本文要研究的是不含或含有少量的文本框元素,其它类型元素都具有默认值的表单。这很容易通过解析HTML表单来完成,如可以使用标记序列树或DOM(文档对象模型)来过滤出要研究的表单。
2.自动提交表单
当搜索表单提供了每一表单元素所有可能的值时,直接的方法是对具有少量的文本框元素使用空串作为默认值,穷尽表单其他元素所有可能值的组合来填写表单,获取后台数据库全部的数据。此方法存在两个问题:①处理过程非常耗时;②在穷尽所有可能值组合之前,也许已经获取了所有或大部分的后台数据库数据,从而出现了重复提交;③多个字段组合可能存在语义上的冲突。Hidden Web爬虫设计的目标是使用最少的资源(如提交时间或次数等)获取特定Hidden Web站点内最大量的数据,然而不能保证对所有表单使用有限次的提交可以获取后台数据库的全部数据,因此有必要再次发送查询来确定是否已获取了全部数据。本文提出一种两阶段采样爬行策略以充分获取Hidden Web数据,它分为如下两个步骤:
首先使用表单提供的默认值来提交;
然后对表单元素值组合进行采样以确定默认值提交是否返回了后台数据库的所有数据,若返回了后台数据库所有或大部分数据则可以结束提交过程。否则,在爬虫所具有资源限制范围内穷尽所有可能值的组合。
首先使用表单提供的默认值来提交;
然后对表单元素值组合进行采样以确定默认值提交是否返回了后台数据库的所有数据,若返回了后台数据库所有或大部分数据则可以结束提交过程。否则,在爬虫所具有资源限制范围内穷尽所有可能值的组合。
如果C次采样提交每次都产生了新的记录,则穷尽表单元素其它可能值组合来提交表单,直到满足特定的结束条件。然而在继续提交表单前,先要估计完成这样的操作所需的最大剩余时间和用于存储所有结果记录所需的最大空间。可以指定如下几个参数来完成此阶段的任务:最大查询提交次数、最大存储空间和最大剩余时间等。
可以通过叠加每次查询所返回的数据量来估计所需最大存储空间S。类似地可以估计最大剩余时间T。
在穷尽阶段,可以使用几个参数阀值来提前结束提交过程。包括:
获取Web数据库数据的百分比:通过估计Web数据库百分比以确定获取了多少数据以后可以结束提交过程。
查询提交次数:通过确定查询提交次数来减轻站点的负担。
获取数据的数量:即获取了多少惟一性的Web数据库信息。
提交时间:爬行某特定站点需要多长时间。
获取Web数据库数据的百分比:通过估计Web数据库百分比以确定获取了多少数据以后可以结束提交过程。
查询提交次数:通过确定查询提交次数来减轻站点的负担。
获取数据的数量:即获取了多少惟一性的Web数据库信息。
提交时间:爬行某特定站点需要多长时间。
上述每一个阀值或其组合都可以在穷尽阶段提前结束爬虫爬行。
3.识别和存取查询结果
对表单提交操作产生的响应主要有如下几种情况:响应页含有后台数据库部分或所有数据;响应页不仅包含有数据还包含链接;响应页含有数据和原始表单结构;响应页可能是另一张需要进一步填写的表单;错误页面通知;无记录通知或需要缺失字段。这一步主要是针对这些可能出现的情况进行处理。然后从含有丰富数据的页面中使用信息抽取工具抽取结构化的数据构建数据,以进一步提供信息检索服务。
六、暗网的现状
迎战“暗网”
对于庞大的“暗网”,搜索业界通行的策略主要有两种:其一,构建更有针对性的“暗网”爬虫,以便获取后台数据库;其二,与“暗网”网站合作,实现信息的对接和上浮。
对于第一种策略,它始终贯穿搜索引擎的发展过程。百度产品部相关人士对此表示,针对搜索引擎的升级和更新中,大部分与“暗网”问题有关,只不过对普通用户来讲,他们很难察觉。
第二种策略似乎更成效。不管是国外的谷歌、雅虎,还是国内的百度,都有针对性的计划,并且用户已经体验到了它们带来的变化。
富含信息查询模块技术
对于暗网爬虫来说,一个简单粗暴的方式是:将各个输入框肯呢过的输入值组合起来形成查询,比如机票查询来说,将所有出发城市、所有目的城市和时间范围的选项一一组合,形成大量的查询,提交给垂直搜索引擎,从其搜索结果里提炼数据库记录。
GOOGLE对此提出了解决方案,称之为富含信息查询模块技术。
假设为了描述一个职位,完整的查询由3个不同的属性构成:出发城市、到达城市和出发日期。如果在搜索引擎提交查询的时候,部分属性被赋予了值,而其他属性不赋值,则这几个赋值属性一起构成了一个查询模块。
如果模块包含一个属性,则称之为一维模块。图中模块1是一维模块,模块2和模块3是二维模块,模块4是三维模块。
模块1={出发城市 }
模块2={出发城市,到达城市 }
模块3={到达城市,出发日期 }
模块4={出发城市,到达城市和出发日期 }
对于某个固定的查询模块来说,如果给模块内每个属性都赋值,形成不同的查询组合,提交给垂直搜索引擎,观察所有返回页面的内容,如果相互之间内容差异较大,则这个查询模块就是富含信息查询模块。但是这将是一个庞大的查询组合基数,为了进一步减少提交的查询数目。GOOGLE的方案使用了ISIT算法。
ISIT算法的基本思路是:首先从一维模块开始,对一维查询模块逐个查询,看其是否富含信息查询模块,如果是的话,则将这个一模模块扩展到二维,再次依次查询对应的二维模块,如此类推,逐步增加维数,直到再无法找到富含信息查询模块为止。通过这种方式,就可以找到绝大多数富含信息查询模块,同时也尽可能减少了查询总数,有效达到了目的。