网络爬虫技术浅析-学文库

全部分类行业资料技术资料管理文献经济文库考试资料教学课件

相关文档

网络爬虫技术浅析

最新文档

企业国际市场进入模式选择研究现状述评

转诊转院制度督查转诊转院制度及流程(四篇)

企业在食品安全大会汇报发言稿

企业基本情况表

2024年贫困户申请书咋写个人申请贫困户申请书(8篇)

企业培训管理的量化指标kpi方法

七年级语文教学计划(通用13篇)

方剂学歌修改版无错字新世纪第二版重点

企业外部薪酬调查表

最新半年个人工作总结(精选13篇)

企业培训计划

企业基本信息表

企业如何实施绩效管理优秀PPT

企业基本情况一览表

教学秘书的工作总结与经验分享大全（21篇）

免费试读已结束，剩余 20 页请下载文档后查看

18 金币

/ 30

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

HYPERLINK"http://blog.csdn.net/lgfeng218/article/details/7880802"网络爬虫技术浅析分类：HYPERLINK"http://blog.csdn.net/lgfeng218/article/category/944231"javaHYPERLINK"http://blog.csdn.net/lgfeng218/article/category/1213249"网络爬虫2012-08-1815:091641人阅读HYPERLINK"http://blog.csdn.net/lgfeng218/article/details/7880802"\l"comments"评论(0)HYPERLINK"javascript:void(0);"\o"收藏"收藏HYPERLINK"http://blog.csdn.net/lgfeng218/article/details/7880802"\l"report"\o"举报"举报HYPERLINK"http://blog.csdn.net/tag/details.html?tag=%e7%bd%91%e7%bb%9c%e7%88%ac%e8%99%ab"\t"_blank"网络爬虫HYPERLINK"http://blog.csdn.net/tag/details.html?tag=%e6%90%9c%e7%b4%a2%e5%bc%95%e6%93%8e"\t"_blank"搜索引擎HYPERLINK"http://blog.csdn.net/tag/details.html?tag=url"\t"_blank"urlHYPERLINK"http://blog.csdn.net/tag/details.html?tag=%e7%ae%97%e6%b3%95"\t"_blank"算法HYPERLINK"http://blog.csdn.net/tag/details.html?tag=%e6%9c%8d%e5%8a%a1%e5%99%a8"\t"_blank"服务器HYPERLINK"http://blog.csdn.net/tag/details.html?tag=%e6%95%b0%e6%8d%ae%e5%ba%93"\t"_blank"数据库在万维网飞速发展的网络背景下，搜索引擎在人们的生活工作中无疑扮演着重要的角色，而网络爬虫则是搜索引擎技术的最基础部分。一、网络爬虫概述在搜索引擎成为主流检索工具的今天，互联网上的网络爬虫各式各样，但爬虫爬取网页的基本步骤大致相同：1）人工给定一个URL作为入口，从这里开始爬取。万维网的可视图呈蝴蝶型，网络爬虫一般从蝴蝶型左边结构出发。这里有一些门户网站的主页，而门户网站中包含大量有价值的链接。2）用运行队列和完成队列来保存不同状态的链接。对于大型数据量而言，内存中的队列是不够的，通常采用数据库模拟队列。用这种方法既可以进行海量的数据抓取，还可以拥有断点续抓功能。3）线程从运行队列读取队首URL，如果存在，则继续执行，反之则停止爬取。4）每处理完一个URL，将其放入完成队列，防止重复访问。5）每次抓取网页之后分析其中的URL（URL是字符串形式，功能类似指针），将经过过滤的合法链接写入运行队列，等待提取。6）重复步骤3）、4）、5）。1.1网页搜索策略万维网高阔无边，为了最大限度利用有限的资源，我们需要进行资源配置，并运用某些策略使爬虫优先爬取重要性较高的网页。目前主流的网页搜索策略主要有三，即：深度优先、广度优先、最佳优先。深度优先，即从起始网页开始，选择一个URL，进入，分析这个网页中的URL，选择一个再进入。如此一个链接一个链接地深入追踪下去，处理完一条路线之后再处理下一条路线。有一个例子是：在封建制度中，封建帝王的继承制度是长子优先级最高，长孙次之，次子随后。即如果长子去世，那么长孙的优先级比次子高。该类爬虫设计时较为简单。然而深度优先型网络爬虫存在一个问题：门户网站提供的链接往往最具价值，PageRank也很高，而每深入一层，网页价值和PageRank都会相应地有所下降。这暗示了重要网页通常距离种子较近，而过度深入抓取到的网页却价值很低。由于这个缺陷，广度优先策略产生了。广度优先（又称宽度优先），即从起始网页开始，抓取其中所有链接的网页，然后从中选择一个，继续抓取该网页中的所有链接页面。网络爬虫在抓取网页时普遍采用这种策略，这其中有两个原因：第一，万维网的实际深度最大能达到17层，网页之间四通八达，因此存在从一个网页到另一个网页的最短路径问题。如果采用深度优先，则有