(word完整版)山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》(367)-学文库

全部分类行业资料技术资料管理文献经济文库考试资料教学课件

相关文档

(word完整版)山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》(367)

最新文档

企业国际市场进入模式选择研究现状述评

转诊转院制度督查转诊转院制度及流程(四篇)

企业在食品安全大会汇报发言稿

企业基本情况表

2024年贫困户申请书咋写个人申请贫困户申请书(8篇)

企业培训管理的量化指标kpi方法

七年级语文教学计划(通用13篇)

方剂学歌修改版无错字新世纪第二版重点

企业外部薪酬调查表

最新半年个人工作总结(精选13篇)

企业培训计划

企业基本信息表

企业如何实施绩效管理优秀PPT

企业基本情况一览表

教学秘书的工作总结与经验分享大全（21篇）

免费试读已结束，剩余 2 页请下载文档后查看

5 金币

/ 12

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(word完整版)山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》(367)(word完整版)山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》(367)912(word完整版)山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》(367)山东建筑大学课程设计成果报告题目:基于的网络爬虫设计课程:计算机网络院(部）：管理工程学院专业：信息管理与信息系统班级:学生姓名：学号：指导教师：完成日期：目录\"”\\\设计目的设计任务内容网络爬虫程序总体设计网络爬虫程序详细设计设计环境和目标分析设计环境目标分析爬虫运行流程分析控制模块详细设计爬虫模块详细设计管理器设计网页下载器设计网页解析器设计数据输出器详细设计调试与测试调试过程中遇到的问题测试数据及结果显示课程设计心得与思想到参考文献附录网络爬虫程序设计代码附录网络爬虫爬取的数据文档设计目的本课程设计是信息管理与信息系统专业重要的实践性环节之一，是在学生学习完《计算机网络》课程后进行的一次全面的综合练习。本课程设计的目的和任务：．巩固和加深学生对计算机网络基本知识的理解和掌握。．培养学生进行对网络规划、管理及配置的能力或加深对网络协议体系结构的理解或提高网络编程能力。．提高学生进行技术汇总报告和撰写说明书的能力。设计任务内容网络爬虫是从中发现,下载以及存储内容，是搜索引擎的核心部分。传统爬虫从一个或若干初始网页的开始，获得初始网页上的，在抓取网页的过程中，不断从当前页面上抽取新的放入队列，直到满足系统的一定停止条件。参照开放源码分析网络爬虫实现方法，给出设计技术指导文件，画出设计流程图。选择自己熟悉的开发环境，实现网络爬虫抓取页面、从而形成结构化数据的基本功能，界面适当美化。给出软件测试结果。网络爬虫程序总体设计管理器数据输出器网页下载器网页解析器爬虫控制器在本爬虫程序中共有三个模块：爬虫调度端：启动爬虫，停止爬虫，监视爬虫的运行情况爬虫模块:包含三个小模块，管理器、网页下载器、网页解析器。管理器：对需要爬取的和已经爬取过的进行管理,可以从管理器中取出一个待爬取的，传递给网页下载器.网页下载器：网页下载器将指定的网页下载下来，存储成一个字符串，传递给网页解析器.网页解析器：网页解析器解析传递的字符串，解析器不仅可以解析出需要爬取的数据，而且还可以解析出每一个网页指向其他网页的，这些被解析出来会补充进管理器、数据输出模块:存储爬取的数据网络爬虫程序详细设计设计环境和目标分析设计环境：版本：目标分析目标：从百度词条开始,以广度优先的方式，爬取相关联的若干词条网页的标题和简介（)初始:"”（）词条页面格式:数据格式:标题——<"">〈><〉简介——〈””"">（）页面编码：爬虫运行流程分析爬虫程序的运行流程如图所示.爬虫控制器从给定的开始,将给定的初始添加到管理器中，然后调用管理器的相关方法，判断是否有待爬取的判断是否有待爬取的，如果有待爬取的，则返回给控制器，控制器将这个传递给网页下载器，下载该网页网页下载器将下载好的数据返回给控制器，控制器再将返回的数据传递给网页解析器解析网页解析器解析网页之后获取网页数据和网页的链接,再将这两个数据传递给控制器控制器得到解析出来的数据之后，将新的链接传递给管理器,将价值数据传递给数据输出器输出数据输出器以文本的形式输出传递进来的数据。回到第一步，循环控制模块详细设计爬虫控制器主要负责调度各个模块，所以在设计的时候只需要一次调用其他模块的方法，给对应的模块传递数据即可.比较简单，可参见附录查看源码。爬虫模块详细设计管理器设计管理器主要管理待抓取的集合和已抓取的集合。管理器设计的难点在于：防止重复抓取，防止循环抓取.判断是否还有待爬取添加新到待爬取集合中获取待爬取管理器将从待爬取集合移动端已爬取集合判断待添加是否在容器中常用的管理器存储方式有三种，一是使用内存即集合来存储，二是使用数据库，例如，三是使用缓存数据库，例如。因为这只是个简单的爬虫，所以我们选择利用内存存储。建立两个集合，一个为待爬取集合，一个为已爬取集合，功能上图所示。网页下载器设计网页下载器是将互联网上对应的网页下载到本地的工具。常用的网页下载器有两种，一个是自带的，一个是第三方包。这里我们选用的是，比较简单的网页下载工具，其中最简洁的下载网页的代码如下:（）如果请求码不是，则表示请求不成功。典型的错误包括(页面无法找到），（请求禁止），（待验证的请求）回应代码以“”开头的状态码表示服务器端发现自己出现错误，不能继续执行请求（）：