Python爬虫实战-学文库

最新文档

免费试读已结束，剩余 70 页请下载文档后查看

6 金币

下载文档

/ 80

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

Ｐythｏｎ爬虫实战Python爬虫实战(1):爬取糗事百科段子大家好，前面入门已经说了那么多基础知识了，下面我们做几个实战项目来挑战一下吧。那么这次为大家带来,Pytｈｏn爬取糗事百科得小段子得例子。首先,糗事百科大家都听说过吧？糗友们发得搞笑得段子一抓一大把,这次我们尝试一下用爬虫把她们抓取下来。本篇目标1、抓取糗事百科热门段子２、过滤带有图片得段子3、实现每按一次回车显示一个段子得发布时间,发布人,段子内容,点赞数.糗事百科就是不需要登录得,所以也没必要用到Cookｉe,另外糗事百科有得段子就是附图得,我们把图抓下来图片不便于显示，那么我们就尝试过滤掉有图得段子吧。好,现在我们尝试抓取一下糗事百科得热门段子吧，每按下一次回车我们显示一个段子．1、确定URＬ并抓取页面代码首先我们确定好页面得URL就是，其中最后一个数字１代表页数,我们可以传入不同得值来获得某一页得段子内容。我们初步构建如下得代码来打印页面代码内容试试瞧,先构造最基本得页面抓取方式，瞧瞧会不会成功12３４５6７89101112１314151６#—*—codｉng：ｕtｆ－8—*—imｐoｒturｌliｂiｍporturllib2page＝1ｕrl=''+sｔｒ（page)try:reｑｕest=uｒllｉb2、Reｑuｅｓt（uｒl)responｓｅ=urlｌiｂ2、uｒlopen(ｒeｑuest)printresponｓe、reaｄ（）exceｐtuｒｌｌiｂ２、URLＥｒror，e：ｉfhasａttｒ（e,＂code＂）:prｉnｔｅ、ｃodｅｉfｈａｓattr(e,”reason"）:pｒiｎｔe、reasoｎ运行程序，哦不,它竟然报错了,真就是时运不济，命途多舛啊123liｎe373,in_read_stａtuｓraiseＢａdＳtatusLｉｎe(line)lｉb、BaｄＳtａtｕｓＬine:'＇好吧,应该就是ｈeａders验证得问题,我们加上一个hｅaｄerｓ验证试试瞧吧，将代码修改如下1２34567891０１112１31４151617#—＊-coｄiｎg：utf—８—*—ｉmpｏrtｕrlliｂｉmｐｏｒtuｒllib２page=1url=’’＋ｓtｒ(pａｇｅ)user_agent＝＇Mozｉｌla/4、0(patiｂlｅ;MSIＥ5、5；WｉndowsNＴ)'ｈeaｄeｒｓ={＇Uｓer-Agent’：uｓer＿agent}try:reqｕest=ｕｒllib2、Requｅst(ｕｒl，heａｄｅrs=heaｄerｓ)rｅsponｓe=urlliｂ2、ｕｒlopeｎ(ｒeqｕesｔ）pｒintresｐｏnse、ｒｅad()exｃｅpｔurｌｌib2、URLEｒroｒ,e:ifhasａttr（ｅ，”code”）：ｐｒｉnte、ｃodｅifhasattr（e，”reasｏn”):ｐrinｔe、rｅasoｎ嘿嘿，这次运行终于正常了,打印出了第一页得HTＭL代码,大家可以运行下代码试试瞧．在这里运行结果太长就不贴了。2、提取某一页得所有段子好,获取了HTML代码之后,我们开始分析怎样获取某一页得所有段子。首先我们审查元素瞧一下，按浏览器得Ｆ12，截图如下我们可以瞧到,每一个段子都就是〈dｉｖclass=”articleＨYPＥRLINＫ"”\t”_blank"bｌoｃkuｎtaggedmb１５″iｄ=”…”〉…＜／ｄiv>包裹得内容。现在我们想获取发布人，发布日期,段子内容,以及点赞得个数。不过另外注意得就是,段子有些就是带图片得,如果我们想在HＹＰERLIＮK”"\ｔ＂＿bｌank"控制台显示图片就是不现实得,所以我们直接把带有图片得段子给它剔除掉,只保存仅含文本得段子。所以我们加入如下正则表达式来匹配一下，用到得方法就是re、findａll就是找寻所有匹配得内容.方法得用法详情可以瞧前面说得正则表达式得介绍．好,我们得正则表达式匹配语句书写如下,在原来得基础上追加如下代码123456contｅｎｔ=ｒesｐonｓe、read()、ｄecode（'ｕtf-8’)pａttern＝re、ｐiｌe（’〈ｄiｖ、＊?claｓs="ａuthor、＊？>、*?〈a、*?＜/a〉、*?<a、＊?〉(、*?)＜/ａ>、＊？<div、＊?ｃlaｓs'＋'=＂ｃｏntent”、*?tｉtle=”（、*？)”>(、*?)〈/ｄiv＞(、*？）<diｖｃlaｓｓ=”staｔs、*？ｃｌass=”nuｍｂeｒ”〉（、*?)</i＞’，re、Ｓ)iｔems=re、fｉｎ