博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Scrapy采集“人民的名义”豆瓣评价实验报告
阅读量:6036 次
发布时间:2019-06-20

本文共 3594 字,大约阅读时间需要 11 分钟。

转载请注明出处!!!

实验对象:
实验目的:通过使用scrapy框架采集“人民的名义”评价内容,进一步体会信息检索的过程。
实验过程:分析采集实体->确定采集方法->制定爬取规则->编写代码并调试->得到数据

img_c3cae20ccfa9b7015f9d0d1412ac6d0a.png
人民的名义

ps:由于最近豆瓣发布的 Api V2测试版 需要授权 走oauth2,但是现在不开放key申请,所以直接爬了网页。

---------------------------------欢迎纠错和提问!24小时在线不打烊!!---------------------


目录
  1. 分析采集实体
  2. 确定采集方法
  3. 制定爬取规则
  4. 编写代码并调试
  5. 得到数据
  6. 使用分词工具包进行数据分析
  7. 总结和感悟

1. 分析采集实体

当前页面中,评价相关的内容有很多,我们通过分析选取更具代表性的数据进行采集。

1.1 IMDb (备用)

豆瓣提供了的链接。

img_3454ae437cd8118920430c9ecabe87f2.png
imdb链接

img_45b7e35f33d1324dd0fb67c638c92b67.png

IMDb只提供了5条英文评价

img_83fa240f7008146b824bd01daacc3d61.png
IMDb reviews
记录网址备用:

1.2 全部评价(不采集)

img_fc73f1529de8bd2e96bcfad89ba23777.png

这里指向了全部评价,没有分类,不考虑

img_98acea7396a29ff8366483ea884925ec.png
total reviews

1.3 分集短评(不采集)

这里提供了分集短评,不具代表性,不考虑

img_a1d13eef603fc204a574bfbf8844f24e.png

1.4 全部短评(采集部分)

这里提供了,考虑采集看过/热门的前50条

img_0f057a60113da313ce56b7c82dead309.png
短评

1.5 全部剧评(采集部分)

考虑采集最受欢迎的前50条

img_0991562495ad66265bb7f7408013614c.png

1.6 确定采集实体

豆瓣提供了部分xml格式的影评

img_0e816dec54c3169aad4ea2d220d84dc5.png
douban feed:rss
img_7fcd5d3862f4873a772c2f37b55e7706.png
douban xml

采集的内容很全面,参考该官方示例确定采集实体

  • title(剧评)
  • description
  • star
  • creator
  • pubDate

2. 确定采集方法

2.1短评采集

start_urls:

内容:当前页内采集

img_a386ff98ade2fa69777ea694d7ae4bcb.png

分页:【后页】跳转下一页

img_a50665bf41ca77ef88e2b49b3bef0335.png

2.2剧评采集

start_urls:

内容:完整评价在当前页面可以爬取

img_3ebfc289ef8abf834b9cac326c5f32e6.png
显示部分
img_3f7ecf04c1df7320ee7f5f790b1fb2f7.png
显示全部

img_69cbd387f6dea6e52815b2f01b44a539.png
隐藏状态
img_f25319c55c9ebcc8770ff5e6f94cd236.png
显示状态

可以看出,页面通过js控制改变class来控制内容的显示隐藏和ajax动态赋值。

3. 制定爬取规则

3.1 短评规则

3.1.1 description
img_64c76193067212f083dadbf1ee59c4c8.png
description
div#comments div.comment-item div.comment p::text
3.1.2 star
img_11f0f358906a4481240a638ca8c053df.png
stars
div#comments div.comment-item div.comment h3 span.comment-info span.rating::attr(title)
3.1.3 creator
img_c292faf01c9ee606dbb02f0dfc2cab71.png
creator
div#comments div.comment-item div.comment h3 span.comment-info a::attr(href)
3.1.4 pubDate
img_ebc7ef9805edf98968f284ef16f9e5b2.png
pubDate
div#comments div.comment-item div.comment h3 span.comment-info span.comment-time::text
3.1.5 next_page
img_182f74ea1e2771180097a44bfc3c8c41.png
nextpage
div#paginator a.next::attr(href)

3.2 剧评规则

3.2.1 title
3.2.2 description
3.2.3 star
3.2.4 creator
3.2.5 pubDate
3.2.6 next_page

4. 编写代码并调试

4.1 爬取短评

新建工程douban

img_8ec98b989bf45b9eaaebe012e7aa5dc7.png

编写items.py

import scrapyclass DoubanItem(scrapy.Item):    # define the fields for your item here like:    # name = scrapy.Field()    title = scrapy.Field()    description = scrapy.Field()    star = scrapy.Field()    creator = scrapy.Field()    pubDate = scrapy.Field()

编写my_short.py

import scrapyfrom douban.items import DoubanItemclass MyShortSpider(scrapy.Spider):    name = "my_short"    allowed_domains = ["douban.com"]    start_urls = [        'https://movie.douban.com/subject/26727273/comments?status=P',    ]    def parse(self, response):        for comment in response.css('div#comments div.comment-item div.comment'):            item = DoubanItem()            item['description'] = comment.css('p::text').extract_first(),            item['star'] = comment.css('h3 span.comment-info span.rating::attr(title)').extract_first(),            item['creator'] = comment.css('h3 span.comment-info a::attr(href)').extract_first(),            item['pubDate'] = comment.css('h3 span.comment-info span.comment-time::text').extract_first(),            yield item            next_page = response.css('div#paginator a.next::attr(href)')            if next_page is not None:                next_urls = response.urljoin(next_page.extract_first())                yield scrapy.Request(next_urls,callback = self.parse)

403爬取失败

img_ea6b1fd82e68a7b6700e1bb505230390.png

可选方案:

  • 动态设置user-agent
  • 禁用cookies
  • 设置延迟下载
  • 使用Google cache
  • 使用代理ip
  • 使用crawlera

scrapy cloud--crawlera的尝试

登录创建自己的工程并获取key

img_6ec3c0da9ead6e8d7c445e76ade9b485.png
api-key

在自己的服务器安装crawlera

img_e82f3528e7e5b4236d4b120b36f0e8db.png
install crawlera
修改settings.py:

找到settings.py文件

img_6309c4ad360787ddcbe647dd051142dd.png
tree

添加crawler代理

img_8897cabba8287a3ab1b170f00f3af0a1.png
添加代理
配置并填写自己的key
pass字段不用填写
img_e59216de46941234bfe641cdd3b6f31f.png

如果你的spider中保留了cookie,在header中添加

img_0e848138725547e6e28376a8da794660.png
header

407 错误如下:

img_6b4debbf4b88cda9a0ee9871f1a2f61d.png
安装shub
img_43a3bac67dffd9833742a69ad19a065f.png
install shub

用自己的key登录shub

img_818c0e2e6343ed7d0adb8c9015b8432f.png
shub login

上传工程

img_af6fe7db61583275f865a183ea1a5636.png
shub deploy

运行之后还是407

img_69b2851df393c893a2c46120bed440d1.png
run

说好的免费现在好像是收费了。。弃坑

img_4aeb90b2e25eabb07ef200b6b440c7c6.png

使用代理ip

在经历了403 503 111 400 等一系列错误码之后,又尝试了许多代理ip,终于爬到了数据。

img_01842b6f085d58c9f439b539206d11aa.png
data

然而没过多久就又挂了...

img_a95df51ebc77ac4118fea24da547e56d.png

总算是可以爬到数据了,只要及时更换代理ip就没有问题。

修改后的settings.py代码
是否遵循robots.txt

img_1b8c5aefaf40b60f7b86c4a692c6dfd6.png
robots obey
设置下载延迟时间
img_18498b43cbdcc82cff12598a9898fbfd.png
download delay
不保存cookie
img_2c4ddab0fd08426449f435b3397f292c.png
cookie
这是中间件middlewares的一个函数,543是随便写的,只要不重复就可以
img_722aa714b0accd811afb69ad3c9233e0.png
downloader middlewares
user-agent包头可以在chrome开发者工具获取到
img_018e3e68bd6e720640f6adaf5a2f08f4.png
user agent
img_688db9009dd79ae2275d60dea15c1204.png
chrome
在middlewares.py增加如下代码
img_5c573f3fc1e0be3d7db2de0d6a613e0f.png
middlewares.py
其中,引号中的url是代理ip
但是这样依然会在爬到一半的时候挂
更好的方法是放一组代理ip,在爬到一半的时候接上继续爬

5. 得到数据

某一次爬到数据180条

img_3a528015299fc5a92baa467a343422bb.png

部分xml数据展示

img_d7983f28ba0a67298075ec4006762dad.png
xml

6. 使用分词工具包进行数据分析

7. 总结和感悟

未完待续。

参考链接:

你可能感兴趣的文章
||和&&返回什么?
查看>>
linux在文件中查找指定字符串,然后根据查找结果来做进一步的处理
查看>>
在Oracle中删除所有强制性外键约束
查看>>
dhcp
查看>>
【R】R语言使用命令行参数 - [编程技巧(Program Skill)]
查看>>
经典算法题每日演练——第二题 五家共井
查看>>
存储过程中拼接的变量和点的问题
查看>>
ASP.NET那点不为人知的事(一)
查看>>
HTML 表格
查看>>
VMware 虚拟化编程(7) — VixDiskLib 虚拟磁盘库详解之三
查看>>
php 未实例化类调用方法的问题
查看>>
我对读计算机软件专业硕士的几点看法
查看>>
用JS写CSS
查看>>
TOJ4537: n阶行列式
查看>>
算法刷题笔记-stack-四则运算
查看>>
3.16
查看>>
Linux下arp用法
查看>>
表单文件上传与文件下载
查看>>
jquery 中prop()的使用方法
查看>>
下午考
查看>>