百度糯米电影信息采集爬虫开发教程

 

本文主要介绍“百度糯米电影信息采集爬虫”的开发教程,按三个不同类目爬取影片的基本信息,爬取字段包括电影ID、电影名称和上映时间等字段,文章结尾会附上完整的爬虫代码。

 

采集网站URLhttps://dianying.nuomi.com/movie/movielist

 

使用功能点:

· 自定义设置

· initCrawlafterDownloadPageonProcessContentPage 和 afterExtractPage回调函数

 

接下来,给你详细说明“百度糯米电影信息采集爬虫”的开发过程

 

步骤1  创建爬虫

注册并登录神箭手,进入神箭手控制台。

1

点击“新建应用”,选择“爬虫”,点击“下一步”。

2

输入爬虫名称“百度糯米电影信息采集爬虫”,选择“编辑模式”,点击“创建”,神箭手爬虫创建成功。

3

 

步骤2  分析网页&开发爬虫

本文使用Chrome浏览器分析京东商品网页,按“F12”打开浏览器“开发者工具”。

4

在浏览器“开发者工具”中勾选“Preserve log”,按“F5”刷新网页,电影列表数据便会重新加载进来。

5

在浏览器“开发者工具”中选择“AHR”,搜索“getmovielist”,便可找到存放电影列表信息的URL。

6

分析请求该URL返回的JSONP数据,结合“神箭手开发文档”,在神箭手爬虫编辑页开发爬虫代码。

7

1