如何在神箭手上快速开发爬虫——第八课 如何爬取手机瀑布流网页数据【手机网新闻】

1、本课完整的爬虫代码可以在神箭手示例代码中查看

2、如何在神箭手上运行代码,请查看文档

3、更详细的爬虫开发教程,请查看文档  

 

大家好,我是来自神箭手的游牧老师。一段时间不见,不知道大家爬虫开发练习地怎么样了@@ 今天我继续给大家讲解新的爬虫开发知识点:如何爬取手机端网页和如何爬取下拉加载更多的这类瀑布流形式的网页数据!

对于基础知识还不熟悉的童鞋,请先从第一课开始学起啊:第一课点这里

 

以手机版的新闻网为例,首页地址是:http://m.cankaoxiaoxi.com/。打开可以发现是个典型的瀑布流形式的网页,访问到最底部的时候需要“下拉加载下一页”:

1

 

在神箭手上,要爬取手机移动版网页,只需要设置useragent为移动版设备即可,那么在请求网页的时候神箭手便会自动随机移动设备代理,不需要开发者专门去设置,而且可以有效减少反爬的几率:

userAgent : UserAgent.Mobile //指定ua为移动设备

userAgent : UserAgent.Android //指定ua为android设备

userAgent : UserAgent.iOS//指定ua为iOS设备

 

对于瀑布流形式的抓取,可以通过浏览器的network选项,很容易找到加载下一页时的具体请求:

2

 

请求的url为:http://app.cankaoxiaoxi.com/?app=shlist&controller=mobile&action=index&page=2&count=14&update=1521438389&pagesize=1&pic_str=2258811,2258810,2258812&jsoncallback=jsonp1521439260574&_=1521439610252。其中包括了下一页的页码,时间戳等参数

那么在开发的时候,我们只需要手动添加下一页列表页的url和列表页中包括的内容页url到待爬队列中,神箭手便会自动下载这些网页并从内容页中抽取需要的数据了,是不是很简单?

废话不多说,完整的代码如下。就这么简单的几行代码就能搞定手机瀑布路网页的爬取了!

/*
云爬虫源码:爬取手机网(http://m.cankaoxiaoxi.com/)的新闻内容,新闻列表是瀑布流形式

金融界货币型基金净值采集爬虫开发教程

本文主要介绍在神箭手上开发“金融界货币型基金净值采集爬虫”的过程,爬虫主要实现批量爬取基金数据的功能,爬取字段包括“基金代码”、“基金简称”和“7日年化收益率”等10个字段。

 

金融界的货币型基金数据比较多,基金数据的参数项比较全,参考价值高。

 

采集网站URLhttp://fund.jrj.com.cn/netvalue/currency.shtml

使用功能点initCrawlafterDownloadPageonProcessContentPageafterExtractField回调函数

 

下面,给你详细说明“金融界货币型基金净值采集爬虫”在神箭手上的开发过程

步骤1  创建爬虫

注册并登录神箭手,进入神箭手控制台。

1

点击“新建应用”,选择“爬虫”,点击“下一步”。

2

输入爬虫名称“金融界货币型基金净值采集爬虫”,选择“编辑模式”,点击“创建”,神箭手爬虫创建成功。

3

 

步骤2  分析网页&开发爬虫

本文使用Chrome浏览器分析金融界货币型基金净值的网页,按“F12”可打开浏览器“开发者工具”,对网页请求进行仔细分析。

4

通过查看网页源码并分析,我们不难得出一个结论:所有基金数据都是通过AJAX获取到的

5

按“F5”刷新网页,在浏览器开发者工具“Network”中寻找获取基金数据的js请求即可。

6

分析完网页以及基金数据的获取逻辑后,便可结合“神箭手开发文档”,在神箭手爬虫编辑页开发爬虫代码。

7

 

步骤3  测试并运行爬虫

爬虫开发完成后,点击“测试”按钮,检查爬虫的爬取结果是否正确。

8

神箭云开放平台上线!开发者可出售应用赚取收入

神箭手一直致力于创建开放共赢的大数据+AI产业生态。2018新年伊始,全新的神箭云开放平台首度上线。开发者可以将在神箭手上开发的爬虫、API、机器学习等大数据应用一键出售到神箭云市场,赚取收入~

目前支持出售的应用包括爬虫和API接口。开发者打开在神箭手上开发的应用,点击“出售”,填写一些基本的信息,便可以快速上架到市场。用户购买开发者出售的应用后,8成的收入会立即充值到神箭手账户收入内,每月可以进行提现~

tim%e6%88%aa%e5%9b%be20180312174058

为了给用户提供更优质的数据服务,上架前神箭手官方会进行人工审核,审核的时间会在1-3个工作日内~

可以在神箭手的新手指南中查看出售应用的具体细节讲解:http://docs.shenjian.io/overview/guide/sell/crawler.html

药智网保健食品采集爬虫开发教程

本文主要介绍在神箭手上开发“药智网保健食品采集爬虫”的过程,爬虫主要实现按关键字批量爬取保健食品数据的功能,爬取字段包括产品名称、保健功能和适宜人群等30个字段。

你还可根据需求调整scanUrl中的“typeid”,采集药品、中药材、医疗器械等类别的数据。

药智网是全国最大的生物医药、化工在线技术交易平台。药智网专门针对生物医药、化工领域推出专业性的知识、技术交易平台,技术需求者可以通过本平台发布技术需求、寻求技术解决方案。

 

采集网站URLhttps://db.yaozh.com/baojian

使用功能点initCrawlonProcessScanPageonProcessHelperPageafterExtractPage回调函数

 

下面,给你详细说明“药智网保健食品采集爬虫”在神箭手上的开发过程

步骤1  创建爬虫

注册并登录神箭手,进入神箭手控制台。

1

点击“新建应用”,选择“爬虫”,点击“下一步”。

2

输入爬虫名称“药智网保健食品采集爬虫”,选择“编辑模式”,点击“创建”,神箭手爬虫创建成功。

3

 

步骤2  分析网页&开发爬虫

本文使用Chrome浏览器分析药智网保健食品的网页,按“F12”可打开浏览器“开发者工具”,对网页请求进行仔细分析。

4

由于保健食品网页中“下一页”的内容是通过JS渲染得到的,所以此处可以直接将下一个列表页url拼出,并添加到神箭手爬虫的待爬队列中取。

5

在浏览器上右击鼠标点击“查看网页源码”选项,可从网页源码中分析得出下一个列表页url的获取方法。

6

分析完列表页url的获取和内容页各字段数据的获取逻辑后,便可结合“神箭手开发文档”,在神箭手爬虫编辑页开发爬虫代码。

7

 

步骤3  测试并运行爬虫

爬虫开发完成后,点击“测试”按钮,检查爬虫的爬取结果是否正确。

8

淘宝客高佣金商品采集爬虫开发教程

本文主要介绍在神箭手上开发“淘宝客高佣金商品采集爬虫”的过程,爬虫主要实现批量爬取淘宝客高佣金商品数据的功能,爬取字段包括商品名称、月销、价格和佣金等字段。

 

淘宝客是一种按成交计费的推广模式,淘宝客只要从淘宝客推广专区获取商品代码,任何买家(包括你自己)经过你的推广(链接、个人网站,博客或者社区发的帖子)进入淘宝卖家店铺完成购买后,就可得到由卖家支付的佣金。所以,高佣金的商品对于淘宝客用户来说是非常有用的,在各个渠道推广这些商品都可以获得不错的收益。

 

采集网站URLhttp://pub.alimama.com/promo/item/channel/index.htm?channel=qqhd

使用功能点

· afterDownloadPageonProcessScanPageafterExtractField回调函数

 

下面,给你详细说明“淘宝客高佣金商品采集爬虫”在神箭手上的开发过程

步骤1  创建爬虫

注册并登录神箭手,进入神箭手控制台。

1

点击“新建应用”,选择“爬虫”,点击“下一步”。

2

输入爬虫名称“淘宝客高佣金商品采集爬虫”,选择“编辑模式”,点击“创建”,神箭手爬虫创建成功。

3

 

步骤2  分析网页&开发爬虫

本文使用Chrome浏览器分析淘宝客高佣金商品网页,按“F12”打开浏览器“开发者工具”。

4

在浏览器“开发者工具”中勾选“Preserve log”,按“F5”刷新网页,高佣金商品列表数据便会重新加载进来。

5

在浏览器“开发者工具”中选择“XHR”,搜索“qqhd.json”,便可找到存放商品信息的URL。

6

分析请求该URL返回的JSON数据,结合“神箭手开发文档”,在神箭手爬虫编辑页开发爬虫代码。

7

 

步骤3  测试并运行爬虫

爬虫开发完成后,点击“测试”按钮,检查爬虫的爬取结果是否正确。