不会用rest接口?神箭手SDK来了

很多小伙伴给我们反馈说,神箭手功能很强大,接口也开放了很多。不过写程序对接restful接口的时候,总是会遇到这样那样的问题,调试起来也不太方便,有什么更好的办法吗?

为了方便大家更方便的集成神箭手线上爬虫,清洗的功能,神箭手推出了官方的集成调用的SDK,目前包含Java/Php/Python三种语言,现在封装了神箭手上所有restful接口的调用,将来还将加入GraphQL和API的调用。

SDK的安装方式分别提供了手动下载和对应的集成安装环境(Maven/Composer/pip),大家根据自己熟悉的语言,选择合适的SDK即可。

下载地址和相关文档:

Java SDK          下载地址   使用文档

Php SDK           下载地址   使用文档

Python SDK     下载地址   使用文档

也可以在神箭手官网的资源下载中找到相关资源:

qq%e6%88%aa%e5%9b%be20180212151409

爱站网关键字挖掘爬虫开发教程

本文主要介绍在神箭手上开发“爱站网关键字挖掘采集爬虫”的过程,爬虫主要实现批量输入关键字并爬取数据的功能,选择性登录功能(登录后爬取的数据更多),爬取字段包括长尾词数量、收录数和优化难度等字段。

 

爱站网是一个站长们经常使用的工具,是因为其具有长尾关键词挖掘的功能,做SEO的童鞋们都知道它的价值,而且对网站内容生产方向、结构规划,TDK编写都十分有帮助。

 

采集网站URL:https://ci.aizhan.com

使用功能点:

· 自定义设置

· initCrawlbeforeCrawlonProcessContentPageafterExtractField回调函数

 

下面,给你详细说明“爱站网关键字挖掘采集爬虫”在神箭手上的开发过程

步骤1  创建爬虫

注册并登录神箭手,进入神箭手控制台。

1

点击“新建应用”,选择“爬虫”,点击“下一步”。

2

输入爬虫名称“爱站网关键字挖掘采集爬虫”,选择“编辑模式”,点击“创建”,神箭手爬虫创建成功。

3

 

步骤2  分析网页&开发爬虫

要在神箭手上开发爬虫,首先需要分析目标网站,本文使用Chrome浏览器分析爱站网关键字挖掘网页,按“F12”可以打开浏览器“开发者工具”。

4

1.“不登录”情况分析

不登录的话,一个关键字只能爬取最多100条数据。输入“旅游”并点击“查询”,网页加载完成后,是不是发现网页url变成了这个“https://ci.aizhan.com/65c56e38/”。

5

是不是很纳闷,怎么关键字变成一堆数字了?

6%ef%bc%88process%ef%bc%89

 

其实,这是爱站网给你下的绊子,给关键字做了一次处理,不过这点困难阻挡不了我们前进的脚步。右击鼠标,查看“网页源码”,找到encode_unicode_param函数,关键字就是通过此函数进行处理的。

7

但函数源码并不在此,需要回到查询后的网页,按“F5”刷新网页,在浏览器“开发者工具”中选择“Sources”,找到“script.js?v=0108”文件,就能找到encode_unicode_param函数源码了,这样一来就可以顺利拼出关键词查询链接了,然后你就可以在神箭手爬虫编辑页开发非登录爬虫了。

如何一键获取新浪微博热搜榜排名信息数据?

本文主要介绍神箭手云市场“新浪微博搜索热搜榜API”的调用方法,以及调用前的准备工作和调用过程中可能出现的问题。

 

新浪微博作为一款当前最主流的信息传递和交流工具,在人们日常生活中占据着非常重要的作用,对热搜榜数据的采集可以方便查看时下最热门的事件关键字,为此,神箭手云市场特意推出了这款“热搜榜API”。

 

接下来,给你详细介绍神箭手云市场“新浪微博搜索热搜榜API”的调用步骤

步骤1  注册并登录

注册并登录神箭手,进入神箭手控制台。

注意:

1.神箭手支持使用QQ和GitHub账号登陆。

1

 

步骤2  获取API

进入“神箭手大数据市场”,找到“新浪微博搜索热搜榜API”,点击“获取API”即可。

注意:

1.API调用次数需要购买,首次获取API,神箭手会赠送10次免费API调用次数哦!

2

 

步骤3  测试API

在API测试页,点击“测试工具”按钮,输入“查询类型”参数,点击“开始测试”,便可测试API获取微博热搜榜的效果啦!当然,此处还有很多值的注意的地方哦~~

注意:

1.每次测试都会消耗API调用次数;

2.建议在调用API前,先确保API调用参数的正确性。

3

 

步骤4  调用API并查看调用日志

点击“调用代码”,神箭手为您提供了“curl”,“php”,“java”和“python”四种示例代码,选择一种,可直接在浏览器中测试。

4

点击“调用日志”,可以查看API的调用情况,以及API是否调用成功等信息。

5

如何采集新浪微博数据?

 

本文主要介绍神箭手“新浪微博采集爬虫”(以下简称“微博爬虫”)的使用教程以及注意事项。

 

新浪微博中有大量高价值的软文数据,应用价值很高,为此,神箭手推出了“微博爬虫”供各位使用。

 

接下来,给你详细说明用神箭手“微博爬虫”采集并导出数据的步骤

 

步骤1  注册并登录

注册并登录神箭手,进入神箭手控制台。

注意:

神箭手支持使用QQ和GitHub账号登陆。

1

 

步骤2  购买爬虫

进入神箭手大数据市场,找到“微博爬虫”,点击“获取爬虫”按钮,便可轻松获取神箭手“微博爬虫”了。

注意:

要正常使用“微博爬虫”需要神箭手“企业标准版”及以上套餐,点此升级神箭手套餐。

2

 

步骤3  设置爬虫

进入“微博爬虫”总览页,点击“应用设置”,您可以选择“文件托管”服务托管图片、视频等文件,设置“微博的爬取方式”,以及是否爬取微博评论和转发等数据,最后别忘了点“保存”。

注意:

1. 如果想提高爬虫的爬取速率,建议勾选“只打印关键日志”;

2.爬虫支持按“昵称、用户ID、关键字、话题和话题ID”爬取微博,可根据实际情况自由选择。

3

4

 

步骤4  爬取数据

百度糯米电影信息采集爬虫开发教程

 

本文主要介绍“百度糯米电影信息采集爬虫”的开发教程,按三个不同类目爬取影片的基本信息,爬取字段包括电影ID、电影名称和上映时间等字段,文章结尾会附上完整的爬虫代码。

 

采集网站URLhttps://dianying.nuomi.com/movie/movielist

 

使用功能点:

· 自定义设置

· initCrawlafterDownloadPageonProcessContentPage 和 afterExtractPage回调函数

 

接下来,给你详细说明“百度糯米电影信息采集爬虫”的开发过程

 

步骤1  创建爬虫

注册并登录神箭手,进入神箭手控制台。

1

点击“新建应用”,选择“爬虫”,点击“下一步”。

2

输入爬虫名称“百度糯米电影信息采集爬虫”,选择“编辑模式”,点击“创建”,神箭手爬虫创建成功。

3

 

步骤2  分析网页&开发爬虫

本文使用Chrome浏览器分析京东商品网页,按“F12”打开浏览器“开发者工具”。

4

在浏览器“开发者工具”中勾选“Preserve log”,按“F5”刷新网页,电影列表数据便会重新加载进来。

5

在浏览器“开发者工具”中选择“AHR”,搜索“getmovielist”,便可找到存放电影列表信息的URL。

6

分析请求该URL返回的JSONP数据,结合“神箭手开发文档”,在神箭手爬虫编辑页开发爬虫代码。

7