如何一键采集微博及热门微博话题等数据?

 

本文主要介绍神箭手“新浪微博爬虫”(以下简称“微博爬虫”)的使用教程及注意事项。

 

新浪微博作为时下最热门的社交软件之一,拥有海量活跃用户,同时也聚集了大批名家、名人及公众人物,其平台上每日交流、推广的即时信息量庞大,实时性非常高,那么问题来了,如何快速获取这些数据呢?为此,神箭手已经推出了“微博爬虫”。

 

接下来,给你详细介绍使用神箭手“微博爬虫”采集和导出微博数据的步骤

 

步骤1  注册并登录

注册并登录神箭手,进入神箭手控制台。

注意:神箭手支持使用QQ和GitHub账号登陆。

1

 

步骤2  购买爬虫

进入神箭手云市场,找到“微博爬虫”,点击“获取爬虫”按钮,“微博爬虫”即获取成功。

2

 

步骤3  设置爬虫

进入“微博爬虫”总览页,点击爬虫“应用设置”,您可“重命名爬虫”、“修改爬虫描述”、“选择文件托管方式”以及“选择微博爬取方式、微博类别、爬取时间等设置项”,设置后记得“保存”。

注意:为了尽可能提高爬虫的爬取速率,建议勾选“只打印关键日志”。

3

 

步骤4  爬取数据

进入“微博爬虫”总览页,点击“启动爬虫”,配置爬虫使用的节点数并设置定时任务后,爬虫便开始爬取微博数据,片刻之后,就能在“爬取结果”页查看爬取的微博数据了。

4

5

 

步骤5  数据发布与导出

当爬虫爬到数据后,你可以选择将数据“发布到数据库/网站/媒体”中,点此查看神箭手数据发布详细教程。

如何批量采集百度地图POI兴趣点数据?

 

本文主要介绍神箭手“百度地图POI采集爬虫”(以下简称“百度POI爬虫”)的使用教程及注意事项。

 

POI是一切可以抽象为空间点的现实世界的实体,比如餐馆,酒店等。POI数据具有空间坐标和各种属性,是各种地图查询软件的基础数据之一。百度地图作为国内顶尖的地图企业,其上具有丰富的POI数据,那要如何快速获取百度地图POI兴趣点数据呢?为此,神箭手已经推出了“百度POI爬虫”。

 

接下来,给你详细介绍使用神箭手“百度POI爬虫”采集和导出POI兴趣点数据的步骤

 

步骤1  注册并登录

注册并登录神箭手,进入神箭手控制台。

注意:神箭手支持使用QQ和GitHub账号登陆。

1

 

步骤2  购买爬虫

进入神箭手云市场,找到“百度POI爬虫”,点击“获取爬虫”按钮,“百度POI爬虫”即获取成功。

2

 

步骤3  设置爬虫

进入“百度POI爬虫”总览页,点击爬虫“应用设置”,您可“重命名爬虫”、“修改爬虫描述”、“选择文件托管方式”以及“选择采集的城市、输入关键字和采集页数等设置项”,设置后记得“保存”。

注意:如果想提高爬虫的爬取速率,建议勾选“只打印关键日志”。

3

 

步骤4  爬取数据

进入“百度POI爬虫”总览页,点击“启动爬虫”,配置爬虫使用的节点数并设置定时任务后,爬虫便开始批量爬取POI兴趣点数据了,稍等片刻,就能在“爬取结果”页查看爬取的POI兴趣点数据了。

4

5

 

步骤5  数据发布与导出

当爬虫爬到数据后,你可以选择将数据“发布到数据库/网站/媒体”中,点此查看神箭手数据发布详细教程。

百度指数的cookie获取

百度指数API获取地址:http://www.shenjian.io/index.php?r=market/product&product_id=500422

第一步:打开https://www.baidu.com/ 会出现下面界面,点击右上角登陆。

baidu_1

第二步:登陆上后右上角会有你的账户名确定登陆完成后;点击F12后下面会弹出如下图的界面,1.先点击Network  2.再点击左上红点旁边的黑圆圈 3.在勾选Preserve log

baidu_3

第三步:按F5刷新当前页面,刷新后下面会出现一个表格我们翻到最上面找到www.baidu.com如下图所示:

baidu_4

第四步:找到www.baidu.com后点一下右边会变成如图所示的样子,然后我们找到Request Headers下的Cookie(红圈内的)复制出来就行了。

baidu_5

第五步:打开百度指数API,点击测试工具,将复制的cookie填入参数中:

baidu_6

第六步:点击开始测试,就可以看到结果了,当然这个cookie是可以设置多个的,可以获取多个账号的cookie,然后用 ||| 拼接起来,调用成功之后,后面的调用就不用传这个参数了。

如何批量采集淘宝商品信息数据?

 

本文主要介绍神箭手“淘宝商品信息采集爬虫”(以下简称“淘宝爬虫”)的使用教程及注意事项。

 

淘宝网就像一个综合大卖场,什么商品都可以淘到,只要你想到的,淘宝上都能找到,作为一款老牌电商平台,淘宝上包含了丰富的商品数据,蕴藏着巨大的商机,那如何轻松获取淘宝商品信息呢?别担心,为了满足广大用户的需求,神箭手特意推出了“淘宝爬虫”。

 

接下来,给你详细介绍使用神箭手“淘宝爬虫”采集和导出淘宝商品信息的步骤

 

步骤1  注册并登录

注册并登录神箭手,进入神箭手控制台。

注意:神箭手支持使用QQ和GitHub账号登陆。

1

 

步骤2  购买爬虫

进入神箭手云市场,找到“淘宝爬虫”,点击“获取爬虫”按钮,“淘宝爬虫”即获取成功。

2

 

步骤3  设置爬虫

进入“淘宝爬虫”总览页,点击爬虫的“应用设置”,您可“重命名爬虫”、“修改爬虫描述”、“选择文件托管方式”以及“选择要爬取淘宝商品的方式、是否爬取商品收藏数和浏览等设置项”,设置后记得“保存”。

注意:如果想提高爬虫的爬取速率,建议勾选“只打印关键日志”。

3

 

步骤4  爬取数据

进入“淘宝爬虫”总览页,点击“启动爬虫”,配置爬虫使用的节点数并设置定时任务后,爬虫便开始批量爬取淘宝商品信息了,稍等片刻,就能在“爬取结果”页查看爬取的淘宝商品信息了。

4

5

 

步骤5  数据发布与导出

当爬虫爬到数据后,你可以选择将数据“发布到数据库/网站/媒体”中,点此查看神箭手数据发布详细教程。

新浪微博爬虫使用教程:如何获取用户ID或话题ID

新浪微博爬虫获取地址:http://www.shenjian.io/index.php?r=market/product&product_id=500032

一.如何获取用户ID

第一步:比如要获取萧山网的用户id,先从微博列表中找到萧山网发的一条微博,没有的话您需要先关注该用户,然后再从发布的微博中找到发布时间,点击发布时间。

tim%e6%88%aa%e5%9b%be20180417195852

第二步:点击发布时间之后,我们来到这个页面。看链接栏,我们就能获取到这个用户的ID:1652986661。

tim%e6%88%aa%e5%9b%be20180417200559

第三步:复制用户的ID,设置到爬虫设置中:

tim%e6%88%aa%e5%9b%be20180417201511

二.如何获取话题ID

第一步:与寻找用户ID类似,获取话题ID当然要寻找话题,话题颜色特殊,前后带有#,格式:#话题名字#,先找到您要爬取的一个话题。

tim%e6%88%aa%e5%9b%be20180417201144

第二步:点击话题之后,我们来到这样的页面。同样看链接栏,我们就能获取到该话题的ID:1008088bc19484a8870f08c7842ec21142e553。

tim%e6%88%aa%e5%9b%be20180417201325

第三步:复制话题的ID,设置到爬虫设置中:

tim%e6%88%aa%e5%9b%be20180417202104

爬虫启动后,就可以爬取博文了。