如何采集新浪微博数据?

 

本文主要介绍神箭手“新浪微博采集爬虫”(以下简称“微博爬虫”)的使用教程以及注意事项。

 

新浪微博中有大量高价值的软文数据,应用价值很高,为此,神箭手推出了“微博爬虫”供各位使用。

 

接下来,给你详细说明用神箭手“微博爬虫”采集并导出数据的步骤

 

步骤1  注册并登录

注册并登录神箭手,进入神箭手控制台。

注意:

神箭手支持使用QQ和GitHub账号登陆。

1

 

步骤2  购买爬虫

进入神箭手大数据市场,找到“微博爬虫”,点击“获取爬虫”按钮,便可轻松获取神箭手“微博爬虫”了。

注意:

要正常使用“微博爬虫”需要神箭手“企业标准版”及以上套餐,点此升级神箭手套餐。

2

 

步骤3  设置爬虫

进入“微博爬虫”总览页,点击“应用设置”,您可以选择“文件托管”服务托管图片、视频等文件,设置“微博的爬取方式”,以及是否爬取微博评论和转发等数据,最后别忘了点“保存”。

注意:

1. 如果想提高爬虫的爬取速率,建议勾选“只打印关键日志”;

2.爬虫支持按“昵称、用户ID、关键字、话题和话题ID”爬取微博,可根据实际情况自由选择。

3

4

 

步骤4  爬取数据

再次进入“微博爬虫”总览页,点击“启动爬虫”,爬虫变开始爬取微博了,稍等片刻,便可在“爬取结果”页查看爬取的微博数据了。

5

 

步骤5  数据发布与导出

在“爬取结果”中出现爬取的数据后,您可以选择将数据“发布到网站或数据库”中,点此查看神箭手数据发布详细教程。

6

此外,还可选择将数据“导出”,点此查看神箭手数据导出详细教程。

7

 

“新浪微博爬虫”数据导出示例,如下图所示:

8

 

神箭手大数据市场“新浪微博爬虫”购买地址:http://www.shenjian.io/index.php?r=market/product&product_id=500032