微信文章爬虫[按公众号或关键字]
爬虫
  •  验证码自动识别
  •  企业级专属代理IP
版本:v2.3(16)
上架时间:2017-06-09
使用人数:11274 人
更新时间:2017-07-25
套餐限制: 企业标准版  
当前套餐:未登录
套餐限制:企业标准版
免费获取
应用详情
版本信息
用户评论 (10)
爬取数据示例
自定义项
选择微信文章爬取方式
选择微信公众号ID或公众号名称的获取方式
选择关键字的获取方式
微信公众号ID或公众号名称
关键字
存放微信公众号ID或公众号名称的url
存放关键字的url
原文链接
去掉微信文章中以图片开头的第一张图和最后一张图
【实验功能】使用神箭手自研的人工智能验证码识别(免费)
尝试获取更多微信历史文章
应用介绍

微信公众号文章爬虫,可根据微信公众号或关键字在搜狗微信中搜索来爬取微信公众号的文章,爬取信息包括文章标题、作者、公众号名称、微信号、文章封面图、文章概述、文章内容、公众号头像、公众号介绍、公众号二维码、临时URL、原文链接等。

【注意】:

1、可选择是否需要原文链接(原文链接目前只支持延迟更新)。选择后,系统将会在每个工作日的上午10点和下午4点对爬取结果中缺失的原文链接自动进行补充和修复,原文链接更新时会发送一次Webhooks变动数据(data.updated),对开启自动发布的用户,发布到数据库的原文链接如果也需要更新,创建发布项的时候需要选择"新建表-发布并更新旧版本数据"。

2、可设置选择按公众号或关键字爬取,公众号和关键字可以在设置中直接填写,也可以通过HTTP链接的方式提供(公众号链接参考关键字链接参考)。

3、按公众号爬取时,公众号的历史信息页面可能会出验证码,一个验证码一分钱;可选择神箭手自研的人工智能验证码识别(实验阶段),识别速度快并且免费,准确率可达60%(重试机制可保证数据几乎不会漏爬),欢迎大家试用。

4、由于搜狗微信的限制,每个公众号只能爬取最近的10条群发中的文章,每个关键字只能爬取前10页搜索结果中的文章。

5、微信对图片做了防盗链,爬取的原始图片链接是无法正常显示的。如需正常显示,请在爬取前在爬虫设置中开启图片云托管(即在爬取过程中自动下载图片)。

6、部分公众号可获取更多历史文章(需在设置中开启),比最近10条群发更多,但还是无法获取所有历史文章。



爬虫特色:

1、无需安装,云端24小时采集

神箭手独创的云端采集技术,云端控制,24小时采集。无论在哪里,打开电脑就可以操作查看。

2、专业的应对反爬的私密代理IP自动切换,不用担心反爬

该爬虫自动接入企业私密代理IP,不用担心防屏蔽策略!

3、标准格式化数据自动发布和导出,无缝对接您的现有系统

可自动发布和导出数据到您的数据库或网站,同时还支持webhooks,restful接口,无缝快速集成到您的现有系统

4、官方维护,持续更新

搜狗微信突然改版,无法爬取数据?不用担心,神箭手工程师会用最快的速度跟进并修复,神箭手官方出品,品质保证!


为什么选择神箭手

购买神箭手的服务支出<< 技术人员(8000元/月) + 私密IP代理(900元/月) + 服务器费(500元/月) +...

当前版本:v2.3(16)更新日期:2017-07-25
更新内容
1. 修复原文链接可能无法更新的bug
更多更新版本
版本号:v2.3(16)更新日期:2017-07-17
更新内容
1. 修复原文链接可能无法更新的bug
版本号:v2.2(15)更新日期:2017-07-15
更新内容
1. 修复部分历史文章可能漏掉的bug
版本号:v2.1(14)更新日期:2017-07-11
更新内容
1. 部分公众号支持获取更多历史文章(并非完整历史文章)
2. 优化爬虫速度
版本号:v2.0(12)更新日期:2017-07-11
更新内容
1. 部分公众号支持获取更多历史文章(并非完整历史文章)
2. 优化爬虫速度
版本号:v1.10(11)更新日期:2017-07-08
更新内容
1. 修复可能会多爬不相关的公众号文章的bug
新手指南
业务咨询
返回顶部