如何在神箭手上快速开发爬虫——第六课 如何爬取分类数据【春雨医生健康资讯文章采集】

1、本课完整的爬虫代码可以在神箭手示例代码中查看
2、如何在神箭手上运行代码,请查看文档
3、更详细的爬虫开发教程,请查看文档  


大家好,我是神箭手的游牧老师~

今天继续给大家带来 如何在神箭手上快速开发爬虫 系列教程的第六课:如何爬取分类数据。

对于基础知识还不熟悉的童鞋,请先从第一课开始学起啊:第一课点这里


神箭手为了简化爬虫代码,默认是全站爬虫,会自动从入口页链接中自动发现新的链接,全站爬取。但是在爬取文章或者商品数据的时候,我们可能需要精准采集,比如只爬取某些分类的文章或者某个店铺某个关键字的商品。对于这种情况,有两种处理办法:

1、优化列表页和内容页url正则表达式,使其只匹配需要的url;

2、关闭自动链接发现,手动添加需要的url到待爬队列中。

第一种办法没什么好说的,大家多熟悉熟悉正则表达式即可。本文主要讲解第二种办法。关闭自动链接发现和手动添加新的链接,都是在网页下载完成后的回调函数中处理的。


举个例子,按分类爬取春雨医生的健康资讯文章:



我们首先通过自定义输入(在本系列上一篇文章有具体讲解如何使用自定义输入),传入要爬取的分类的首页url,比如:https://www.chunyuyisheng.com/pc/health_news/?channel_id=21

// 输入要爬取的分类url,可以输入多个 
var channelUrls = ["https://www.chunyuyisheng.com/pc/health_news/?channel_id=21", "https://www.chunyuyisheng.com/pc/health_news/?channel_id=35"];//@input(channelUrls, 要爬取的资讯分类首页url)

然后在爬取前,将这些首页url添加到入口页url列表中:

如何查找微信公众号对应的微信号?

在使用微信相关的爬虫或者API的时候,经常需要输入微信号。比如http://www.shenjian.io/index.php?r=market/product&product_id=500099

但是很多人只知道公众号名,不知道微信号,下面我们以公众号 ”人民日报” 为例,教大家如何查找公众号对应的微信号。


1. 打开搜狗微信搜公众号

在浏览器中打开搜狗微信,输入公众号名”人民日报”,并点击”搜公众号”



2. 从搜索结果中找到微信号

在搜索结果中找到想要查找的公众号”人民日报”,即可看到该公众号对应的微信号”rmrbwx”


如何使用神箭手文件云托管服务?

本文给大家演示如何使用神箭手文件云托管服务,适用于需要下载图片或其他文件的情况,解决目标网站使用防盗链的问题。目的是让大家简单了解怎样给神箭手应用设置文件云托管


本文使用神箭手大数据市场提供的微信文章爬虫[按公众号或关键字]”举例说明,因为搜狗微信文章的图片使用了防盗链,要想正常访问图片,就需要使用神箭手文件云托管服务


步骤1 注册并登录神箭手,打开神箭手大数据市场,找到“微信文章爬虫[按公众号或关键字]”,点击“获取爬虫”按钮,稍等片刻,页面会自动跳转到爬虫总览页。



步骤2 在爬虫总览页,点击“爬虫设置”,在“功能设置”找到“文件云托管”服务,选择托管服务器(这里我们选择“托管到神箭手”),并选择托管文件类型(默认选择“图片 / image”),点击“保存”即可。


注意:

1. 可以将文件托管到4种服务器上:七牛、阿里云、又拍云和神箭手

2. 使用神箭手云托管服务托管到不同服务器上需配置的信息是不同的,点此查看神箭手文件云托管详细教程。


步骤3 在爬虫总览页启动爬虫,待爬虫爬取到数据后,进入左侧“文件云托管”栏目,便可查看已经托管的图片了。


企业定制版套餐开通购买了!

很多用户期待的企业定制版套餐现在开始可以开通了!现在购买价格最优惠!


企业定制版在基础套餐的基础上,增加了团队协作的功能。

适合于:

  • 1、学校学生培训、教学科研工作等;
  • 2、企业稳定批量数据采集和分析处理等;
  • 3、开发和运营人员分权限团队协作;

可享有:

  • 1、不同节点配置;
  • 2、团队协作/席位;
  • 3、更高的免费额度;
  • 4、专属技术讨论群;
  • 5、可预定专业工程师上门培训;
  • 6、可预定私用云部署等;

具体定价可以查看官网的相关介绍http://www.shenjian.io/index.php?r=home/pricingCustomize

如需了解开通可以联系我们,官网显示联系我们的方式都可以哦:http://www.shenjian.io/index.php?r=home/contact

如何一键获取千万企业名录数据

想要查询企业名录数据?

你是不是需要找个平台。

那具体找哪个平台呢

你最先想到的是不“天眼查”“企查查”

那想要一次性获取大量最新、最准确、价格便宜的企业名录数据,你最先想到的是什么呢?

犹豫了吧!这里,小编给你推荐一个经济实惠、功能强大的数据平台——“神箭手大数据平台(以下简称“神箭手”)!如下图所示:

作为一名非常有好奇心的小编,在认真对比了“天眼查”、“企查查”和“神箭手”的区别后,惊人地发现:大家熟知的“天眼查”和“企查查”平台收费昂贵,且获取企业名录数据的程序复杂;反观“神箭手”,不仅提供最新的企业名录数据,而且价格便宜一键就能获取数据,简直就使用者的救星啊!


下面就让小编来给大家介绍一下,这款价格便宜、数据准确的千万级别企业名录数据的购买和使用吧!

步骤1:购买数据

打开“神箭手”官网,注册并登录,在神箭手“大数据市场”搜索“企信”,根据需求选择“地域”和“行业”,点击“获取数据”购买,数千万企业名录数据就是你的了!

步骤2:发布和导出数据

企业名录数据源购买成功后,在数据源总览页,选择“发布数据”,创建发布项,便可一键“自动发布”数据,点此看发布数据详细教程。

此外,还可选择“导出数据”,快速将数据导出,点此查看导出数据详细教程