ThinkSNS发布插件来了

神箭手目前已经支持的发布端包括:

1、网站类

WordPress采集发布插件,织梦(DEDECMS)采集发布插件,帝国采集发布插件,WeCenter采集发布模块,Discuz采集发布模块,PhpCms采集发布模块,PhpWind采集发布模块

2、数据库类

Mysql发布模块,Oracle发布模块,SqlServer发布模块,MongoDB发布模块,PostgreSQL发布模块。

3、其他

邮箱发布模块

现在,发布模块中又有新成员加入-ThinkSNS采集发布模块:

ThinkSNS系统,国内首家全应用端平台社交SNS系统,涵盖WEB网站端、H5手机微信端、Android端(原生)、iOS端(原生)等多个应用端。自主版本IM聊天系统,让及时聊天功能不在产生额外花费。朋友圈、微吧、话题、频道、找伙伴、商城、活动、资讯、找人、地图定位、风云榜附近的人等50多个功能板块,全方位覆盖SNS系统所需,让网站、应用建设更快捷,让系统开发更简单。

插件安装教程:http://docs.shenjianshou.cn/use/publish/install/thinksns.html

发布使用教程:http://docs.shenjianshou.cn/use/publish/website/thinksns.html 

神箭手数据调用API(GraphQL)正式上线

神箭手数据调用服务-GraphQL正式上线,帮助广大客户快速请求数据,对于简单的数据需求无需在写后端代码。

GraphQL是什么?

GraphQL 是一个由Facebook提出的 应用层查询语言. 使用 GraphQL, 你可以基于图模式定义你的后端. 然后客户端就可以请求所需要的数据集。参考教程:

http://docs.shenjianshou.cn/use/graphql/graphql.html

神箭手为什么选择GraphQL?

在做技术选型时,我们的工程师进行了激烈的讨论,最终确定通过GraphQL的形式公开数据的接口,主要原因有一下三点:

1、神箭手已经使用restful接口来处理爬虫的控制命令,不希望混淆两套功能不同的api。

2、GraphQL可以更加自由的请求数据,满足不同条件下的请求需求。

3、GraphQL作为facebook开源的规范,有着较多的类库可以支持其调用方式,减少大家客户端的代码工作量。

如何使用神箭手的GraphQL

每一个数据源都会搭配一个GraphQL的页面,如果使用的是爬虫的话,可以通过爬虫的GraphQL页面进入对应数据源的页面,即可查看调用方式。

神箭手发布模块上线邮箱批量发送接口

神箭手邮箱批量发送接口正式上线:

应用场景:

1.抓到数据之后就发送到自己的邮箱,实时提醒。

2.监控网站留言中一旦有人留下邮箱就自动发送邮件,实现用户的自动沟通。

配置方式:

邮箱发送中需要用到一个很重要的概念就是模板化,因为不同的场景下我们希望发送的邮件内容,标题都是不一样的,那么我们如果设置内容呢,这是神箭手给大家提供了一个非常方便的功能–模板化。

我们只需要将动态的内容用大括号标记一下,到映射页面做映射即可:

如我们希望收件人是用数据中的邮箱地址,则我们将收件人设置框内填写

{收件人邮箱}

点击下一步,就可以配置收件人对应的数据中的邮箱字段就可以实现动态发送了。

如下图所示,可通过点击左侧发布数据库/网站->选择批量发送邮箱接口找到这个功能。

如何在神箭手上快速开发爬虫——第二课 如何爬取JS动态生成的数据【豌豆荚游戏排行榜】

注:

1、本课完整的爬虫代码可以在神箭手示例代码中查看:http://www.shenjianshou.cn/index.php?r=demo/docs&demo_id=500003

2、如何在神箭手上运行代码,请查看文档:http://docs.shenjianshou.cn/overview/guide/develop/crawler.html

3、更详细的爬虫开发教程,请查看文档:http://docs.shenjianshou.cn/develop/summary/summary.html


大家好,游牧老师我又来啦( ̄▽ ̄)”

想必大家都看过我这个系列的第一篇教程:简单的文章爬虫【糗事百科】了吧,如果还没有看过的小伙伴建议先去看一下,有点基础再继续看此课,更容易理解哦~


好了,我们开始如何在神箭手上开发爬虫系列的第二课,今天我们主要来研究下如何爬取JS动态生成的数据。

熟悉网页的童鞋都知道,现在很多网页都是动态的,也就是说很多数据都是通过js异步加载显示的。在神箭手上开发爬虫,有两种方式可以方便爬取这类动态生成的数据:1、模拟发送http请求;2、使用神箭手提供的自动js渲染大杀器。


简单说明一下这两种方式的区别吧:

1、模拟发送http请求。

需要分析下http请求的地址、参数等,一般用chrome的开发者工具的Network选项就能很容易地看到。

这种方式很灵活,获取数据的速度很快。不过需要一定的请求分析能力,另外如果js很多,逐个模拟发请求也挺麻烦的。

2、使用神箭手提供的自动js渲染。

只需要在configs中设置enableJS:true就可以开启自动js渲染,就可以像爬取静态页面的数据一样直接抽取动态数据即可。

这种大杀器用起来不要太爽哦,不过因为渲染需要一段时间,所以获取数据的速度肯定没有模拟发送请求快。另外如果在渲染的过程中切换代理ip可能会导致渲染失败。

p.s. 更多关于js自动渲染的介绍请参考神箭手开发文档:http://docs.shenjianshou.cn/develop/extensions/renderJS.html

继续阅读“如何在神箭手上快速开发爬虫——第二课 如何爬取JS动态生成的数据【豌豆荚游戏排行榜】”

Demo导入功能助力新手快速入门

很多新手程序员们在初次接触神箭手的时候,会有种无从下手的感觉。文档太长不太愿意去看。现在神箭手提供了一个更加快捷的方案,即直接入Demo。

神箭手后台首页提供了十几个Demo程序,分别对应了不同场景下的爬虫和API代码,点击导入,即可直接使用这些爬虫,也可以通过源码学习神箭手爬虫到底如何写。