数据发布新增支持Tipask系统

神箭手上的数据(包括从市场购买的数据、爬虫爬取的数据、本地上传或连接远程数据库的数据、数据清洗输出的数据、机器学习的训练数据等)都可以通过数据发布功能一键发布到不同的CMS网站。这也是最受使用者欢迎的功能之一。

今日,官方的数据发布新增支持Tipask系统,使用者可以将数据一键自动发布到自己的Tipask网站上啦!


Tipask插件下载地址:http://www.shenjian.io/index.php?r=home/download

Tipask发布使用教程:http://docs.shenjian.io/use/publish/website/tipask.html

如何查找微信公众号对应的微信号?

在使用微信相关的爬虫或者API的时候,经常需要输入微信号。比如http://www.shenjian.io/index.php?r=market/product&product_id=500099

但是很多人只知道公众号名,不知道微信号,下面我们以公众号 ”人民日报” 为例,教大家如何查找公众号对应的微信号。


1. 打开搜狗微信搜公众号

在浏览器中打开搜狗微信,输入公众号名”人民日报”,并点击”搜公众号”



2. 从搜索结果中找到微信号

在搜索结果中找到想要查找的公众号”人民日报”,即可看到该公众号对应的微信号”rmrbwx”


企业定制版套餐开通购买了!

很多用户期待的企业定制版套餐现在开始可以开通了!现在购买价格最优惠!


企业定制版在基础套餐的基础上,增加了团队协作的功能。

适合于:

  • 1、学校学生培训、教学科研工作等;
  • 2、企业稳定批量数据采集和分析处理等;
  • 3、开发和运营人员分权限团队协作;

可享有:

  • 1、不同节点配置;
  • 2、团队协作/席位;
  • 3、更高的免费额度;
  • 4、专属技术讨论群;
  • 5、可预定专业工程师上门培训;
  • 6、可预定私用云部署等;

具体定价可以查看官网的相关介绍http://www.shenjian.io/index.php?r=home/pricingCustomize

如需了解开通可以联系我们,官网显示联系我们的方式都可以哦:http://www.shenjian.io/index.php?r=home/contact

如何上墙神箭手+交换友链

一、上墙神箭手的官网后,会在官网首页的”他们正在使用”模块显示,可用于展示企业风采和交换友链。

如何申请:

  1. 必须是注册神箭手账号并正在使用的企业用户
  2. 请将企业名称、官网链接(需同时符合和申请交换友链)、神箭手账号名、展示用的logo图片一并发给我们。我们的联系方式包括:http://www.shenjian.io/index.php?r=home/contact
  3. 收到您的申请后,我们会尽快审核并回复您


二、交换友链,包括上墙的官网链接和官网底部的友链

如何申请:

  1. 符合百度权重2以上的网站,可以和神箭手相互添加网站链接
  2. 在贵站添加神箭手链接
  3. 您可以根据下方提示,在您的网站中插入神箭手的文字链接、图片链接代码:
    • 文字链接代码:

      <a href='http://www.shenjian.io' target='_blank'>神箭手云</a>
    • 图片链接代码:

      <a href='http://www.shenjian.io' target='_blank'><img src='http://www.shenjian.io/assets/image/home/logo_home_solo.png' alt='神箭手云'/></a>

  4. 将贵站链接发给我们,我们的联系方式包括:http://www.shenjian.io/index.php?r=home/contact
  5. 收到您的申请后,我们会尽快审核并回复您

爬虫中Cookie的伪造(非登录)-反爬与反反爬的奇技淫巧

两篇文章下肚,各位看官感觉如何。避免新同学不知道之前的文章:

爬虫被封IP了怎么办-反爬与反反爬的奇技淫巧

爬虫中的验证码识别-反爬与反反爬的奇技淫巧

前两篇文章算是讲了最常规的两种反爬,本篇文章理论上应该说说登录,因为基本上这三个反爬套路结束之后,其他都是小众了。不过登录这个东西真的没太多可讲的,因为严格来说登录并不是反爬,只是一种保护手段,后面有时间简单说说吧。

今天咱们要聊的这位主角跟登录倒也有点关系。先来简单摘抄一段Cookie的描述:

Cookie,有时也用其复数形式Cookies,指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密)。定义于 RFC2109 和 2965 中的都已废弃,最新取代的规范是 RFC6265

那简单来说Cookie就是一个浏览器上的缓存或者叫小数据库也行,在没有LocalStorage之前,我们前端工程师就只能用这破玩意当数据库使。

那现在问题来了,这玩意对反爬到底有什么帮助呢。

好了,我的经典套路又要来了,先假装介绍反爬技巧:

一.为什么Cookie能够做反爬?

这个问题远比前两篇文章里的要难回答,因为IP和验证码都是实打实的原因导致人家是反爬的上上手。但是Cookie则不然,Cookie上的反爬则更多的是纯粹人与人之间的对抗,Cookie由于是存储在客户端上导致其伪造成本极低,那为什么还有那么多的网页采用Cookie来做反爬呢?(当然很多爬虫菜鸟工程师可能都判断不出来是用Cookie在做反爬),是因为目前Javascript混淆的手段也是花样百出,任你是Javascript的高手高手高高手,我也能用恶心的招数(比如把所有代码拆成ASCII码数组,再动态拼合后eval)来怼得你不想吃饭。这也成就了Cookie反爬成为除IP和验证码这两类可见的反爬手段之后最重要的一种补充。当然具体Javascript对抗相关的内容我们下一篇文章再讲。

二.怎么做好Cookie反爬?

首先咱们得知道,常见的Cookie设置方式有两种,一种在后端设置,通过Response的Header传输到前端浏览器中,如下图:

另一种则更加隐蔽,通过前端调用document.cookie来设置,对于反爬效果来说,第二种显然比第一种效果来的好的多,起码能让反反爬工程师少陪老婆一个星期,是不是想起来都觉得很过瘾呢。当然直接调用document.cookie来设置基本是没什么效果的,一定要配合上Javascript的混淆才能熬出一锅反爬的好汤来。至于怎么混淆,我们也留到下一篇文章再讲。

三.写爬虫时发现Cookie很复杂该怎么分析?

我们公司有专门做爬虫的同事一见到复杂的Cookie就想哭,Cookie确实属于反反爬中相当难缠的对手,应该说跟Request中有一个摸不着头脑的参数值可以并驾齐驱。那我们遇到这种Cookie应该如何沉着应对呢?下面我就给大家把解题思路讲一讲,考试必考啊。

首先一定准备好Chrome,老师其他工具用的少,就不展开了。

1. 先删掉Cookie看正不正常的

第一步也是最重要的一步,千万记得先把Cookie都删掉请求一次,如果没问题,万事大吉。这里注意对于Cookie来说一定要把环境处理好,因此测试之前一定记得点开『打开新的隐身窗口』的选项。每次测试完了,打开控制界面,清空Cookie再做下一次测试。

12