百度指数的cookie获取

百度指数API获取地址:http://www.shenjian.io/index.php?r=market/product&product_id=500422

第一步:打开https://www.baidu.com/ 会出现下面界面,点击右上角登陆。

baidu_1

第二步:登陆上后右上角会有你的账户名确定登陆完成后;点击F12后下面会弹出如下图的界面,1.先点击Network  2.再点击左上红点旁边的黑圆圈 3.在勾选Preserve log

baidu_3

第三步:按F5刷新当前页面,刷新后下面会出现一个表格我们翻到最上面找到www.baidu.com如下图所示:

baidu_4

第四步:找到www.baidu.com后点一下右边会变成如图所示的样子,然后我们找到Request Headers下的Cookie(红圈内的)复制出来就行了。

baidu_5

第五步:打开百度指数API,点击测试工具,将复制的cookie填入参数中:

baidu_6

第六步:点击开始测试,就可以看到结果了,当然这个cookie是可以设置多个的,可以获取多个账号的cookie,然后用 ||| 拼接起来,调用成功之后,后面的调用就不用传这个参数了。

新浪微博爬虫使用教程:如何获取用户ID或话题ID

新浪微博爬虫获取地址:http://www.shenjian.io/index.php?r=market/product&product_id=500032

一.如何获取用户ID

第一步:比如要获取萧山网的用户id,先从微博列表中找到萧山网发的一条微博,没有的话您需要先关注该用户,然后再从发布的微博中找到发布时间,点击发布时间。

tim%e6%88%aa%e5%9b%be20180417195852

第二步:点击发布时间之后,我们来到这个页面。看链接栏,我们就能获取到这个用户的ID:1652986661。

tim%e6%88%aa%e5%9b%be20180417200559

第三步:复制用户的ID,设置到爬虫设置中:

tim%e6%88%aa%e5%9b%be20180417201511

二.如何获取话题ID

第一步:与寻找用户ID类似,获取话题ID当然要寻找话题,话题颜色特殊,前后带有#,格式:#话题名字#,先找到您要爬取的一个话题。

tim%e6%88%aa%e5%9b%be20180417201144

第二步:点击话题之后,我们来到这样的页面。同样看链接栏,我们就能获取到该话题的ID:1008088bc19484a8870f08c7842ec21142e553。

tim%e6%88%aa%e5%9b%be20180417201325

第三步:复制话题的ID,设置到爬虫设置中:

tim%e6%88%aa%e5%9b%be20180417202104

爬虫启动后,就可以爬取博文了。

一大波API上架神箭云市场,接好啦~

神箭云市场近期上架大量全面的API接口,涵盖生活服务、金融征信、娱乐休闲等不同领域。并且将会持续添加更多丰富的API接口,开发者还可以通过神箭手的SDK统一快速地进行API调用。

戳我查看有哪些API吧

其中包括了很多开发者常用的API,包括天气预报、历史上的今天、解梦、汇率查询、自然语言处理等接口,都是免费提供的,开发者可以免费调用。

基于分布式机器集群和源于Google的大数据技术积淀,神箭手将为开发者提供全面稳定、调用方便快速的API服务。数据来源权威,实时更新,接入方便,并提供定制API服务。

抖音短视频采集爬虫试用教程:如何设置用户ID

抖音短视频采集爬虫获取地址:http://www.shenjian.io/index.php?r=market/product&product_id=941338

第一步:在手机中打开抖音APP,然后找到您要爬取的用户的视频,点击头像:

 

tim%e6%88%aa%e5%9b%be20180330182803

第二步:进去之后点击关注右边的图标:

 

tim%e6%88%aa%e5%9b%be20180330183132

第三步:在弹框中选择分享个人名片,然后再选择链接默认,然后再选择微信、qq等分享方式分享出去,分享的内容是一个链接如:https://www.douyin.com/share/user/76055758243/?share_type=link,里面的:76055758243就是用户ID。

 

tim%e6%88%aa%e5%9b%be20180330183713

第四步:将得到的用户ID设置到爬虫设置中:

 

tim%e6%88%aa%e5%9b%be20180330192149

爬虫启动后,将爬取设置用户发送的视频,和该用户喜欢的视频。

如何在神箭手上快速开发爬虫——第八课 如何爬取手机瀑布流网页数据【手机网新闻】

1、本课完整的爬虫代码可以在神箭手示例代码中查看

2、如何在神箭手上运行代码,请查看文档

3、更详细的爬虫开发教程,请查看文档  

 

大家好,我是来自神箭手的游牧老师。一段时间不见,不知道大家爬虫开发练习地怎么样了@@ 今天我继续给大家讲解新的爬虫开发知识点:如何爬取手机端网页和如何爬取下拉加载更多的这类瀑布流形式的网页数据!

对于基础知识还不熟悉的童鞋,请先从第一课开始学起啊:第一课点这里

 

以手机版的新闻网为例,首页地址是:http://m.cankaoxiaoxi.com/。打开可以发现是个典型的瀑布流形式的网页,访问到最底部的时候需要“下拉加载下一页”:

1

 

在神箭手上,要爬取手机移动版网页,只需要设置useragent为移动版设备即可,那么在请求网页的时候神箭手便会自动随机移动设备代理,不需要开发者专门去设置,而且可以有效减少反爬的几率:

userAgent : UserAgent.Mobile //指定ua为移动设备

userAgent : UserAgent.Android //指定ua为android设备

userAgent : UserAgent.iOS//指定ua为iOS设备

 

对于瀑布流形式的抓取,可以通过浏览器的network选项,很容易找到加载下一页时的具体请求:

2

 

请求的url为:http://app.cankaoxiaoxi.com/?app=shlist&controller=mobile&action=index&page=2&count=14&update=1521438389&pagesize=1&pic_str=2258811,2258810,2258812&jsoncallback=jsonp1521439260574&_=1521439610252。其中包括了下一页的页码,时间戳等参数

那么在开发的时候,我们只需要手动添加下一页列表页的url和列表页中包括的内容页url到待爬队列中,神箭手便会自动下载这些网页并从内容页中抽取需要的数据了,是不是很简单?

废话不多说,完整的代码如下。就这么简单的几行代码就能搞定手机瀑布路网页的爬取了!

/*
云爬虫源码:爬取手机网(http://m.cankaoxiaoxi.com/)的新闻内容,新闻列表是瀑布流形式