php 获取搜狗微信 sn,记搜狗微信号搜索反爬虫

日期：2024-12-19 作者：o93v3 评论：0 移动：http://w.yusign.com/mobile/news/989.html

核心提示：反爬虫RSS Factory前段时间又出问题了，访问微信公众号RSS一直500，完全没法用了。经调试，发现由于爬取数据

反爬虫

RSS Factory前段时间又出问题了，访问微信公众号RSS一直500，完全没法用了。

经调试，发现由于爬取数据太频繁，触发了搜狗微信公众号的反爬虫，探索了下反爬虫的规则:

没有带Cookie的情况下，频繁访问触发反爬虫

带Cookie的情况下，频繁访问偶尔触发反爬出，偶现500错误

不带Cookie情况下，隔几个小时范围一下不会触发反爬虫

Cookie有几个关键字段用于识别爬虫，SUID，SNUID，SUV。

不带Cookie请求任意搜狗微信公众号页面，应答set-cookie会带SUID，SNUID字段，SUV由JavaScript生成。

应对反爬虫

基于以上探索的反爬虫措施，制定应对反爬虫的策略。

维护一个Cookie池

爬取数据时随机取Cookie

定时更新Cookies池

实现

php 获取搜狗微信 sn,记搜狗微信号搜索反爬虫

@tornado.gen.coroutine

def get_cookies():

cookies = []

client = tornado.httpclient.AsyncHTTPClient()

for i in xrange(10):

url = 'http://weixin.sogou.com/weixin?query=%s' % random.choice('abcdefghijklmnopqrstuvwxyz')

# 获取SNUID

cookie_request = tornado.httpclient.HTTPRequest(url=url, method='HEAD')

cookie = yield client.fetch(cookie_request)

SUID = re.findall(r'(SUID=S+?);', cookie.headers['set-cookie'])[0]

m = re.findall(r'(SNUID=S+?);', cookie.headers['set-cookie'])

if m:

SNUID = m[0]

headers = {'Cookie:': '; '.join([SUID, getSUV(), SNUID])}

cookies.append(headers)

mc = memcache.Client(['%s:15211' % IP])

if cookies:

mc.set('cookie', cookies)

用到了tornado的协程，使用异步httpClient，发送请求时使用HEAD方法，只请求头部，通过解析set-cookie生成自己的Cookie头，连续不带Cookies访问1-次，生成Cookie池，并且保存在memcached中。

在调用tornado.ioloop.IOLoop.instance().start()之前，调用get_cookies()，任务就能正常运行了，但是我们需要定时更新Cookie池，所以还要添加定时任务。

tornado有两种方式可以定时运行可调用对象：

# 延时运行，接受delta延时时间间隔为datetime.delta对象，func为可调用对象，但是只能调用一次，所以如果用add_timeout还需要在func中显式的再add_timeout才能实现定时调用

tornado.ioloop.IOLoop.instance().add_timeout(delta, func)

# 定时回调，以毫秒为单位，每6个小时调用一次

tornado.ioloop.PeriodicCallback(get_cookies, 6*60*60*1000).start()

效果

实现了定时任务后每6个小时会更新一次Cookie池，产生10个新的Cookie，爬取数据时使用随机Cookie明显降低了产生500的概率，效果良好。

本文地址：http://w.yusign.com/news/989.html 述古往 http://w.yusign.com/static/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0打赏 0评论 0

更多>同类资讯

0 条相关评论

相关文章

最新文章

推荐文章

推荐图文

资讯

点击排行

• 提升品牌关键词的百度排名？百度SEO最划算！	• 扬州低分三本学校排名榜扬州大学医学院有没有
• 微信下载安装2024最新版免费版	• 超大模型工程化实践打磨，百度智能云发布云原生
• 喵趣漫画 app下载	• 焦点反馈：邯郸白癜风医院预约挂号“排名头条”
• 清华大学电子系主任汪玉：AI赋能未来 ——探索	• 一站式教你怎么做海外问卷调查项目？项目介绍+
• 汽车断电后如何恢复行车电脑	• 挂号系统：贵阳去哪里治白癜风“全新排名发布”