爬虫__免费代理池搭建,,代理池使用,,爬取某视频网站,,爬取新闻,,bs4介绍和遍历文档树,,搜索文档树,,css选择器,,

   日期:2024-12-29     作者:o93v3      
核心提示:# 代理有免费和收费代理# 代理有http代理和https代理# 匿名度-高匿:隐藏访问者ip-透明:服务端能拿到访问者ip-作为后端,如何拿

# 代理有免费和收费代理
# 代理有http代理和https代理
# 匿名度
-高匿:隐藏访问者ip
-透明:服务端能拿到访问者ip
-作为后端,如何拿到使用代理人的ip
-请求头中:x-forword-for
-如果一个 HTTP 请求到达服务器之前,经过了三个代理 Proxy1、Proxy2、Proxy3,IP 分别为 IP1、IP2、IP3,用户真实 IP 为 IP0,那么按照 XFF 标准,服务端最终会收到以下信息:
X-Forwarded-For: IP0, IP1, IP2
-如果拿IP3,remote-addr中


# 搭建免费代理池:https://github.com/jhao104/proxy_pool
-使用python---》爬取免费的代理---》解析出ip和端口,地区---》存到库中
-使用flask---》搭建了一个web服务--》只要向 /get 发送一个请求,他就随机返回一个代理ip



# 步骤:
1 把项目下载下来,pycharm打开https://github.com/jhao104/proxy_pool
2 安装依赖,虚拟环境
3 修改配置文件
DB_CONN = 'redis://127.0.0.1:6379/2'
4 启动爬虫:python proxyPool.py schedule
5 启动web服务:python proxyPool.py server

6 以后访问:http://127.0.0.1:5010/get/

7 使用代码
import requests
res=requests.get('http://192.168.1.252:5010/get/?type=http').json()
print(res['proxy'])

# bs4是解析 xml/html 格式字符串的解析库
-不但可以解析(爬虫),还可以修改

爬虫__免费代理池搭建,,代理池使用,,爬取某视频网站,,爬取新闻,,bs4介绍和遍历文档树,,搜索文档树,,css选择器,,

     本文地址:http://w.yusign.com/tjnews/3496.html    述古往 http://w.yusign.com/static/ , 查看更多
 
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

举报收藏 0打赏 0
 
更多>同类生活信息

相关文章
最新文章
推荐文章
推荐图文
生活信息
点击排行
{
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号