Python爬虫之豆瓣排行榜(正则表达式)

   日期:2024-12-29     作者:o93v3       评论:0    移动:http://w.yusign.com/mobile/news/7046.html
核心提示:2.1 网页分析 网页翻到最后,点击“下一页”,发现网址变成了“https://maoyan.com/board/4?offset=10”;

2.1 网页分析

网页翻到最后,点击“下一页”,发现网址变成了“https://maoyan.com/board/4?offset=10”;再点击下一页,网址又变成“https://maoyan.com/board/4?offset=20”

2.2 请求网页

 

查看网页源代码

 
 

2.3解析网页

此处使用正则表达式解析

 

说明
1)【.*?】的组合前后加上特定上下文,堪称无敌匹配,我很喜欢这么用;比如在"…1203" title=“霸王别姬” data…“找到"霸王别姬"四个子,上文是【title=”】,下文是【" data】,在上下文中间加入这个组合,就可以完美匹配出中间的内容
2)当需要提取一串字符的多项内容时,每一项内容用括号括起来,用findall输出结果
3)最后面re.S表示可以跨行匹配,原字符串多行显示时需要这么用
4)更多正则表达式的用法请参考博客
https://blog.csdn.net/bingocoder/article/details/103746826

 
 
 
 
 
 
 
 

2.4 本案例完整代码如下

     本文地址:http://w.yusign.com/news/7046.html    述古往 http://w.yusign.com/static/ , 查看更多
 
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

举报收藏 0打赏 0评论 0
 
更多>同类资讯
0相关评论

相关文章
最新文章
推荐文章
推荐图文
资讯
点击排行
{
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号