2.1 网页分析
网页翻到最后,点击“下一页”,发现网址变成了“https://maoyan.com/board/4?offset=10”;再点击下一页,网址又变成“https://maoyan.com/board/4?offset=20”;
2.2 请求网页
查看网页源代码
2.3解析网页
此处使用正则表达式解析:
说明:
1)【.*?】的组合前后加上特定上下文,堪称无敌匹配,我很喜欢这么用;比如在"…1203" title=“霸王别姬” data…“找到"霸王别姬"四个子,上文是【title=”】,下文是【" data】,在上下文中间加入这个组合,就可以完美匹配出中间的内容;
2)当需要提取一串字符的多项内容时,每一项内容用括号括起来,用findall输出结果;
3)最后面re.S表示可以跨行匹配,原字符串多行显示时需要这么用;
4)更多正则表达式的用法请参考博客:
https://blog.csdn.net/bingocoder/article/details/103746826