Python：简单的小说爬虫（requests，re）

日期：2024-12-30 作者：ira0v 评论：0 移动：http://w.yusign.com/mobile/news/8211.html

核心提示：本人喜欢看网络小说，于是根据网上的教程做了一个简陋的爬虫程序 1.本人选取的网站是笔趣阁-无弹窗小说网,全文免费阅读 (b

本人喜欢看网络小说，于是根据网上的教程做了一个简陋的爬虫程序

1.本人选取的网站是笔趣阁-无弹窗小说网,全文免费阅读 (bigee.cc)

https://www.bigee.cc/

2.选取的示例是当我写了个BUG却变成核心玩法(青衫取醉) 最新章节无弹窗全文免费阅读 - 笔趣阁 (bigee.cc)

https://www.bigee.cc/book/168458/

选取第一章

当我写了个BUG却变成核心玩法_第1章地狱恶魔也要做游戏_笔趣阁 (bigee.cc)

https://www.bigee.cc/book/168458/1.html

3.需要引入requests和re库

4.刚开始的代码：

print一下response，在其中找到这类形式：

<dd><a href ="/book/168458/1.html">第1章地狱恶魔也要做游戏</a></dd>

5.用正则表达式匹配：

6.print一下responses，得到这样的形式：

[('/book/168458/1.html', '第1章地狱恶魔也要做游戏'), ('/book/168458/2.html', '第2章前所未有的FPS游戏体验！'), ('/book/168458/3.html', '第3章前职业选手打不过第一个小怪！'), ('/book/168458/4.html', '第4章换联网模式看看？')......]

(注：此处省略号为省略)

于是做个遍历，用i来提取出元组：

7.同理，print一下respond，再用正则表达式匹配：

8.发现匹配文本中有广告：

请收藏本站：https://www.bigee.cc。笔趣阁手机版：https://m.bigee.cc <br /><br />

9.去除广告：

10.保存文本：

11.查看文本发现没有换行，用正则再替换一下：

12.完整代码：

代码中的print只是为了方便观察代码运行。推荐大家定义变量时，变量不要同名，会容易出bug。

每个小说网的源码各不相同，大家还需具体情况具体分析

总思路：

get一个url

正则匹配

保存文本

本程序只用了两个库，尽量减少了大家的学习成本

每次只能从头开始下载，有什么方法可以从上次下载的地方继续呢，os.listdir可能有用

14.注意：————恶魔契约书———— 甲方（用人单位） 单位名称地狱驻人间负面情绪集办公室 法定代表人（主要负责人）莉莉丝

因为文本中每个段落有两个 ，如果直接替换成换行符会产生下列情况

所以要加下列代码

15.故真完整代码为：

本人只是菜鸟，若有改进方法，还望多多赐教

16.参考链接：

正则里的(.*?)是什么意思_正则表达式中.*?-CSDN博客

Python如何将数据保存为txt文件_python保存txt-CSDN博客

各大浏览器UserAgent总结（超全）-腾讯云开发者社区-腾讯云 (tencent.com)

re.sub()用法的详细介绍-CSDN博客

Python 正则表达re模块之findall()详解_re.findall(-CSDN博客

【Python 】：Requests库安装和使用教程（非常详细）_pip install requests-CSDN博客

超简单的爬虫教程：从零爬取小说网站_哔哩哔哩_bilibili

Python 正则表达式 re.sub()_python re.sub-CSDN博客

本文地址：http://w.yusign.com/news/8211.html 述古往 http://w.yusign.com/static/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0打赏 0评论 0

更多>同类资讯

0 条相关评论

相关文章

最新文章

推荐文章

推荐图文

资讯

点击排行

• 优益分期全国客服电话-还款不到账强制下款怎么	• 中银消费金融全国客服电话-还款不到账强制下款
• 易信宝全国客服电话-还款不到账强制下款怎么办	• 悦分期全国客服电话-还款不到账强制下款怎么办
• 中鼎小额全国客服电话-还款不到账强制下款怎么	• 牛牛分期款全国客服电话-还款不到账强制下款怎
• 通通分期全国客服电话-还款不到账强制下款怎么	• 人品借款全国客服电话-还款不到账强制下款怎么
• 鑫淼租机全国客服电话-还款不到账强制下款怎么	• 新橙优品全国客服电话-还款不到账强制下款怎么