爬虫学习（二）--爬取360应用市场app信息

日期：2024-12-16 作者：xhb273511 浏览：90 移动：http://w.yusign.com/mobile/quote/715.html

欢迎加入python学习交流群 667279387
爬虫学习
爬虫学习（一）—爬取电影天堂下载链接
爬虫学习（二）–爬取360应用市场app信息

代码环境：windows10， python 3.5
主要用的软件包：SQLAlchemy，re

初学爬虫，没有使用scrapy框架，而是自己简单打了一个框架。代码里面也没有考虑记录日志以及错误处理等方面的内容，只是能简单工作。如果需要可以在此源码的基础上面进行修改。源码下载地址在文章末尾。

本次抓取主要抓取了app名字，下载次数，评分，开发公司，最新版本号，更新时间。
先打开一个具体的软件页面进行查看网页源码

下面是截取含有具体信息的两个网页源码的片段。

本次解析也没有xpath解析，而是直接用正则来匹配。下面是正则匹配时用到的代码。

下面是解析页面的用法

爬虫学习（二）--爬取360应用市场app信息

其他字段的解析基本类似。

这里是利用了SQLAlchemy来实现ORM。

数据库管理的代码，主要实现了数据库的初始化，以及数据的插入和查询。

获取到一个页面里出来的所有app的soft_id

获取单个app的详细信息

这里简单粗暴的用了多个循环来获取，实际考虑性能的话，此处应该优化。后续有时间了再学习研究下怎么优化。

获取到的数据截图如下：

源码下载地址：
链接：https://pan.baidu.com/s/1sl6xPEl 密码：k48g

————————————————————————————
后续经过改进，用了并行处理，快了很多，7000多条记录，大概10来分钟全部下载好了。

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关行情

推荐行情

点击排行