爬取QQ音乐歌单

核心提示：抓取动态网页网页分为动态和静态静态页面：非结构化数据：HTML 处理方式：正则表达式，xpath, beauti

爬取QQ音乐歌单

处理方式：正则表达式，xpath, beautifulsoup4

静态页面中的数据都包含在网页的HTML中（一般都是get请求）

所以可以直接在网页的HTML中提取数据

关键词一般都以查询字符串的方式拼接在URL中
分析URL的变化可以进行多页爬取

处理方式：直接转化为python类型

动态页面和静态页面最主要的区别就是当数据刷新的时候用了ajax技术，刷新时从数据库查询数据并重新渲染到前端页面

数据都存储在json中，爬取HTML是获取不到数据的

json数据提取技术（jsonpath）

动态页面都需要动态抓包来获取response中的json数据

刷新页面，打开开发者模式，点击Network，在点击XHR，找到获取json数据的URL
.json有4个方法（json.loads(), json.dumps()）括号中接收字符串（json.load(), json.dumps()）括号中接收的是文件

jsonpath的语法与xpath的语法很相似

$：根节点 . : 下一级节点通常用法： $…节点名
jsonpath中接收的参数必须是python类型的

例如： result_list = jsonpath(python_dict,"$…result")

可以在发送请求时使用.json(）的方法获取python数据
本文来自转载
转载地址

res = requests.get(url)

json = res.json()

标签： 数据页面动态

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0打赏 0评论 0

更多>同类资讯

0 条相关评论

相关文章

最新文章

推荐文章

推荐图文

资讯

点击排行

• 探索 VChart 图表库：简单、易用、强大、高性能	• 多模态数据与大数据：数据融合的未来发展趋势
• 神马搜索引擎关键词SEO如何优化	• 数据结构（Java）：选择排序之堆排序
• 使用Python爬了4400条淘宝商品数据,竟发现了这	• 智云影院CMS程序PHP源码V3.0 无需数据库
• 北京邮电大学《数据结构课程设计》2021-2022学	• 阿里巴巴复杂搜索系统的可靠性优化之路
• 基于协同过滤推荐算法+数据可视化+SpringBoot	• 腾讯文档智能助手开启公测，支持全品类内容生成