爬取QQ音乐歌单

   日期:2024-12-24     作者:caijiyuan       评论:0    移动:http://w.yusign.com/mobile/news/2654.html
核心提示:抓取动态网页 网页分为动态和静态静态页面: 非结构化数据:HTML 处理方式:正则表达式,xpath, beauti

爬取QQ音乐歌单

  • 抓取动态网页 网页分为动态和静态
  • 静态页面
    非结构化数据:HTML

处理方式:正则表达式,xpath, beautifulsoup4

静态页面中的数据都包含在网页的HTML中(一般都是get请求

所以可以直接在网页的HTML中提取数据

关键词一般都以查询字符串的方式拼接在URL中
分析URL的变化可以进行多页爬取

  • 动态页面
    结构化数据:json,xml等

处理方式:直接转化为python类型

动态页面和静态页面最主要的区别就是当数据刷新的时候用了ajax技术,刷新时从数据库查询数据并重新渲染到前端页面

数据都存储在json中,爬取HTML是获取不到数据的

json数据提取技术(jsonpath

动态页面都需要动态抓包来获取response中的json数据

刷新页面,打开开发者模式,点击Network,在点击XHR,找到获取json数据的URL
.json有4个方法(json.loads(), json.dumps())括号中接收字符串 (json.load(), json.dumps())括号中接收的是文件

 

jsonpath的语法与xpath的语法很相似

$: 根节点 . : 下一级节点 通常用法: $…节点名
jsonpath中接收的参数必须是python类型的

例如: result_list = jsonpath(python_dict,"$…result")

可以在发送请求时使用.json()的方法获取python数据
本文来自转载
转载 地址

 
 
 
 

res = requests.get(url)

json = res.json()

     本文地址:http://w.yusign.com/news/2654.html    述古往 http://w.yusign.com/static/ , 查看更多
 
标签: 数据 页面 动态
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

举报收藏 0打赏 0评论 0
 
更多>同类资讯
0相关评论

相关文章
最新文章
推荐文章
推荐图文
资讯
点击排行
{
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号