记录一次爬虫接单项目【采集国际淘宝数据】

   日期:2025-01-02    作者:caijiyuan 浏览:84    移动:http://w.yusign.com/mobile/quote/9037.html

1.背景

前几天接了一个爬虫的单子,上周六已经完成这个单子,也收到了酬劳(数目还不错,哈哈哈,小喜了一下)。这个项目大概我用了两天写完了(空闲时间写的)。

2.介绍

大概要采集的数据步骤:1)输入商品名称;2)搜索供应商;3)爬取所有供应商的里所有商品数据和对应商品的交易数据;

1.这个爬虫项目是对alibaba国际淘宝网站采集数据。

2.通过输入商品,比如:蓝牙耳机

3.其中某一个商家的所有商品

4.对应的交易数据记录

3.爬取商家信息

为什么要先爬取商家信息,因为商品数据和交易数据都是需要根据商家名称去爬取,所有先开始爬取商家信息。

先看看要采集哪些字段

红框中的这些数据都是需要的(years,product_img,product_title,supperherf,Main Products,Country_Region,Total_Revenue,Top3_Markets,Transactions_6months,Response_Rate......)

其中supperherf是从url链接里面提取出的商家名称,后面爬取商品数据和交易数据需要用到

比如名称对应的网页标签div是title ellipsis,在代码里面通过xpath可以解析到内容(这里都比较简单所以就介绍原理,小白不懂的可以看之前的文章去进行学习)

到这里就采集完商家数据了,下面开始爬取商家商品数据

4.采集商品数据

这里商品数据的内容就少了很多(商品图片imgurl,名称title,价格piece,最低价格minorder)。

5.爬取交易数据

交易数据需要采集的内容字段也很少,只有三个(交易金额Transaction_Value,买家所属国家Shipping_Destination,交易时间Transaction_Date)

1)这里金额是***.**,客户要求是小数点后面的去掉,前面有三位就定义为100~999,如果2位就是10~99

2)时间是12/26/2020,但是采集下来的是1607068800,需要转为2020-12-27 16:00:00

到这里数据采集的工作已经基本完成了。

6.保存到csv

采集到数据后,需要保存带csv里

python写入csv

不懂python写入csv的,可以参考这篇文章

一篇文章带你使用 Python搞定对 Excel 表的读写和处理(xlsx文件的处理)

excel表格标题

写入数据

供应商数据

商品数据

交易数据

7.结尾

为了让客户方便使用,还写了一个命令行的操作界面

但是为了方便其他机器上可以使用,我通过python写了界面

总结

1、以上就是本次的接单的项目过程和工作,本文也是记录一下这个过程,等以后再看的时候可能是一种享受的感觉,同时也分享给你们,给小白可以学习。

2.大家如果有什么问题的可以在下方进行留言,相互学习。

------------------- End -------------------

Scrapy爬虫:链家全国各省城市房屋数据批量爬取,别再为房屋发愁!

pyhton爬取爱豆(李易峰)微博评论(附源码)

你的未来有我导航----教你如何爬取高德地图

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群

万水千山总是情,点个【在看】行不行


 

本文地址:http://w.yusign.com/quote/9037.html    述古往 http://w.yusign.com/static/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关行情
推荐行情
点击排行
{
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号