记录一次爬虫接单项目【采集国际淘宝数据】

日期：2025-01-02 作者：caijiyuan 浏览：84 移动：http://w.yusign.com/mobile/quote/9037.html

1.背景

前几天接了一个爬虫的单子，上周六已经完成这个单子，也收到了酬劳（数目还不错，哈哈哈，小喜了一下）。这个项目大概我用了两天写完了（空闲时间写的）。

2.介绍

大概要采集的数据步骤：1)输入商品名称；2）搜索供应商；3）爬取所有供应商的里所有商品数据和对应商品的交易数据；

1.这个爬虫项目是对alibaba国际淘宝网站采集数据。

2.通过输入商品，比如：蓝牙耳机

3.其中某一个商家的所有商品

‍

4.对应的交易数据记录

3.爬取商家信息

为什么要先爬取商家信息，因为商品数据和交易数据都是需要根据商家名称去爬取，所有先开始爬取商家信息。

先看看要采集哪些字段

红框中的这些数据都是需要的（years，product_img，product_title，supperherf，Main Products，Country_Region，Total_Revenue，Top3_Markets，Transactions_6months，Response_Rate......）

其中supperherf是从url链接里面提取出的商家名称，后面爬取商品数据和交易数据需要用到

比如名称对应的网页标签div是title ellipsis，在代码里面通过xpath可以解析到内容（这里都比较简单所以就介绍原理，小白不懂的可以看之前的文章去进行学习）

到这里就采集完商家数据了，下面开始爬取商家商品数据

4.采集商品数据

这里商品数据的内容就少了很多（商品图片imgurl，名称title，价格piece，最低价格minorder）。

5.爬取交易数据

交易数据需要采集的内容字段也很少，只有三个（交易金额Transaction_Value，买家所属国家Shipping_Destination，交易时间Transaction_Date）

1）这里金额是***.**，客户要求是小数点后面的去掉，前面有三位就定义为100~999，如果2位就是10~99

2）时间是12/26/2020，但是采集下来的是1607068800，需要转为2020-12-27 16:00:00

到这里数据采集的工作已经基本完成了。

6.保存到csv

采集到数据后，需要保存带csv里

python写入csv

不懂python写入csv的，可以参考这篇文章

一篇文章带你使用 Python搞定对 Excel 表的读写和处理（xlsx文件的处理）

excel表格标题

写入数据

供应商数据

商品数据

交易数据

7.结尾

为了让客户方便使用，还写了一个命令行的操作界面

但是为了方便其他机器上可以使用，我通过python写了界面

总结

1、以上就是本次的接单的项目过程和工作，本文也是记录一下这个过程，等以后再看的时候可能是一种享受的感觉，同时也分享给你们，给小白可以学习。

2.大家如果有什么问题的可以在下方进行留言，相互学习。

------------------- End -------------------

Scrapy爬虫：链家全国各省城市房屋数据批量爬取，别再为房屋发愁！

pyhton爬取爱豆（李易峰）微博评论（附源码）

你的未来有我导航----教你如何爬取高德地图

欢迎大家点赞，留言，转发，转载，感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群】

万水千山总是情，点个【在看】行不行

本文地址：http://w.yusign.com/quote/9037.html 述古往 http://w.yusign.com/static/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关行情

推荐行情

点击排行