1.背景
前几天接了一个爬虫的单子,上周六已经完成这个单子,也收到了酬劳(数目还不错,哈哈哈,小喜了一下)。这个项目大概我用了两天写完了(空闲时间写的)。
2.介绍
大概要采集的数据步骤:1)输入商品名称;2)搜索供应商;3)爬取所有供应商的里所有商品数据和对应商品的交易数据;
1.这个爬虫项目是对alibaba国际淘宝网站采集数据。
2.通过输入商品,比如:蓝牙耳机
3.其中某一个商家的所有商品
4.对应的交易数据记录
3.爬取商家信息
为什么要先爬取商家信息,因为商品数据和交易数据都是需要根据商家名称去爬取,所有先开始爬取商家信息。
先看看要采集哪些字段
红框中的这些数据都是需要的(years,product_img,product_title,supperherf,Main Products,Country_Region,Total_Revenue,Top3_Markets,Transactions_6months,Response_Rate......)
其中supperherf是从url链接里面提取出的商家名称,后面爬取商品数据和交易数据需要用到
比如名称对应的网页标签div是title ellipsis,在代码里面通过xpath可以解析到内容(这里都比较简单所以就介绍原理,小白不懂的可以看之前的文章去进行学习)
到这里就采集完商家数据了,下面开始爬取商家商品数据
4.采集商品数据
这里商品数据的内容就少了很多(商品图片imgurl,名称title,价格piece,最低价格minorder)。
5.爬取交易数据
交易数据需要采集的内容字段也很少,只有三个(交易金额Transaction_Value,买家所属国家Shipping_Destination,交易时间Transaction_Date)
1)这里金额是***.**,客户要求是小数点后面的去掉,前面有三位就定义为100~999,如果2位就是10~99
2)时间是12/26/2020,但是采集下来的是1607068800,需要转为2020-12-27 16:00:00
到这里数据采集的工作已经基本完成了。
6.保存到csv
采集到数据后,需要保存带csv里
python写入csv
不懂python写入csv的,可以参考这篇文章
一篇文章带你使用 Python搞定对 Excel 表的读写和处理(xlsx文件的处理)
excel表格标题
写入数据
供应商数据
商品数据
交易数据
7.结尾
为了让客户方便使用,还写了一个命令行的操作界面
但是为了方便其他机器上可以使用,我通过python写了界面
总结
1、以上就是本次的接单的项目过程和工作,本文也是记录一下这个过程,等以后再看的时候可能是一种享受的感觉,同时也分享给你们,给小白可以学习。
2.大家如果有什么问题的可以在下方进行留言,相互学习。
------------------- End -------------------
Scrapy爬虫:链家全国各省城市房屋数据批量爬取,别再为房屋发愁!
pyhton爬取爱豆(李易峰)微博评论(附源码)
你的未来有我导航----教你如何爬取高德地图
欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持
想加入Python学习群请在后台回复【入群】
万水千山总是情,点个【在看】行不行