作为即刻的一个老(si)用(zhong)户(fen),不得不向大家推荐这款非常棒的APP,里面的人说话都好听,个个都是人才,借用瓦总的话说:有一种小镇特有的感觉。之前一直想爬取下来这个APP上面的用户,因为看到好多用户名特别有意思,还有好多盗版用户哈哈哈,所以闲着也是闲着,不如写个爬虫来爬一个这个做爬虫的软件。
由于即刻目前出了一个网页beta版,相对于APP直接抓包来说比较方便,所以就针对这个网站即刻网页版来进行爬取。然而要想爬取这个软件上的所有用户信息来说并不是想象中的那么简单,首先这个网站的用户个人界面不是按照完全有规律的id进行排序的,每个人都有自己的username,所以不能直接找规律穷举来爬,必须找到比较合适的接口,然后我发现可以根据每个人的被关注信息来进行广度优先遍历,即先找到一个大v号比如即刻首席哈哈官,这个官方号有大约八万人关注,然后我们就可以把这八万人爬取到数据库中,然后再爬取关注这些人的账号到数据库中,这样遍历理论上是可以把所有用户信息爬取到的。