开启左侧

爬取了同事的微博粉丝,结果发现300+涨粉中,真爱粉只要4个!

[复制链接]
在线会员 春风吹皱了露氺 发表于 2023-2-7 09:58:26 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
工作是如许的,共事小A道他近来微专涨粉老快了,可是自己仍是战从前一致便偶尔收策动态,瞅瞅往事吃吃瓜,也出购啥涨粉包之类的。
小A道那话的时候稍隐浓定,可是小一分明的瞅到小A的嘴角悄悄上扬,不禁撇了撇嘴。
可以因此为尔没有疑他近来涨粉老快那件事,小A随即收去了那弛图:

爬与了共事的微专粉丝,成果发明300+涨粉中,实爱粉只需4个!-1.jpg

佳野伙,他统共粉丝才多少百人,那七天便涨了一百多,微专涨粉这样简单的?
要没有尔也换个阵天尝尝?那速率比小一现在的公家号涨粉快多了。【撇嘴】
那个时候小A又补了一句:“那不过远七天的,以前一周的更多呢!“道完那话,小A便转过身来了。
那野伙正在夸耀!绝对是!
话道微专小一也有正在玩,可是确实很少涨粉,粉丝根本皆是一点儿观点的朋友,除非是:
僵尸粉!
实在小A也疑心自己突然多的粉丝可以是僵尸粉,可是一个一个来查抄仿佛有面糜掷时间。
因而正在小A的恳求下就有了上面的小说
剧烈倡议上面步调正在征患上共事的附和下截至,否则可以会被挨
获得粉丝数据

小一以前也写过微专的爬虫,大要爬了多少十万条的土味情话战一点儿gif图,以是大要明白获得微专粉丝列表该当如许干:

  • 获得用户的总粉丝数,计较运行次数
  • 剖析每一页的粉丝列表,获得粉丝数据
  • 颠末粉丝uid机关粉丝主页链交url
  • 爬与粉丝的具体数据
要检测粉丝究竟是没有是僵尸粉,能够颠末粉丝的粉丝数目、微专静态数那些数据
可是仿佛不敷全面,以是鄙人里第④步小一获得每一个粉丝的具体数据,比方简介、署名、性别等,此中最主要的是获得到该粉丝近来一次的收专情况。
那里面会用到二个链交,一个是微专用户主页疑息的链交,一个是粉丝翻页链交,别离以下:
用户主页疑息url:
  1. url_master = "https://m.weibo.cn/profile/info?uid=" + uid
复造代码
粉丝翻页url:
  1. url_fans = "https://m.weibo.cn/api/container/getIndex?containerid=231051_-_fans_-_{0}&since_id={1}".format(uid, index)
复造代码
留神:
uid是微专中每一个用户默认的id唯一编号,尔用的是小A的uid,正在他的微专主页拿到的。
翻页的时候因为是一页默认20个粉丝,以是index该当是0、20、40如许子的
过程没有易,篇幅有面多,以是便没有揭具体的完毕函数了,您能够正在背景复兴“微专粉丝”获得统统源码
大抵的主函数代码以下:
  1. if __name__ == '__main__':
  2.     uid = '用户uid'
  3.     """获得概略数据"""
  4.     master_info = get_master_info(uids=uid)
  5.     print("用户id:{0},收专数:{1},存眷{2}人,具有粉丝{3}人".format(
  6.         uid, master_info['statuses_count'], master_info['follow_count'], master_info['followers_count']))
  7.     """树立最年夜页数"""
  8.     fans_count = master_info['followers_count']
  9.     # 因为当page年夜于250时便已经没法获得实质了,以是要树立最年夜页数为250
  10.     max_page = fans_count//20 + 1 if fans_count < 5000 else 250
  11.     # 爬与数据
  12.     fans_data = pd.DataFrame()
  13.     for i in range(max_page):
  14.         index = i*20
  15.         url_fans = "https://m.weibo.cn/api/container/getIndex?containerid=231051_-_fans_-_{0}&since_id={1}".format(uid, index)
  16.         data_per_page = get_page_info(url_fans, i)
  17.         fans_data = fans_data.append(data_per_page)
  18.         sleep(3)
  19.     fans_data.to_csv('weibo_{0}_fans_1.csv'.format(uid), encoding='gbk', index=False)
  20.     """爬与每一个粉丝的概略数据"""
  21.     for fans in fans_data.iterrows():
  22.         fans_url = "https://m.weibo.cn/profile/info?uid=" + str(fans[1]['用户id'])
  23.         fan_info = get_fans_info(fans_url)
  24.         # 获得并革新每一个粉丝近来的一条微专静态
  25.         fans_data.loc[fans_data['用户id'] == fans[1]['用户id'], '总静态数'] = fan_info['statuses_count']
  26.         fans_data.loc[fans_data['用户id'] == fans[1]['用户id'], '近来一次收专日期'] = fan_info['created_at']
  27.         fans_data.loc[fans_data['用户id'] == fans[1]['用户id'], '近来一次收专实质'] = fan_info['text']
  28.         fans_data.loc[fans_data['用户id'] == fans[1]['用户id'], '近来一次收专末端'] = fan_info['source']
  29.         fans_data.loc[fans_data['用户id'] == fans[1]['用户id'], '署名'] = fan_info['description']
  30.         fans_data.loc[fans_data['用户id'] == fans[1]['用户id'], '性别'] = fan_info['gender']
  31.         sleep(3)
  32.     #保管 数据
  33.     fans_data.to_csv('weibo_{0}_fans.csv'.format(uid), encoding='utf-8', index=False)
复造代码
阐发粉丝数据

按理道显现一小我私家有几粉丝就可以获得几个,可是理论上并非。
上面代码的运行截图以下

爬与了共事的微专粉丝,成果发明300+涨粉中,实爱粉只需4个!-2.jpg

能够瞅到,有的页里粉丝数不敷20人,可终极获得到小A同348个粉丝疑息。
因为小A是从近来开端猖獗涨粉,以是颠末阐发粉丝列表小一发明粉丝近来一次收专情况仿佛呈现了断层

爬与了共事的微专粉丝,成果发明300+涨粉中,实爱粉只需4个!-3.jpg

因为近来一次收专为空证实不收过微专(大概树立不成睹),并且颠末粉丝数也能够瞅到只需个位数的粉丝,而且年夜部门的微专静态数为个位数,该当是咱们要找的僵尸粉。
以是小A的粉丝中白框上面的皆是一般粉丝,上面的极有可以是那段时间的涨粉构成的。
ok,这大要能够肯定上面那二百多个粉丝即是咱们要阐发的工具。
留神:上面提到的“成就粉丝”即是咱们选择进去的主要阐发工具
起首瞅下他们的粉丝数散布

爬与了共事的微专粉丝,成果发明300+涨粉中,实爱粉只需4个!-4.jpg
具有1个粉丝的成就粉丝占比61.62%,尔忘患上微专刚刚备案“老手指北”会默认存眷您,没有会那122个成就粉丝皆是刚刚备案的?
再瞅下成就粉丝的收微专数目

爬与了共事的微专粉丝,成果发明300+涨粉中,实爱粉只需4个!-5.jpg
119个成就粉丝历来不收过微专,占总成就粉丝的58.6%,那部门成就粉丝该当是果然有成就了
交下来,咱们从成就粉丝中选择收专数年夜于0的粉丝截至阐发,毕竟他们是否是也有成就?
起首,从他们的性别去阐发:

爬与了共事的微专粉丝,成果发明300+涨粉中,实爱粉只需4个!-6.jpg
性别散布很均匀,仿佛也瞅没有出甚么成就。
瞅一下收专用户的最初一次微专是甚么时候收的:

爬与了共事的微专粉丝,成果发明300+涨粉中,实爱粉只需4个!-7.jpg
能够瞅到,最先的是2013年,wtf?上一次收专竟然是6年前?那老僵尸了吧。
而后能够瞅到正在许多粉丝的上一条微专是正在今年的11月革新的,仿佛又没有像是僵尸粉。
再去瞅一下收专粉丝的收专实质:

爬与了共事的微专粉丝,成果发明300+涨粉中,实爱粉只需4个!-8.jpg
找到成就了,此中有35%的是告白采购,此中没有累有像单11、发白包、曲播间举荐等各类采购用于;别的有18%的是转收他人的,只需没有到一半的可以会是一般微专。
既然是一般粉丝,这也该当是有粉丝的,瞅一下收专粉丝的粉丝散布:

爬与了共事的微专粉丝,成果发明300+涨粉中,实爱粉只需4个!-9.jpg
公然,粉丝数年夜于个位数的收专粉丝占比没有到一半。
最初,颠末选择上一次收专是正在远一年、收专实质没有是告白战转收、粉丝数年夜于10的收专粉丝,终极,选择进去了4个粉丝

爬与了共事的微专粉丝,成果发明300+涨粉中,实爱粉只需4个!-10.jpg
远二百个新删粉丝中,只需4....4....4小我私家是实粉!
瞅到那个成果小A里色晴朗,真正的数据晃正在长远,本来自己短期涨的粉丝99%皆是僵尸粉
“公然,天上失落馅饼必然是有启事的,因为那馅饼,便没有是真实的馅饼!”
道完那话,小A放手俯天呼啸而来。
写正在前面的话

原小说没有是假造,可是您能够当个小说去瞅
最初小一哥为了慰藉小A受伤的心灵,决意战他共同找出涨粉的泉源地点
最初,小A正在他的公疑里面发明了那个:

爬与了共事的微专粉丝,成果发明300+涨粉中,实爱粉只需4个!-11.jpg

假设您微专也有支到那个提醒,这,请您留神,一年夜波僵尸粉行将袭去
请必然庇护佳自己行将受伤的心灵
最初,原节爬与粉丝疑息的源码已经收拾整顿结束,能够正在文终本文链交中获得。
<hr/>尔是小一,对峙背暮光所走的人,末将成为刺眼的存留。
等候您的三连,咱们下节睹。
本创不容易,欢送面赞噢
文章尾收:公家号【小一的进修条记】
本文链交:
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )