有一天 , 尔发明尔心仪已经暂的妹子正在朋友圈里分享了知乎博栏的文章 , 便明白她也刷知乎 .假设 正在知乎上存眷她 , 尔就可以明白 , 她近来存眷甚么 , 内心念些甚么 ,理解 理解她喜好的圆里 , 借能动作道资 ,简直 太佳了。有一次咱们二个谈天的时候 , 恰好道到了她分享的这篇文章 ,尔很天然的道: “知乎上您用的没有是实名呀, 便尔这样灵活用了实名.”她笑着道:”谁人能够改呀” ,“凭甚么知乎团队没有让尔改啊!!! “,尔问讲,” 没有如咱们互粉吧 ”
哎 , 因而她翻开知乎 , 瞅了瞅尔的主页 , 并无存眷尔……可以 是赞太少了吧… 达没有到她的请求 ,或许 她没有念让尔明白她正在瞅甚么吧 , 或许她期望自己的知乎是话不投机 , 没有期望被身旁人瞥见,
尔归去念了念 , 她道名字能够改 , 这她可以从前也用的是实名 , 找到漏洞了!
知乎的名字能够改 , 可是id是改没有了的 !
每一个人的主页地点 , people前面谁人即是TA的id,比方弛三共名许多 ,前面 便会加之数字. 她的名字拼音差异的较多 , 尔试了一下 , 那个数字是没有超越100的. 它的拉拢方法有 zhang-san , zhang-san-1 zhang-san-12-43顺次 类拉.
佳 , 现在尔就能够开端寻找她的账号了! 既然她更名了 , 这她名字满意的前提必然是: 昵称的拼音没有是实名. 那个用pypinyin模块能够处置 , 如许子 , 需要尔野生检察的主页便少许多了.这如何颠末Python爬虫找到她呢?
上面道一下代码的思路,如何爬与知乎用户疑息,此次爬虫用到了递回,原次用的scrapy抓与和mogodb数据库保存的。
起首自己是用了一个年夜V动作爬虫第一个网页,而后分三步,第一步是爬了该年夜V的具体疑息而后存进数据库,第两步是爬与了该年夜V的粉丝,第三是爬与了该年夜V 的存眷者(实在即是爬与粉丝大概存眷者的token_url),完毕以后,使用爬与的粉丝和存眷者的数据机关他们每一个人具体疑息的url,而后掘与具体 疑息存进数据库。到那里递回第一步算是完毕了,而后爬虫会从每个粉丝战存眷者入手,别离爬与他们的粉丝和存眷者的具体数据,不竭递回
正在代码里面另有参加了一点儿主动翻页的功用,有兴致能够瞅瞅。上面是咱们item里面界说要抓与的数据:
import scrapyclass ZhihuUserItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
answer_count = scrapy.Field() #答复数目
articles_count = scrapy.Field() #写过的文章数
follower_count = scrapy.Field() #粉丝数目
following_count = scrapy.Field() #存眷了几人
educations=scrapy.Field() #教诲布景
description = scrapy.Field() #小我私家描绘
locations = scrapy.Field() #地点天
url_token =scrapy.Field() #知乎赐与的每一个人用户主页唯一的ID
name=scrapy.Field() #用户昵称
employments = scrapy.Field() #事情疑息
business=scrapy.Field() #一点儿事情大概贸易疑息的开散
user_type =scrapy.Field() #用户范例,能够是小我私家,也能够是团体等等
headline =scrapy.Field() #小我私家主页的标签
voteup_count = scrapy.Field() #得到的赞数
thanked_count=scrapy.Field() #得到的感谢数
favorited_count = scrapy.Field() #被珍藏次数
avatar_url = scrapy.Field() #头像URl
代码一同不敷80止,运行了一分钟便抓了知乎一千多个用户的疑息,那里上弛成果图
由上图能够瞅到,知乎用户中师长教师用户占有大都,别的的好比产物司理、法式员、经营、HR数目也很多。咱们瞅一下具体的排名(前十名):
来除师长教师后,知乎支流事业比沉从年夜到小顺次是(前十名):产物司理、自由事业、法式员、工程师、设想师、腾讯、西席、人力资本(HR)、经营、状师。能够瞅到,除一点儿互联网公司的罕见地位中,西席战状师用户正在知乎中也占有没有小的比沉。
尔明白伸脚党确实十分引人厌,尔大白知友辛勤耕作、分享常识、经历战看法皆是对于其余知友和互联网,以至社会的奉献。知乎的呈现,实际上是正在为社会进步着力。但是当咱们道起知乎的时候,咱们道的是甚么?
对于知乎来讲,她存留的意思正在用户身上。何况,尔相信知乎团队那个有胡想、有担任的团队,知乎团队必然理解并分明天观点到自己的处境战安身面。祝知乎愈来愈佳!各人减油!
|