留神瞅内乱层轮回,瞅下来每页皆是 10 条批评,真则否则,好比第一页有热门批评,会超越 10 条,最初一页可以不 10 条,以是内乱层轮回不用 for i in range(10): 而是 for i in range(len(co妹妹ents)):。内乱层轮回借挪用了一个函数 get_one_co妹妹ent_struct(),其感化是按照 xpath失掉 的每条 co妹妹ent 元艳剖析获得咱们念要的数据,此中又递回挪用了多少个自界说剖析函数,好比剖析获得的时间是诸如“xxx分钟前"、“方才”,咱们需要退一步干字符串处置获得具体时间戳。
因为原爬虫皆是用 lxml 库接纳 xpath 剖析的,里面尔碰到了许很多多的合用本领,会正在后绝专客干具体睁开。
获得使用