职贝云数AI新零售门户

标题: 知乎CTO李大海的对话 [打印本页]

作者: taojin168    时间: 2022-12-31 12:00
标题: 知乎CTO李大海的对话
对话 CTO〡听知乎 CTO 李大海讲技术如何构建全范畴知识社区
内容管理场景中:我们综合运用情感模型、用户亲密度模型和文本辨认模型,不断优化算法机器人「瓦力」,辨认并实时处理不友善、答非所问、阴阳怪气等内容,部分场景辨认准确率达到 99.13%。
在社区管理范畴,我们采用的是「人机结合」的方式来停止系统优化:我们会保留一个人数较大的人工团队,他们非常了解知乎的社区规则,他们会处理、纠正算法不能辨认和辨认不准的状况,然后算法再把这些纠正的案例当成增量的学习材料,晋级模型的表达才能。这是一个持续积累的过程,在这个过程中,算法的才能会变得越来越弱小。
深度和广度两方面都在行进:所谓广度就是我们会去不断的拓展才能,在越来越多的场景可以去辨认和处理。深度就是它的准确率,要渐渐处理的越来越准。所以深度和广度同时作用,我们的用户就不需求自动去告发低质内容,而是靠机器算法,人机结合的方式降低了「用户告发」
假如没有 AI 算法的话,我们的审核团队应该跟内容的增长成反比,但如今其实不是。我们的审核团队总数几乎没有怎样变过,从 2017 年末尾就维持在一个相对波动的人数上,它的增量很小,但是我们内容的增量是很大的。
信息的分发上:我们在首页信息流引荐系统中引入了 AI 算法,经过多轮优化和晋级,知乎的信息流引荐系统曾经在知乎全体业务中占了非常大的体量,用户浸透率(即有多少用户会有效离开首页看内容)达到 88%,运用时长占比(包括运用知乎的时长以及在知乎中消费内容的时长等)达到 76%。
内容的婚配上:我们推出成绩路由功能,采用人工审核、算法和运营策略相配合的方式,精准约请相关范畴的用户回答成绩,尽能够地提高成绩的回答率。成绩路由功能上线以来,由系统引荐带来的应邀回答数比过去提升了 400%。
知乎早年有一个 Slogan 叫「发现更大的世界」,所以我们很在意用户来知乎,是不是可以拓展本人的眼界。从技术层面来说,我们除了采用准确的预估模型去婚配用户的兴味范畴之外,也会采用兴味探测模型,去了解用户能否对一个新的话题或范畴感兴味。
假如这个世界上一切的知识范畴是固定的,那么它就相当于一张知识地图。每个人在这张知识地图上的地形是不一样的。很喜欢的范畴能够是很高的正值,是波峰;不喜欢的范畴就是负值,是波谷。往往一个新用户来了当前,知乎对他的知识地图画像是很模糊的,但之后会越来越明晰。明晰化当前,我们就可以给他引荐相对片面的东西。
我们是希望可以尽能够点亮用户的地图,而不是一旦发现用户地图上有个波峰,就不断在这个波峰上去引荐内容。除了技术层面的改进,我们也有产品层面的想法来提升用户的体验,包括关注 Tab 和热榜等等。
知乎的搜索更多的不是词条和旧事,是按照内容层次去停止结构化展现的,这就大大提升了大家的信息获取效率。而在搜索的背后,是知乎上有特征的讨论,更纵深、更人文、更多元,也更鲜活,这些都是非常有价值的第一手素材和观点。
另外,由于知乎有很强的投票机制,有赞同、反对还有评论,我们的内容其实相当于是被人 Review 过的,所以可信度、价值会远远高于其它的网站。知乎有一个目的叫 Topic Rank,指的是一个用户在某个范畴的威望度,威望度是根据比较复杂的算法算出来的。这个目的非常有用,比如说在 IT 范畴 Topic Rank 很高的人,他看到一个 IT 范畴的回答然后点了反对,我们就知道这个回答的可信度能够是较低的,这也是知乎内容在本人的搜索引擎外面可信度很高的一个次要缘由。
搜索是知乎在壮大过程中逐渐优化的一个功能。目前,我们采用深度学习与传统模型相结合的方式来处理召回和排序上的用户称心度成绩。我们的文本相关性算法最早只要 BM25。到明天,曾经发展成为一个交融模型。深度语义特征上线之后,我们在头部、腰部、长尾的搜索点击比普遍提升了约 2% - 3% 不等。
知乎早年采用 ES 作为我们的索引引擎,随着数据量的添加,我们遇到了 ES 集群的服务波动性成绩,以及 ES 对我们的排序算法支持不敌对等成绩。所以在 17 年,团队本人开发了一套在索引格式上完全兼容 ES 的引擎,逐渐交换了在线上服务的 ES 集群。目前知乎全部的搜索央求都由新的索引服务支撑,在可用性达到了 5 个 9 的同时功能上也不输于 C++ 编写的相似系统所能达到的程度。




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5