开启左侧

WAIC | 知乎CTO李大海:基于AI的智能社区多模态数据交融研讨与实际

[复制链接]
在线会员 aZgrMu 发表于 2023-3-11 11:44:15 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
正在 WAIC 2021 AI 开辟者服装论坛t.vhao.net上,知乎合股人兼 CTO 李年夜海揭晓中心讲演《鉴于 AI 的智能社区多模态数据融合钻研取实践》。正在讲演中,他主要介绍了知乎正在智能社区时期多模态数据融合中的钻研和实践平息。
如下为李年夜海正在 WAIC 2021 AI 开辟者服装论坛t.vhao.net上的讲演实质,机械之心截至了没有改动本意的编纂、收拾整顿:
WAIC | 知乎CTO李年夜海:鉴于AI的智能社区多模态数据融合钻研取实践-1.png


尔来日诰日的中心是鉴于 AI 的智能社区多模态数据融合使用实践。
多模态近来很水,方才「佳未来」的吴总也道了那个中心。固然皆是多模态,但是各人营业场景差别,使用的偏重里纷歧样。咱们更偏重于比照进修使用多模态把望频战文原对于齐那个角度上做工做。
简朴道一下「知乎」,知乎是一个以问问为主的正在线社区,今年已经是知乎上线的第十个年初,正在十年里面,经历了四个阶段,第一个阶段是封锁阶段,封锁经营,经营二年,从 2013 年底尾盛开,便不竭的正在拓展会商的场景战会商话题,用户范围不竭扩大。2018 年知乎提出了智能社区的观点跟计谋,颠末手艺升级把野生智能手艺全面使用正在实质消耗、实质散发、社区办理等范围里面。
那也是尔第两次戴参与 AI 开辟者年夜会,客岁因为疫情干系,颠末曲播到场。那二年咱们也瞅到,也是因为疫情战 5G 手艺的开展,望频、曲播等的形状愈来愈提高。知乎上也是一致,有愈来愈多用户,正在知乎上颠末望频分享自己的常识、经历、看法。正在那个过程当中咱们也观点到望频跟图文有各自的劣缺点战合用场景,望频会更直觉,图文有非线性的构造,喜好用户能够快速略过,能够正在差别模块之间截至跳动,二个合用场景纷歧样。
1、图文多模态预锻炼
当知乎决定把望频当做主要的序言形状时,咱们期望颠末序言升级,让它酿成知乎实质的主要装载方法。那个是咱们的一个认知,截至如许的事情正在手艺上需要对于望频截至智能化。
从营业战产物上来瞅,望频正在知乎的开展,没有是平空呈现的,是从一个个成就战图文答复中逐步出现进去的,因而,正在手艺上,咱们也不该该从整拆修针对于望频的算法系统,这样既没有经济,借需要思考图文战望频二套体系之间的兼容性成就。举个例子,颠末这样多年的开展,知乎已经有一个超越 50 万话题的话题树,咱们不须要正在望频上抛却那套体系,这样既会增加产物庞大度,也需要思考二套话题体系的对于齐成就。
正在计划望频智能化手艺事情的时候,很天然的便思考以多模态为中心事情,前面逻辑很简朴,因为使用多模态的算法对于齐才气,能够很快天把知乎已往积聚数据的才气战积聚的各类数据用起去,正在事情里面起首干最根本的图文多模态的预锻炼。
WAIC | 知乎CTO李年夜海:鉴于AI的智能社区多模态数据融合钻研取实践-2.png


预锻炼模子接纳的是单流比照进修框架,很像是正在促进里面用的单塔模子,右边是图象流,右边是文原流。
文原流那边会接纳老练的天然语言预锻炼模子 Bert/Roberta。右边的图象流咱们干了较多的测验考试。各人瞅到右边模子是目前干完测验考试目前,正在线上发明结果比力佳的,是由三部门构成。
第一部门是用 ResNet 预锻炼模子来提炼图象全部的疑息,第两部门是使用 Detectron2 预锻炼模子来抽与图象的工具检测职位跟鸿沟疑息,第三部门是正在图象里面截至工具检测目前获得的文原疑息。对于三个疑息截至融合目前,动作图片流的输出;那部门输出取文原流的输出截至比对于,将绘里中的目标职位、目标种别取文原描绘截至对于齐,使用知乎上的上亿级图片及图片附带的描绘疑息动作锻炼样原,能够完毕较佳的对于图片的理解才气。
图文的多模态预锻炼模子正在望频范围已经能够有很佳的使用了。上面展示产物化此中一个事情,正在客岁下半年公布了一款图文一键转望频东西,内部也嚷干 PPT 望频创做东西,是给咱们的图文创作家使用的。知乎上的图文创作家能够使用如许一个东西,快速把自己的笔墨答复大概文章转移成为一个望频。
WAIC | 知乎CTO李年夜海:鉴于AI的智能社区多模态数据融合钻研取实践-3.png


那个转移过程当中,主要思路即是把文章里每段话大概每个句子颠末模子找到绝对应的图片大概动图大概一段短望频,颠末预锻炼模子能够把每段笔墨跟艳材库里面的图片截至相干性计较。相干性下的能够主动拿进去,颠末这类方法能够来天生借没有错的 PPT 望频。
共时另有另外一个使用,创作家能够主动输出枢纽词汇,正在艳材库里面找到战枢纽词汇匹配度最下图片,让它自己主动建立望频艳材流。
WAIC | 知乎CTO李年夜海:鉴于AI的智能社区多模态数据融合钻研取实践-4.png


2、望频搜刮相干性
完毕了那些根底的事情目前,便具备了文原跟图片的对于齐才气,能够开端鉴于才气来机关望频跟文原的对于齐功用,组成对于齐收集。
正在理论事情中会把望频里面的枢纽帧抽掏出去,颠末锻炼模子对于每一个枢纽帧天生暗示,颠末 Transformer 模子截至转移,转移完目前再用搜刮的 query中止 预锻炼,就能够获得搜刮 query 战望频相干性的猜测。正在线上理论成果,使用模子会比线上的用户搜刮趁心度进步 1% 的绝对值,结果仍是十分清楚的。
WAIC | 知乎CTO李年夜海:鉴于AI的智能社区多模态数据融合钻研取实践-5.png


3、望频话题匹配取排序
知乎自己颠末这样多年开展,建立了超越 50 万的话题数。除望频搜刮以外,正在用户公布一条望频的时候,咱们也期望望频能够跟 50 万个话题发生干系,能够主动标注出望频跟哪一个话题相干。有了如许一个标注后,关于后绝望频的散发,望频的理解和其余用户看来的产物特征皆长短常有辅佐的,特别是鉴于前面的模子建立望频取话题的匹配度的使用。
WAIC | 知乎CTO李年夜海:鉴于AI的智能社区多模态数据融合钻研取实践-6.png


那个使用起首的根底枢纽帧抽与不变革,但是共时借会使用望频的题目,再来融合到一个 Encoder 中。而后会跟话题截至相干性的计较,那是一个 Ranking 的部门,正在 Ranking 以前有 50 万的话题根底,能够道是一个限度多匹配的典范场景。
正在那个场景里面,实在降天会有召回行动。正在真操上分析使用多种索引方法来干召回,有 PMI 的索引,有 Embedding 的索引,和简朴的 Lablel Name 的索引。那些索引用的皆是望频的题目,正在咱们的产物里面,望频能够是望频真体,自己便有题目,也能够是望频答复,望频答复自己是跟成就相干的。
不论如何样城市有对于应文原疑息,比方搜刮「饭后吃苹因的八年夜益处」「吃苹因城市有甚么益处」,能够颠末根本的文原疑息,从多少十万的话题里面招回多少百个话题再截至粗排。
WAIC | 知乎CTO李年夜海:鉴于AI的智能社区多模态数据融合钻研取实践-7.png


4、后深度进修时期的 AI 使用
此次的中心是《后深度进修时期的 AI 使用》,其实在比照后深度进修时期战前深度进修时期,能够瞅到业界、教术界的平息更多散焦正在绝对下层的范围,好比进修框架、调参的办法论,模子构造皆正在不竭朝前开展。可是到近来一二年,办法论加之数据分离正在共同发生的预锻炼模子,也消耗出了大批的计较成果。
知乎更偏向于使用 AI 手艺来开辟使用,那末正在后深度进修时期 AI 手艺如何用?鉴于 AI 手艺的使用要怎样干?那是咱们要面对的挑战。
咱们需要用到预锻炼模子,用到抽象水平更下的,业界公认的最佳的锻炼功效。方才展示的咱们的产物战事情功效中,大批使用了林林总总的预锻炼模子。用了预锻炼模子目前,再针对于场景来建立自己的锻炼样原,并鉴于目标干微调,那是正在知乎内部重心干的事情。
「正在 AI 时期,主要的是先人栽树,先人纳凉。」咱们也正在思考,用优良的预锻炼模子完毕自己事情的共时,能为先人戴去甚么呢?正在尔来日诰日的分享里面提到的模子皆是已经上线,已经发生支益的具体模子,知乎借正在不竭来建立分析图文、望频另有声音等序言分歧的庞大预锻炼模子,如许预锻炼模子鉴于知乎积聚的大批图文望频数据会愈来愈老练。
期望当咱们事情干的比力老练的时候,能够把那些模子完整盛开进去,供给给教界战产业界更多的开辟者朋友们使用。
固然,正在全部知乎望频智能化事情中,光有多模态进修也是不敷的,咱们借干了许多其余事情,那里尔简朴介绍下一项手艺:语音复刻手艺。那项手艺是正在咱们拉出的一个图文一键转望频的东西上。颠末批质化复刻语音,进步消耗服从。
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )