开启左侧

特征工程、模型结构、AIGC——大模型在引荐系统中的3大落地方向|文末赠书

[复制链接]
在线会员 WYW6u9 发表于 昨天 18:43 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
那里是「王喆的机械进修条记」的第四十五篇文章。来日诰日咱们道道一个搜广履行业那二年如何皆绕没有启的一个话题,年夜模子正在举荐体系中的使用。二年前,咱们能够道年夜模子是举荐体系的未来,但是现在,年夜模子对于举荐体系的革新已经热火朝天的发作着,许多头部公司皆拿到了清楚的支益。那篇文章没有道未来,没有道教术,便道业界已经发作的实在正在真拿到支益的年夜模子使用标的目的。
年夜模子作用举荐体系的三个条理
道具体的使用以前,咱们先从微观上理解一下年夜模子的呈现对于举荐体系终归表示着甚么。

便像正在革新举荐模子时,咱们必然要分明疑息删质正在哪、模子构造的劣化面正在哪一致,咱们并非因为年夜模子那个手艺比力 fancy,以是才把年夜模子施减到举荐体系之上,而是因为年夜模子确确实真能够为举荐体系戴去常识战模子的崭新变革,让举荐结果得益,才使用年夜模子手艺的。

因而尔念先从微观上注释一下年夜模子对于举荐体系的理论意思究竟是甚么。尔的理解中,年夜模子微观上正在三个层级上改动了那个天下,也异常是正在那三个条理上改动了举荐体系。
1、年夜模子改动了“常识进修”的方法
狂言语模子的呈现,出格是多模态年夜模子的呈现,毫无疑义改动了 AI 进修理解常识的方法。保守的深度进修举荐模子对于常识的进修实际上是封锁式的,它依靠野生的实质型特性的选择战机关去进修常识,共时它的常识范畴一般限于公司的内部举荐数据。而年夜模子的常识进修是盛开式的,一个年夜模子就能够举一反三盛开天下中能获得到的险些统统常识,那是以前不手艺能够到达的。

那便戴去了举荐体系正在“常识输出”上的反动。年夜模子融合的盛开天下常识将戴给举荐体系丰硕的删质疑息,多模态年夜模子关于图片、望频的理解才气戴去了更加丰硕的多模态常识输出。那关于举荐体系的特性工程、热启用、实质理解的意思严峻。
2、年夜模子改动了“智能体”自己
现今的年夜模子构造一般是鉴于 transformer构造 的天生式模子构造。年夜模子的构造战保守的深度进修举荐模子区分甚年夜。素质上,举荐模子是一个分类模子或者排序模子,而年夜模子是天生式模子。正在深度进修举荐模子 2021 年以后碰到结果提拔的瓶颈之时,年夜模子的天生式模子构造是否是举荐模子的新谜底,新范式?正在年夜模子革新了智能体的构造之时,它可否也推翻举荐模子,戴去新的增加极,那是统统人期望来根究的。
3、年夜模子开端缔造一个”新天下“
OpenAI 正在公布 Sora 之时,叫出了“Sora 是那个天下的模仿器”的标语。年夜模子最年夜的家心实际上是完整缔造一个新的假造天下。回到举荐体系范围,实在举荐体系不竭此后的任务是辅佐人开掘感兴致的疑息战实质。但是年夜模子极强的实质天生才气,让“本性化实质天生”成为可以。也即是道,年夜模子有可以超出“举荐”那个关节,间接为用户缔造本性化实质,那才是年夜模子可以戴给举荐体系最年夜的反动。

从微观上厘浑了年夜模子反动的三个条理,咱们才气兢兢业业的根究这些可以降天的使用。上面列出一点儿颠末尔选择的,而且也有一点儿降天经历的年夜模子举荐体系使用标的目的。
理解天下——年夜模子对于举荐体系常识获得方法的革新
上面的表格比照了年夜模子正在常识层里上比拟保守举荐体系的差别,能够发明,年夜模子的常识取举荐体系的常识是“完善互补”的干系。年夜模子的常识是盛开的、多模态的,它从盛开天下进修到的内部常识将给举荐体系戴去大批的“新奇血液”;但是取此共时,年夜模子缺少举荐体系内部的用户举动疑息,那也便表示着年夜模子没法完整替换举荐体系的常识系统。最公道的方法是分离两者的劣势,将年夜模子的天下常识输出到举荐体系中来,提拔举荐体系的结果上限。

特性工程、模子构造、AIGC——年夜模子正在举荐体系中的3年夜降处所背|文终赠书籍w2.jpg

比照已经白极临时的鉴于常识图谱的 RippleNet,KGAT 等 GNN 计划,年夜模子实际上是正在一弛包罗了天下常识的常识图谱上锻炼的,而其天生的关于每一个常识节面的 Embedding 明显具备更丰硕的类似性干系。以是从常识输出的角度来讲,年夜模子对于常识图谱 GNN 计划有着落维冲击似的劣势。而比拟本性化的机关一点儿实质型 / 常识型特性输出举荐模子这类小挨小闹的计划,年夜模子也明显具备更强的通用性,以是咱们险些能够患上出论断:

年夜模子比拟保守的常识图谱、野生机关实质型特性等常识输出方法,不管是正在常识总质,仍是常识 Embedding 的品质上,皆具备清楚的劣势。此后正在思考机关常识型 / 实质型特性时,年夜模子险些能够道是最劣的处置计划。

特性工程、模子构造、AIGC——年夜模子正在举荐体系中的3年夜降处所背|文终赠书籍w3.jpg

影戏常识图谱

大白了计划的劣势,那末从作法上来道,有哪些方法把年夜模子的常识喂给举荐体系呢?主要有二种。

第一种是 LLM 天生 Embedding 后输出举荐体系。关于 LLaMA 如许的启源年夜模子来讲,咱们能够明白模子统统的参数,也能够对于模子截至革新,以是正在预锻炼完毕以后,年夜模子能够被看成一个多模态特性的编码器,把多模态特性变换成统一隐空间内乱的 Embedding,如许就能够取深度进修举荐体系无缝跟尾。

第两种是 LLM 天生笔墨 Token 后输出举荐体系。关于 ChatGPT 如许的关源年夜模子来讲,咱们没法让模子间接天生 Embedding,而只可颠末它的 API 天生 Prompt 对于应的 token 序列。这时候 token 序列就能够成为年夜模子背举荐体系传布常识的序言。固然正在举荐模子中 token 仍是会被变换成 embedding 去到场特性穿插。

特性工程、模子构造、AIGC——年夜模子正在举荐体系中的3年夜降处所背|文终赠书籍w4.jpg

年夜模子常识喂给举荐体系的二种计划

素质上,多模态年夜模子那里被当作了一个功用强大的 encoder,已往咱们念机关一个多模态举荐体系,借需要为响应的模态别离建立 encoder,现在一个预锻炼的多模态年夜模子,大概是老练年夜模子公司的 api 便处置统统成就。具体的计划有许多,好比下图的 MoRec 使用 Switch 游玩的介绍图片战介绍笔墨建立多模态特性,截至游玩举荐。

特性工程、模子构造、AIGC——年夜模子正在举荐体系中的3年夜降处所背|文终赠书籍w5.jpg

MoRec融合 多模态特性的历程

好比正在 MKGAT(Multi-modal Knowledge Graphs for Reco妹妹ender Systems)计划中,把图片,文原描绘疑息,构造化疑息等多模态的 Embedding 颠末 FC layers 调整起去,组成更全面的对于东西实质的 Embedding 表示。MKGAT 实际上是一个比力老的计划,其时的图片类疑息仍是接纳 resnet 动作一个编码器,现在通用的作法即是交流成年夜模子把图片变换成 Embedding或许 图片描绘型 tag 后输出举荐模子。

特性工程、模子构造、AIGC——年夜模子正在举荐体系中的3年夜降处所背|文终赠书籍w6.jpg

MKGAT 计划中的多模态 Embedding融合 计划

再好比快脚的多模态举荐模子计划 EM3(End-to-end training of Multimodal Model and ranking Model)。能够瞅到其最年夜的特性是用多模态年夜模子抽掏出用户举动汗青东西战目标商品的实质特性,Embedding 化后供后绝模子干特性穿插。值患上留神的是,ID 型特性借保存正在模子中,因为 ID 特性战多模态实质型特性是互补的干系,两者包罗的疑息是不成相互替换的。

特性工程、模子构造、AIGC——年夜模子正在举荐体系中的3年夜降处所背|文终赠书籍w7.jpg

快脚的多模态举荐模子 EM3

总的来讲,不论那些计划的构造是如何的,锻炼方法是预锻炼仍是 E2E 锻炼,咱们只要记着一件工作就能够理解他们的中心思路,这即是他们无一破例皆正在使用多模态年夜模子的才气把多模态的疑息变换成模子能够进修吸取的 Embedding或许 笔墨 token。也不管相干的教术辞汇多庞大,好比常识增强,年夜模子常识图谱,年夜模子特性工程等等,均可以回为那一类,这即是使用年夜模子改动举荐体系进修常识的方法。
革新天下——年夜模子关于举荐模子的革新
年夜模子革新举荐体系的第两个层级是对于举荐体系自己举荐方法的革新,大概更具代表性的是对于举荐模子自己的革新。那一年夜趋势照顾着统统举荐体系工程师们的一个深入的期望——深度进修的盈余逐步干枯以后,举荐模子新的开展范式终归正在那里?

关于那一新范式的跟从,实在也经历了三个小的开展阶段。第一个阶段是根究期,以至戴着面为了正在举荐体系中使用年夜模子而使用年夜模子的逃热门期间。那一阶段的典范产品是一堆有玩具性子的 prompt举荐 体系。好比亚马逊的钻研职员给出的一个处置计划,PALR(Personalization Aware LLMs for Reco妹妹endation,本性化感知狂言语举荐体系)。它的主要举荐过程是把用户的汗青举动,战候选东西的相干疑息通通颠末 prompt 的方法输出给年夜模子,让年夜模子自己去截至本性化举荐

特性工程、模子构造、AIGC——年夜模子正在举荐体系中的3年夜降处所背|文终赠书籍w8.jpg

PALR 的根本举荐过程

它的一般过程是,年夜模子先使用用户的汗青举动揣度出用户的根本兴致绘像。以下:

特性工程、模子构造、AIGC——年夜模子正在举荐体系中的3年夜降处所背|文终赠书籍w9.jpg

而后,再把用户的绘像、汗青举动笔墨描绘、候选东西疑息输出年夜模子,给出终极的举荐列表,以下:

特性工程、模子构造、AIGC——年夜模子正在举荐体系中的3年夜降处所背|文终赠书籍w10.jpg

那一历程固然能够患上出一个靠谱的举荐成果,但是假设您是一个有些止业经历的从业者,必然能瞅出,那一计划正在扩大性,模子的工程目标战疑息使用水平上,皆不克不及够好过现在的深度进修举荐模子。以是尔称之为根究期的玩具举荐模子。即使有后绝的其余类似举荐体系的根究,好比华为的 UniLLMRec 等,还是一类较易产业化的举荐体系计划。

因而,年夜模子举荐体系的根究分开了第两阶段,终归怎样正在产业级举荐体系中让年夜模子发生营业目标的真实提拔。Meta 的天生式举荐模子 GR(Generative Reco妹妹endation)计划领先给咱们曙光。GR 的线上中心营业目标年夜幅提拔了 12.4%,那毫无疑义给全部举荐模子范围注进了一个强心针。

手艺计划上,GR 也堪称是完整脱胎于年夜模子的构造,间接颠覆了保守举荐模子 CTR 预估式的 point wise 模子构造,而是接纳天生式语言模子的构造,从猜测面打率的成就,酿成猜测用户下一个举动是甚么这类天生式举荐的成就。针对于这类新的成就提出方法,模子的构造也完整依照 LLM 的序列模子构造,输出的特性也局部通用化为序列特性的方法。毫无疑义,那是反动性的。

GR 的工程劣化方法也长短常奇妙,好比模子一次 inference 便可天生对于统统候选东西的预估成果,模子的 transformer构造 截至了下效的简化等等,能够瞅出 Meta 的工程师们是正在竭尽统统聪慧战本领拉 GR 上线。

特性工程、模子构造、AIGC——年夜模子正在举荐体系中的3年夜降处所背|文终赠书籍w11.jpg

Meta 的 GR 模子取深度进修举荐模子构造的比照

Meta GR 的珠玉正在前,使用 LLM构造 劣化举荐体系的各个模块仿佛一会儿成了新的流行趋势,并有很多公司拿到了其实的营业结果。召回层、细排层、粗排层的模子计划皆有了年夜模子的影子。那第三阶段年夜有百花齐搁的趋势。那里举一个比力有代表性的例子是快脚的鉴于 Transformer 的召回模子 KuaiFormer。

战 Meta GR 一致,KuaiFormer 也把已往“望举荐为分类成就”的作法改为了“把举荐望为猜测用户的 next token”的成就,因而就能够使用 Transfomer 的构造猜测用户的 next interest embedding,再把那些 embedding 看成 ANN 召回的索引 Embedding,便完毕了 LLM 思惟对于召回层的革新。能够道,这种计划的中心是用锻炼 LLM 的思路处置举荐成就,用 Transformer 为根底的模子构造。

特性工程、模子构造、AIGC——年夜模子正在举荐体系中的3年夜降处所背|文终赠书籍w12.jpg

时至旧日(2025 年 4 月),年夜模子正在举荐体系的使用文章愈来愈多,但是只要咱们能够把握住该类思路的中心——用天生式模子的思路动作处置举荐成就的新范式,就能够把这种思路使用正在举荐体系各种模子的革新之上。
缔造天下——年夜模子正在举荐实质天生上的使用
固然上面二个标的目的的年夜模子使用已经戴去了诸多支益,但是尔要正在那里道的是,假设您把 LLM 战 GenAI 革新举荐体系的后劲范围正在现有的举荐体系框架内部,这尔念您是过小瞅此次反动的作用力了。尔剧烈举荐的是跳出自己的手艺小圈子,从年夜的望角再思考一下从哪一个角度收力,才气让年夜模子最年夜水平天促进举荐体系的结果增加。

比拟举荐体系手艺上的革新,那波 AI反动 对于举荐范围最年夜的作用,尔念必然是"举荐实质的本性化天生"。假设道 OpenAI Sora 的标语“成为天下的模仿器”另有面好高务远的话,这 女伶 href="https://www.taojin168.com" target="_blank">AIGC 天生举荐实质的许多设法已经产物化,愈来愈深入地作用着现在的举荐方法。

微观上来道,新的举荐实质天生方法是把 AI 天生器(图去自天生式举荐体系的框架 GeneRec),大概嚷 AI 创作家纳入到举荐体系中去。

特性工程、模子构造、AIGC——年夜模子正在举荐体系中的3年夜降处所背|文终赠书籍w13.jpg

参加 AI 天生器的举荐体系关环

从图中能够瞅到,AI 天生器到场创做的方法有二种:

    帮助人类创作家创做,好比按照人类的 Prompt 天生笔墨、图片或者望频。

    间接按照用户反应天生本性化的举荐实质。

AI 创作家创做的实质前途便一个,这即是取人类创作家创做的实质一致流进候选东西散,共同到场举荐历程。

不管是 AI辅佐 实质创做战 AI特性 化实质天生,它的根底皆离没有启分离模子(diffusion model)。不管是赫赫有名的 Stable Diffusion,仍是轰动临时的 Sora,其下层的 prompt Embedding 到图片的枢纽步调,皆是鉴于分离模子的。

特性工程、模子构造、AIGC——年夜模子正在举荐体系中的3年夜降处所背|文终赠书籍w14.jpg

Stable Diffusion 的根本框架

特性工程、模子构造、AIGC——年夜模子正在举荐体系中的3年夜降处所背|文终赠书籍w15.jpg

Sora 的根本框架(去自弛魁首林西席的顺背工程解读)

对于 女伶 href="https://www.taojin168.com" target="_blank">AIGC 相干模子细节感兴致的读者,能够参照上面的二篇典范解读文章

The Illustrated Stable Diffusion

弛魁首林:手艺奥妙化的来魅:Sora 枢纽手艺顺背工程图解

正在 女伶 href="https://www.taojin168.com" target="_blank">AIGC 的根底模子之上,实在各野举荐实质天生的重心主要正在产物立异,好比告白创意的主动天生,使用产物图片战无限的人类输出的 prompt,能够天生百般化的产物展示图战海报,而后接由告白举荐体系来主动挑选。

特性工程、模子构造、AIGC——年夜模子正在举荐体系中的3年夜降处所背|文终赠书籍w16.jpg

AI辅佐 告白创意天生

再好比数字人手艺,能够把笔墨输出主动变换成心播望频,产物介绍,以至往事播报节目。那是实质创做消耗力的年夜幅束厄局促。

特性工程、模子构造、AIGC——年夜模子正在举荐体系中的3年夜降处所背|文终赠书籍w17.jpg

再好比,今朝已经有一点儿模版化,划定规矩化的 AI 天生望频,正在短望频仄台上得到了十分没有错的面打质。尔念上面一点儿 AI 天生的望频您必然刷到过。

特性工程、模子构造、AIGC——年夜模子正在举荐体系中的3年夜降处所背|文终赠书籍w18.jpg

那里尔要夸大的是,今朝统统的 AIGC 产物,借皆是需要人类参与的,人类要供给最起码的指令型 prompt,好比天生实质的中心因素是甚么,天生告白创意的大抵款式是如何的。那距离完善的本性化 AI 天生望频另有必然的距离。尔念 AIGC 最年夜的设想空间是未来的举荐体系将按照用户反应完整自立的天生用户念瞅的实质,再也不依靠人类的到场,到达完整自立的用户 -AI-举荐 体系关环。

今朝有一点儿根究性的钻研,好比本性化的影戏海报天生(PMG: Personalized Multimodal Generation with Large Language Models)。它的主要逻辑是把用户的举动汗青融合到影戏海报的天生过程当中,天生针对于用户喜好的本性化海报。这种计划从贸易逻辑上借没有完整建立,但是各人该当能从那个计划中理解到 AI特性 化实质天生的大抵框架。

特性工程、模子构造、AIGC——年夜模子正在举荐体系中的3年夜降处所背|文终赠书籍w19.jpg

PMG特性 化海报天生

收集一面来讲,AI 天生愈来愈多举荐实质之时,另外一个对于 AI 伦理的更弘大的命题又应运而死,假设果然有那末一天,AI 天生了统统人类愿意瞅的举荐实质,人类甘愿活正在完整由 AI举荐 体系缔造的快乐天下里吗?人类毕竟仍是需要宁可他人类的灵感撞碰才是真实快乐的吧。举荐体系的疑息茧房,以至形而上学意思上的“缸中之脑”成就,毕竟要正在 AI 退一步开展滞后追求一个谜底。
深度进修举荐体系 2.0 时期对于举荐体系下一步突破的根究
最初道一道动作举荐、告白、搜刮范围的从业者,怎样看待举荐体系下一步的破局面和对于事业开展的一面倡议。

起首尔旗号明显的觉得,搜广履行业不隆冬一道,它不过不竭正在退步,不竭正在追求退一步的增加面。便像 2014-2015 年的时候,深度进修的反动全面到去以前,各人也是皆正在道告白结果窒碍,结果告白止业瓶颈。幻想是,这是一个 LR 模子就可以一统江湖的时期,各人心中的结果瓶颈正在厥后人可见是完整没有存留的,正在这波深度进修反动中被裁减的,是一批靠着划定规矩举荐、靠着营销、以至结果做弊白极临时的公司。

来日诰日的年夜模子时期也一致。尔历来没有倡议搜广拉的从业者抛弃自己的手艺、营业、止业劣势来完整改换赛讲。尔倡议的是突破自己固有的手艺地区,来思考新的手艺反动下怎样把新的手艺趋势分离到自己十分熟谙的范围。因为搜广拉仍然是互联网的第一变现渠讲,假设互联网没有需要红利了,搜广拉才会完全隆冬。

正在深度进修举荐体系 2.0 时期,关于止业的突破面,尔给出的倡议是:算法、工程取年夜模子的分离立异取劣化。谁能颠末三者的劣化把年夜模子的支益拿得手里,降到真处,谁就可以鄙人一步的合作中争先。那里面,深度进修举荐体系的算法框架是根底,年夜模子的立异面战支益滥觞,算法战工程的分离劣化是降天枢纽面,缺一不成。尔也会正在尔的新书中跟各人具体会商更多分离劣化的案例。
读者祸利
年夜模子时期对于搜刮、告白、举荐止业的工程师们提出了新的挑战,出格是正在新的止业情况下,公司取公司之间、团队取团队之间、小我私家取小我私家之间皆面对着更年夜的合作压力。那原书籍无信是一原不成或者缺的手艺指北,帮力企业战小我私家正在年夜模子时期的海潮中披荆棘,一往无前。原次,咱们为读者朋友准备了 3 原《【深度进修举荐体系】2.0 新篇:年夜模子时期的举荐体系破局面》。现在,存眷  【AI前线 】大众 号,复兴枢纽字 “举荐体系” 便可到场抽奖。

特性工程、模子构造、AIGC——年夜模子正在举荐体系中的3年夜降处所背|文终赠书籍w20.jpg

InfoQ 好友!请停步!极客邦 1 号客服上线事情啦!
后绝尔将颠末微疑望频号,以望频的方法连续革新手艺话题、未来开展趋势、守业经历、贸易踏坑经验等出色实质,战各人共同生长,启开常识交换之旅欢送扫码存眷尔的微疑望频号~

特性工程、模子构造、AIGC——年夜模子正在举荐体系中的3年夜降处所背|文终赠书籍w21.jpg

旧日荐文


Mistral 拿出杀脚锏嚷阵 DeepSeek!性价比卷出天涯、启源模子却断供,社区粉丝失望透顶

碾压 Cursor?google突收 Gemini 2.5 Pro 预览版,编码才气齐网第一

马斯克 KO 奥特曼!一群前职工背叛、各界构造帮攻,OpenAI 认怂:天下变了,咱们没有改了!

名校硕士 AI 制假口试现场“社逝世”!好面蒙蔽过闭,果一个根本毛病被看破,口试民:硬件圈很小,佳自为之

您也「正在瞅」吗?👇
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )