职贝云数AI新零售门户

标题: 特征工程、模型结构、AIGC——大模型在引荐系统中的3大落地方向|文末赠书 [打印本页]

作者: WYW6u9    时间: 昨天 18:43
标题: 特征工程、模型结构、AIGC——大模型在引荐系统中的3大落地方向|文末赠书
这里是「王喆的机器学习笔记」的第四十五篇文章。明天我们谈谈一个搜广推行业这两年怎样都绕不开的一个话题,大模型在引荐系统中的运用。两年前,我们可以说大模型是引荐系统的将来,但如今,大模型对引荐系统的改造曾经如火如荼的发生着,很多头部公司都拿到了分明的收益。这篇文章不谈将来,不谈学术,就谈业界曾经发生的切实在实拿到收益的大模型运用方向。
大模型影响引荐系统的三个层次
谈详细的运用之前,我们先从宏观上了解一下大模型的出现对引荐系统到底意味着什么。

就像在改造引荐模型时,我们一定要清楚信息增量在哪、模型结构的优化点在哪一样,我们并不是由于大模型这个技术比较 fancy,所以才把大模型施加到引荐系统之上,而是由于大模型确的确实可以为引荐系统带来知识和模型的全新变化,让引荐效果受益,才运用大模型技术的。

因此我想先从宏观上解释一下大模型对引荐系统的实践意义到底是什么。我的了解中,大模型宏观上在三个层级上改变了这个世界,也异样是在这三个层次上改变了引荐系统。
一、大模型改变了“知识学习”的方式
大言语模型的出现,特别是多模态大模型的出现,毫无疑问改变了 AI 学习了解知识的方式。传统的深度学习引荐模型对知识的学习其实是封闭式的,它依赖人工的内容型特征的挑选和构造来学习知识,同时它的知识范围普通限于公司的外部引荐数据。而大模型的知识学习是开放式的,一个大模型就可以融会贯通开放世界中能获取到的几乎一切知识,这是之前没有技术可以达到的。

这就带来了引荐系统在“知识输入”上的革命。大模型交融的开放世界知识将带给引荐系统丰富的增量信息,多模态大模型对于图片、视频的了解才能带来了更为丰富的多模态知识输入。这对于引荐系统的特征工程、冷启动、内容了解的意义严重。
二、大模型改变了“智能体”本身
当今的大模型结构普通是基于 transformer 结构的生成式模型结构。大模型的结构和传统的深度学习引荐模型区别甚大。本质上,引荐模型是一个分类模型或排序模型,而大模型是生成式模型。在深度学习引荐模型 2021 年之后遇到效果提升的瓶颈之时,大模型的生成式模型结构是不是引荐模型的新答案,新范式?在大模型改造了智能体的结构之时,它能否也颠覆引荐模型,带来新的增长极,这是一切人希冀去探求的。
三、大模型末尾创造一个”新世界“
OpenAI 在发布 Sora 之时,喊出了“Sora 是这个世界的模拟器”的口号。大模型最大的野心其实是完全创造一个新的虚拟世界。回到引荐系统范畴,其实引荐系统不断以来的使命是协助人发掘感兴味的信息和内容。但大模型极强的内容生成才能,让“个性化内容生成”成为能够。也就是说,大模型有能够越过“引荐”这个环节,直接为用户创造个性化内容,这才是大模型能够带给引荐系统最大的革命。

从宏观上厘清了大模型革命的三个层次,我们才能脚踏实地的探求那些能够落地的运用。下面列出一些经过我挑选的,并且也有一些落地阅历的大模型引荐系统运用方向。
了解世界——大模型对引荐系统知识获取方式的改造
下面的表格对比了大模型在知识层面上相比传统引荐系统的不同,可以发现,大模型的知识与引荐系统的知识是“完美互补”的关系。大模型的知识是开放的、多模态的,它从开放世界学习到的外部知识将给引荐系统带来大量的“新颖血液”;但与此同时,大模型缺乏引荐系统外部的用户行为信息,这也就意味着大模型无法完全替代引荐系统的知识体系。最合理的方式是结合二者的优势,将大模型的世界知识输入到引荐系统中去,提升引荐系统的效果下限。

(, 下载次数: 0)

对比曾经红极一时的基于知识图谱的 RippleNet,KGAT 等 GNN 方案,大模型其实是在一张包含了世界知识的知识图谱上训练的,而其生成的对于每个知识节点的 Embedding 显然具有更丰富的相似性关系。所以从知识输入的角度来说,大模型对知识图谱 GNN 方案有着降维打击似的优势。而相比个性化的构造一些内容型 / 知识型特征输入引荐模型这种小打小闹的方案,大模型也显然具有更强的通用性,所以我们几乎可以得出结论:

大模型相比传统的知识图谱、人工构造内容型特征等知识输入方式,无论是在知识总量,还是知识 Embedding 的质量上,都具有分明的优势。今后在思索构造知识型 / 内容型特征时,大模型几乎可以说是最优的处理方案。

(, 下载次数: 0)

电影知识图谱

明白了方案的优势,那么从做法下去说,有哪些方式把大模型的知识喂给引荐系统呢?次要有两种。

第一种是 LLM 生成 Embedding 后输入引荐系统。对于 LLaMA 这样的开源大模型来说,我们可以知道模型一切的参数,也可以对模型停止改造,所以在预训练完成之后,大模型可以被当作一个多模态特征的编码器,把多模态特征转换成同一隐空间内的 Embedding,这样就可以与深度学习引荐系统无缝衔接。

第二种是 LLM 生成文字 Token 后输入引荐系统。对于 ChatGPT 这样的闭源大模型来说,我们无法让模型直接生成 Embedding,而只能经过它的 API 生成 Prompt 对应的 token 序列。这时 token 序列就可以成为大模型向引荐系统传播知识的媒介。当然在引荐模型中 token 还是会被转换成 embedding 来参与特征交叉。

(, 下载次数: 0)

大模型知识喂给引荐系统的两种方案

本质上,多模态大模型这里被当做了一个功能弱小的 encoder,过去我们想构造一个多模态引荐系统,还需求为相应的模态分别构建 encoder,如今一个预训练的多模态大模型,或者是成熟大模型公司的 api 就处理一切成绩。详细的方案有很多,比如下图的 MoRec 运用 Switch 游戏的引见图片和引见文字构建多模态特征,停止游戏引荐。

(, 下载次数: 0)

MoRec 交融多模态特征的过程

比如在 MKGAT(Multi-modal Knowledge Graphs for Recommender Systems)方案中,把图片,文本描画信息,结构化信息等多模态的 Embedding 经过 FC layers 整合起来,构成更片面的关于物品内容的 Embedding 表达。MKGAT 其实是一个比较老的方案,当时的图片类信息还是采用 resnet 作为一个编码器,如今通用的做法就是交换成大模型把图片转换成 Embedding 或者图片描画型 tag 后输入引荐模型。

(, 下载次数: 0)

MKGAT 方案中的多模态 Embedding 交融方案

再比如快手的多模态引荐模型方案 EM3(End-to-end training of Multimodal Model and ranking Model)。可以看到其最大的特点是用多模态大模型抽取出用户行为历史物品和目的商品的内容特征,Embedding 化后供后续模型做特征交叉。值得留意的是,ID 型特征还保留在模型中,由于 ID 特征和多模态内容型特征是互补的关系,二者包含的信息是不可互相替代的。

(, 下载次数: 0)

快手的多模态引荐模型 EM3

总的来说,不管这些方案的结构是怎样的,训练方式是预训练还是 E2E 训练,我们只需记住一件事情就可以了解他们的核心思绪,那就是他们无一例外都在应用多模态大模型的才能把多模态的信息转换成模型可以学习吸收的 Embedding 或者文字 token。也无论相关的学术词汇多复杂,比如知识加强,大模型知识图谱,大模型特征工程等等,都可以归为这一类,那就是应用大模型改变引荐系统学习知识的方式。
改造世界——大模型对于引荐模型的改造
大模型改造引荐系统的第二个层级是对引荐系统本身引荐方式的改造,或者更具代表性的是对引荐模型本身的改造。这一大趋向携带着一切引荐系统工程师们的一个深切的希望——深度学习的红利逐渐干涸之后,引荐模型新的发展范式到底在哪里?

对于这一新范式的跟随,其实也阅历了三个小的发展阶段。第一个阶段是探求期,甚至带着点为了在引荐系统中运用大模型而运用大模型的追热点时期。这一阶段的典型产物是一堆有玩具性质的 prompt 引荐系统。比如亚马逊的研讨人员给出的一个处理方案,PALR(Personalization Aware LLMs for Recommendation,个性化感知大言语引荐系统)。它的次要引荐流程是把用户的历史行为,和候选物品的相关信息统统经过 prompt 的方式输入给大模型,让大模型本人来停止个性化引荐

(, 下载次数: 0)

PALR 的基本引荐流程

它的普通流程是,大模型先应用用户的历史行为推断出用户的基本兴味画像。如下:

(, 下载次数: 0)

然后,再把用户的画像、历史行为文字描画、候选物品信息输入大模型,给出最终的引荐列表,如下:

(, 下载次数: 0)

这一过程虽然可以得出一个靠谱的引荐结果,但假如你是一个有些行业阅历的从业者,一定能看出,这一方案在扩展性,模型的工程目的和信息应用程度上,都不能够好于如今的深度学习引荐模型。所以我称之为探求期的玩具引荐模型。即便有后续的其他相似引荐系统的探求,比如华为的 UniLLMRec 等,仍是一类较难工业化的引荐系统方案。

于是,大模型引荐系统的探求离开了第二阶段,到底如何在工业级引荐系统中让大模型产生业务目的的真正提升。Meta 的生成式引荐模型 GR(Generative Recommendation)方案率先给我们曙光。GR 的线上核心业务目的大幅提升了 12.4%,这毫无疑问给整个引荐模型范畴注入了一个强心针。

技术方案上,GR 也可谓是完全脱胎于大模型的结构,直接推翻了传统引荐模型 CTR 预估式的 point wise 模型结构,而是采用生成式言语模型的结构,从预测点击率的成绩,变成预测用户下一个行为是什么这种生成式引荐的成绩。针对这种新的成绩提出方式,模型的结构也完全遵照 LLM 的序列模型结构,输入的特征也全部通用化为序列特征的方式。毫无疑问,这是革命性的。

GR 的工程优化方式也是非常巧妙,比如模型一次 inference 即可生成对一切候选物品的预估结果,模型的 transformer 结构停止了高效的简化等等,可以看出 Meta 的工程师们是在竭尽一切智慧和技巧推 GR 上线。

(, 下载次数: 0)

Meta 的 GR 模型与深度学习引荐模型结构的对比

Meta GR 的珠玉在前,应用 LLM 结构优化引荐系统的各个模块似乎一下子成为了新的盛行趋向,并有不少公司拿到了实在的业务效果。召回层、粗排层、精排层的模型方案都有了大模型的影子。这第三阶段大有百花齐放的趋向。这里举一个比较有代表性的例子是快手的基于 Transformer 的召回模型 KuaiFormer。

和 Meta GR 一样,KuaiFormer 也把过去“视引荐为分类成绩”的做法改成了“把引荐视为预测用户的 next token”的成绩,于是就可以应用 Transfomer 的结构预测用户的 next interest embedding,再把这些 embedding 当作 ANN 召回的索引 Embedding,就完成了 LLM 思想对召回层的改造。可以说,这类方案的核心是用训练 LLM 的思绪处理引荐成绩,用 Transformer 为基础的模型结构。

(, 下载次数: 0)

时至昔日(2025 年 4 月),大模型在引荐系统的运用文章越来越多,但只需我们可以掌握住该类思绪的核心——用生成式模型的思绪作为处理引荐成绩的新范式,就可以把这类思绪运用在引荐系统各类模型的改造之上。
创造世界——大模型在引荐内容生成上的运用
虽然下面两个方向的大模型运用曾经带来了诸多收益,但我要在这里说的是,假如你把 LLM 和 GenAI 改造引荐系统的潜力局限在现有的引荐系统框架外部,那我想你是太小看这次革命的影响力了。我激烈引荐的是跳出本人的技术小圈子,从大的视角再思索一下从哪个角度发力,才能让大模型最大程度地推进引荐系统的效果增长。

相比引荐系统技术上的改造,这波 AI 革命对引荐范畴最大的影响,我想一定是"引荐内容的个性化生成"。假如说 OpenAI Sora 的口号“成为世界的模拟器”还有点好高骛远的话,那 AIGC 生成引荐内容的很多想法曾经产品化,越来越深上天影响着如今的引荐方式。

宏观下去说,新的引荐内容生成方式是把 AI 生成器(图来自生成式引荐系统的框架 GeneRec),或者叫 AI 创作者归入到引荐系统中来。

(, 下载次数: 0)

加入 AI 生成器的引荐系统闭环

从图中可以看到,AI 生成器参与创作的方式有两种:

AI 创作者创作的内容出路就一个,那就是与人类创作者创作的内容一样流入候选物品集,一同参与引荐过程。

无论是 AI 辅助内容创作和 AI 个性化内容生成,它的基础都离不开分散模型(diffusion model)。无论是大名鼎鼎的 Stable Diffusion,还是惊动一时的 Sora,其底层的 prompt Embedding 到图片的关键步骤,都是基于分散模型的。

(, 下载次数: 0)

Stable Diffusion 的基本框架

(, 下载次数: 0)

Sora 的基本框架(来自张俊林教师的逆向工程解读)

对 AIGC 相关模型细节感兴味的读者,可以参考下面的两篇经典解读文章

The Illustrated Stable Diffusion

张俊林:技术奥秘化的去魅:Sora 关键技术逆向工程图解

在 AIGC 的基础模型之上,其实各家引荐内容生成的要点次要在产品创新,比如广告创意的自动生成,应用产品图片和有限的人类输入的 prompt,可以生成多样化的产品展现图和海报,然后交由广告引荐系统去自动选择。

(, 下载次数: 0)

AI 辅助广告创意生成

再比如数字人技术,可以把文字输入自动转换成口播视频,产品引见,甚至旧事播报节目。这是内容创作消费力的大幅束缚。

(, 下载次数: 0)

再比如,目前曾经有一些模版化,规则化的 AI 生成视频,在短视频平台上获得了非常不错的点击量。我想下面一些 AI 生成的视频你一定刷到过。

(, 下载次数: 0)

这里我要强调的是,目前一切的 AIGC 产品,还都是需求人类介入的,人类要提供最最少的指令型 prompt,比如生成内容的核心要素是什么,生成广告创意的大致样式是怎样的。这间隔完美的个性化 AI 生成视频还有一定的间隔。我想 AIGC 最大的想象空间是将来的引荐系统将根据用户反馈完全自主的生成用户想看的内容,不再依赖人类的参与,达到完全自主的用户 -AI- 引荐系统闭环。

目前有一些探求性的研讨,比如个性化的电影海报生成(PMG: Personalized Multimodal Generation with Large Language Models)。它的次要逻辑是把用户的行为历史交融到电影海报的生成过程中,生成针对用户爱好的个性化海报。这类方案从商业逻辑上还不完全成立,但大家应该能从这个方案中了解到 AI 个性化内容生成的大致框架。

(, 下载次数: 0)

PMG 个性化海报生成

发散一点来说,AI 生成越来越多引荐内容之时,另一个关于 AI 伦理的更宏大的命题又应运而生,假如真的有那么一天,AI 生成了一切人类乐意看的引荐内容,人类情愿活在完全由 AI 引荐系统创造的高兴世界里吗?人类终究还是需求与其别人类的灵感碰撞才是真正高兴的吧。引荐系统的信息茧房,甚至哲学意义上的“缸中之脑”成绩,终究要在 AI 进一步发展滞后寻求一个答案。
深度学习引荐系统 2.0 时代对引荐系统下一步打破的探求
最后谈一谈作为引荐、广告、搜索范畴的从业者,如何对待引荐系统下一步的破局点以及对职业发展的一点建议。

首先我旗帜鲜明的以为,搜广推行业没有寒冬一说,它只是不断在退化,不断在寻求进一步的增长点。就像 2014-2015 年的时分,深度学习的革命片面到来之前,大家也是都在谈广告效果停滞,效果广告行业瓶颈。理想是,那是一个 LR 模型就能一统江湖的时代,大家口中的效果瓶颈在后来人看来是完全不存在的,在那波深度学习革命中被淘汰的,是一批靠着规则引荐、靠着营销、甚至效果作弊红极一时的公司。

明天的大模型时代也一样。我从来不建议搜广推的从业者丢弃本人的技术、业务、行业优势去完全更换赛道。我建议的是打破本人固有的技术区域,去思索新的技术革命下如何把新的技术趋向结合到本人非常熟习的范畴。由于搜广推依然是互联网的第一变现渠道,假如互联网不需求盈利了,搜广推才会彻底寒冬。

在深度学习引荐系统 2.0 时代,对于行业的打破点,我给出的建议是:算法、工程与大模型的结合创新与优化。谁能经过三者的优化把大模型的收益拿到手里,落到实处,谁就能在下一步的竞争中抢先。这外面,深度学习引荐系统的算法框架是基础,大模型的创新点和收益来源,算法和工程的结合优化是落地关键点,缺一不可。我也会在我的旧书中跟大家详细讨论更多结合优化的案例。
读者福利
大模型时代对搜索、广告、引荐行业的工程师们提出了新的应战,特别是在新的行业环境下,公司与公司之间、团队与团队之间、个人与个人之间都面临着更大的竞争压力。这本书无疑是一本不可或缺的技术指南,助力企业和个人在大模型时代的浪潮中披荆斩棘,勇往直前。本次,我们为读者冤家预备了 3 本《【深度学习引荐系统】2.0 新篇:大模型时代的引荐系统破局点》。如今,关注  【AI 火线】 公众号,回复关键字 “引荐系统” 即可参与抽奖。

(, 下载次数: 0)

InfoQ 老友!请留步!极客邦 1 号客服上线工作啦!
后续我将经过微信视频号,以视频的方式持续更新技术话题、将来发展趋向、创业阅历、商业踩坑教训等精彩内容,和大家一同成长,开启知识交流之旅欢迎扫码关注我的微信视频号~

(, 下载次数: 0)

昔日荐文


Mistral 拿出杀手锏叫阵 DeepSeek!性价比卷出天际、开源模型却断供,社区粉丝绝望透顶

碾压 Cursor?谷歌突发 Gemini 2.5 Pro 预览版,编码才能全网第一

马斯克 KO 奥特曼!一群前员工倒戈、各界组织助攻,OpenAI 认怂:世界变了,我们不改了!

名校硕士 AI 造假面试现场“社死”!差点蒙混过关,因一个基本错误被识破,面试官:软件圈很小,好自为之

你也「在看」吗?👇




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5