职贝云数AI新零售门户

标题: AIGC大模型实际总结 [打印本页]

作者: EhYOQnHRL 时间: 11 小时前
标题: AIGC大模型实际总结

(, 下载次数: 0)

大模型浪潮席卷全球，在各行各业中的重要性愈发凸显，呈现出一股不可逆转的发展趋向。这一年本人所在业产技也在这一过程中持续探求和尝试AIGC。本文一方面是对AIGC实际的总结回顾，同时也是本人学习实际AIGC过程中一些笔记、心得分享。因个人才能限制，文章中能够存在一些了解或表述错误的地方，希望各位大佬能及时批判和指正。

(, 下载次数: 0)

AI时代

2022年11月30号，OpenAI推出ChatGPT后随即爆火，五天注册用户数过百万，2个月用户破1亿，成为史上增长最快的消费者运用。随后各大厂也纷纷卷入AIGC范畴，迎来国产GPT大模型发布潮以及AI创业公司成立潮。
大模型代表一个新的技术AI时代的降临，大模型展现出的弱小的语义了解，内容生成以及泛化才能正在逐渐改变我们的工作与生活方式（AI+）、工作方式和思想方式。正如《陆奇的大模型观》所讲，当前我们正迎来新范式的新拐点，从信息系统到模型系统过渡，"模型"知识无处不在。人工智能的浪潮正在引领新的技术革命，或答应称为第五次工业革命。

(, 下载次数: 0)

2024年2月16日，OpenAI正式发布文生视频模型Sora引发全球关注。Sora可以根据用户的文本提示疾速制造长达一分钟的逼真视频，这些视频可以呈现具有多个角色、特定类型的动作、主题和背景等准确细节的复杂场景。而像Pika等其他主流的视频生成模型大多只能维持5s左右的动作和画面分歧性，而Sora可在长达17s的视频中保持动作和画面的分歧性。
优势：60s超长工夫、运动镜头下内容分歧性、理想场景真实感。
2024年3月13日，明星机器人创业公司 Figure，发布了全新 OpenAI 大模型加持的机器人 demo。视频中Figure demo机器人展现与人类的对话，没有任何远程操作。机器人的速度有了分明的提升，末尾接近人类的速度。惹起对机器人的发展速度感到震惊，我们似乎正处在这场汹涌的退化浪潮中。甚至有人感叹，曾经预备好迎接更多的机器人了。
大模型基础知识AI、AIGC、AGI、ChatGPT的基本概念在人工智能的范畴外面，以上四个词是四个不同的概念。
▐AI(人工智能)：artifical intelligence

人工智能（AI）是最广泛的概念，泛指经过机器模拟和执行人类的智能功能的技术。指的是由人制造出来的系统或软件，这些系统或软件可以执行通常需求人类智能才能完成的义务，如视觉感知、语音辨认、决策制定和翻译等。泛AI概念包括的内容很大，包括广义和广义定义的AI。
广义的AI即弱人工智能，指可以执行特定义务的智能系统，只能在特定的场景和范围内表现智能行为。比如语音辨认、图片辨认、智能驾驶；
广义的AI即强者工智能，值得是具有和人类一样的智能程度和认知才能的系统。可以在复杂的环境下自主学习、推理、了解、顺应，有更高级的智能表现。
▐AGI(通用人工智能)：artifical general intelligence

通用人工智能（AGI）是广义AI的一个子集，指能在各个范畴和方面都能达到人类智能程度的系统，具有人类的多样性和灵敏性。AGI是AI研讨的终极目的之一，AGI可以跨范畴执行多种义务，具有自我学习和顺应的才能，可以停止各类的学习和推理义务，并且具有自我看法和通用智能。
▐AIGC(人工智能生成内容)：AI generated content

AIGC，全名“AI generated content”，又称生成式AI，意为人工智能生成内容，是应用AI技术自动创作出新的内容，这包括但不限于文字、图像、音乐、视频等。AIGC技术的核心优势是可以大大减轻人类创作者的负担，提高内容消费的效率和规模，同时也可以创造出全新的、创意性的作品。
可以简单了解为，AIGC的水位，介于弱AI与AGI之间，是AGI在特定范畴（内容生成）的一个减弱型运用。AIGC目前曾经有很多广泛的运用，而相反，AGI则处于研讨阶段，且在实践落地过程中，一定会面临严厉的机器人伦理成绩。
▐ LLM(大言语模型)：large language model

大言语模型普通指在大规模的文本语料上训练，包含百亿甚至更多参数的言语模型。大言语模型采用的架构目前基本是基于transformer的架构。那么LLM近期爆火，在之前却没有很好的表现的一个很重要缘由是，只要言语模型的规模达到一定量级的时分，某些才能才会出现。（称之为涌现才能）。代表性的包括：上下文学习、指令遵照、逐渐推理等等。

▐ChatGPT：Chat Generative Pre-trained Transformer

ChatGPT是"Chat Generative Pre-trained Transformer”的缩写，ChatGPT是一种基于人工智能技术的聊天机器人，可以停止自然言语了解和生成，提供流利且类人的对话体验。是史上增长最快的消费者运用，可以运用于各种场景，能用于问答、文本摘要生成、机器翻译、分类、代码生成和对话。
大模型架构2017年前，transformer架构前的部分经典架构如下：

▐Transformer架构

当下最火的当属2017年的transformer架构，Transformer是目前最常见的言语模型的基本结构。transformer架构触及大量的概念和运用，比如编码-解码（encoder-decoder），留意力机制（attention），kqv（key、Querry、value）等。
Transformer模型的核心架构可分为编码器和解码器。即编码器将输入序列编码成一个向量，而解码器则从该向量中生成输入序列。
简单的工作流程如下：

(, 下载次数: 0)

1、获取输入句子的每一个单词的表示向量 X，X由单词的 Embedding（Embedding就是从原始数据提取出来Feature）和单词地位的 Embedding 相加得到。

(, 下载次数: 0)

2、将得到的单词表示向量矩阵 (如上图所示，每一行是一个单词的表示 x) 传入 Encoder 中，经过6个 Encoder block 后可以得到句子一切单词的编码信息矩阵C
3、将 Encoder 输入的编码信息矩阵 C传递到 Decoder 中，Decoder 依次会根据当前翻译过的单词 1~ i 翻译下一个单词 i+1 。

(, 下载次数: 0)

运用ChatGPT的时分会发现输入结果是一个字一个字蹦出来的，这是Transformer的结构导致的。
简单了解：可以将Transformer模型学习和预测的过程看成是言语翻译。假如模型是将A言语翻译成B言语，那么Transformer模型结构中的编码器是将输入的A言语翻译成模型言语，而解码器则是将模型言语翻译成B言语。
▐留意力机制

Transformer模型之所以具有弱小的功能，可以归功于模型中运用的留意力机制。何为留意力机制？对于一张图，我们并不会同等地查看图中的每个地位，而会自动提取“重要的地位”。
Attention = 留意力，从两个不同的主体末尾。（两个主体互相留意，我留意到他，他留意到我）
NLP范畴最末尾用于翻译义务，自然是source、target，D翻译第一个词的时分，有个attention的机制关注到后面的一切词，但是权重不一样。简单了解：计算词之间的相近关系。

(, 下载次数: 0)

注：颜色粗细代表权严重小

以上图片可以解读为：一段自然言语内容，其本身就「暗含」很多外部关联信息。例如下面这句话，假如用“自留意力”机制，应该给与“知识”最多的留意力，因此可以以为：
一段自然言语中，其实暗含了：为了得到关于某方面信息 Q，可以经过关注某些信息 K，进而得到某些信息（V）作为结果。（Q 就是 query 检索/查询，K、V 分别是 key、value。所以相似于我们在图书检索系统里搜索「NLP书籍」（这是 Q），得到了一本叫《自然言语处理实战》的电子书，书名就是 key，这本电子书就是 value。只是对于自然言语的了解，我们以为任何一段内容里，都本身暗含了很多潜在 Q-K-V 的关联。）【qkv机制后续在图片范畴也有大量的运用，可以熟习一下这个机制】
关于transformer架构，还有很多的逻辑和知识，不做枚举。且后续大量的逻辑会基于向量和矩阵展开，不易了解。简单的罗列下为什么这个架构后面带来了大量的变革。即架构的优势：

▐上下文学习（In-Context Learning）

一个预训练模型，在处理下游义务时，不微调模型参数，只需求在输入时加一些示例，就能有 SOTA（state-of-the-art，即最优秀的模型）的表现，这就是模型的上下文学习（In-Context Learning，ICL）才能。

(, 下载次数: 0)

这样 f(x) 就是 Prompt Engineering，而 g(x) 其实是 Answer Engineering。

▐Prompt Framework

Prompt的专业与否直接关系到以下两方面的结果效果：
1、大模型回复的准确性和针对性：好的Prompt才可以协助模型更好地了解你的意图和需求。
2、大模型回复语句的自然度：好的Prompt可以协助模型更好地处理歧义，以及上下文依赖性等成绩，提高模型回答的自然度。
Elavis Saravia 总结的框架：

只需你按照这个框架写 prompt ，模型前往的结果都不会差。
当然，你在写 prompt 的时分，并不一定要包含一切4个元素，而是可以根据本人的需求陈列组合。比如拿后面的几个场景作为例子：

▐提示工程（Prompt Engineering）

在Prompt Framework背景下，为了让LLM有更高质量的回答、对业务有价值的回答。在工程实际中，工程侧会将用户的随意成绩停止包装组织以及抽取，组成成绩的上下文，并添加一些周边的限定语句，而得到有效提示词的代码逻辑或者运用服务（有效提示词组织服务：能完成这些复杂运用业务的普通是需求一个专门的服务）。
query有效->产出好的结果是不容易 -> 避免二义性、无结果
所以产生了提示词工程：提示词引擎-runtime(串联产投链路数据) & 模板运维

▐COT(chain of thought) 思想链

深度学习的演化阶段：在认知迷信里，有一个「认知双通道实际」，讲的是人脑有两套系统，即「系统 1」和「系统 2」：

System-1 是目前深度学习正在做的事情 —— Current DL，比如图像辨认、人脸辨认、机器翻译、情感分类、语音辨认、自动驾驶等。System-2 是将来深度学习将要做的事情 —— Future DL，比如推理、规划等义务，这些义务基本都是有逻辑的（logical）、可推理的（reasoning）。
大言语模型研讨者们也在探求那些 System-2 要处理的义务，于是有了下面的几个技术方向。

Google 提出思想链提

示（CoT Prompting）

(, 下载次数: 0)

Let's Think Step by Step

对于 OpenAI 的 InstructGPT（详细地，是 text-davinci-002）模型，在输入提示时加上「Let's think step by step」后，其表现：

对于 Google 的 PaLM 模型（详细地，参数规模为 5400 亿），异样的输入提示改造，其表现：

理想上，还有很多相似的Prompt插入，但是效果不如这句好。

(, 下载次数: 0)

大模型发展与运用

▐大模型概述

而他们的底座就是大模型（Large Models），大模型在人工智能范畴通常指的是具有大量参数的(通常包含十亿甚至千亿参数)、复杂计算结构和强泛化才能的机器学习模型。其次要特点包括：

(, 下载次数: 0)

业务AIGC运用范畴和实际

▐关键项目概述

产技推进准绳：在有强行业属性的需求的方向上坚持投入定制（例如生图、消费决策因子），在偏通用的运用上尽能够疾速复用平台产品，底层复杂才能经过集团借力。
▐AIGC工程实际

策略：业务侧核心聚焦业务场景运用，平台才能&模型不会那么重

目的：构建一套支持多业务场景的AIGC横向工程引擎架构，辅助业务疾速落地AIGC场景。
思索扩展性、模块化和服务的可重用性，嵌入产供投链路。

采用分层设计，以完成各层次的解耦和服务复用。
嵌入产供投链路：经过API、音讯队列、odps回流等完成系统间的数据交换和工作流程的协同。
核心公共才能：多模型接口封装、Prompt管理、标注反馈才能、义务管理才能、多业务身份隔离等。

(, 下载次数: 0)

1. 用户界面层（User Interface Layer）: 提供用户敌对交互的操作、管理界面，可以根据不同的业务场景定制。

2. 运用层（Application Layer）: 处理业务逻辑的中心层

3. AI 核心才能层（AI Services Layer）: 封装不同AIGC才能成独立服务，最小才能具有可插拔

4. 模型层（AI Model Layer）:

5. 数据处理层（Data Processing Layer）：处理数据的获取、清洗、转换和存储

6. 基础设备层（Infrastructure Layer）:

7. 监控与运维层（Monitoring & Ops Layer）:

▐运用场景举例

业务背景
因多语种翻译、商品信息不足等成绩导致商品属性缺失、图片素材质量低；导致用户了解难、转化低、万求高。面对极大品量，运营手动仅可补全大批头部商品，无法全量优化。在AI技术成熟的背景下，思索采用AIGC的方式对商品的属性、卖点、素材图片、场景图等信息停止补全及优化。
核心方案
技术选型核心三步：1、模型底层选择；2、言语&框架选择；3、全体架构设计。
全体参看上篇AIGC工程实际方案。基于大模型生文才能&部署Stable Diffusion生图才能，经过离在线数据接入、配置化设计、异步义务调度等技术链接业务供给数据资产，构建嵌入产供投链路的批量化AIGC工程。
阶段停顿
文生文工程：具有prompt模板提示&自动填充、义务试跑预览、费用预估、批量化AIGC消费等才能，简化业务AIGC运用门槛。商品属性补全百万+品。获流效果在主搜收费获流上分明提升（有动销商品/动览非动销品均正向），并且经过商详ab方式验证对成交转化率也有正向提升。
场景图：建设标品场景图交换、白底图&透明图消费、透明图超分处理、模特服饰下身、图片连通域检测、图片转存、图片裁剪等二创。图素材消费万+，首猜获流效率&主搜曝光点击率均为正向。

(, 下载次数: 0)

另外我们初探构建具有业务知识的AI办公助手。服务于商家，提升运营效率和业务体验。不只束缚了业务小二的工作量，也提升了业务操作的效率和准确性。

(, 下载次数: 0)

实际过程应战

在AIGC的实际，技术应战与机遇并存。下面给大家分享下AIGC的实际应战以及部分处理思绪。
▐技术应战

成绩	描画	处理方案及思绪
知识量有限	比如GPT 4，21年前训练样本&通用语料训练，实时数据、垂直范畴的数据&专属知识无法了解无法"在外部世界举动"，不论是搜索网页、调用 API 还是查找数据库	方案1. LLM+检索加强：LLM的基础上经过检索等额外提供范畴数据信息；对于用户输入Query，结合业务数据中检索到的结果一同输入给LLM，则可以得到更精准的回答。方案2. 构建行业数据集对LLM停止微调，使模型本身具有输入行业信息的才能。（成本高且效果不佳）【处理方案】：LLM+检索加强：OpenAI提出了chatgpt-retrieval-plugin、WebGPT，开源社区提出了DocsGPT、ChatPDF、基于langchain的检索加强chatbot等等一系列处理方案
效果成绩	部分场景效果不及预期复杂逻辑推理才能不佳对未见过的知识语料回答效果差	1、大模型+上下文学习技术（In-Context Learning），设计合理的prompt模版 2、大模型+思想链提示（Chain-of-Thought Prompting），引入推理途径作为提示，激发大模型按照这种推理的形式生成出合理的结果 3、大模型+高质量标注样本+指令微调（PEFT技术），提高模型对特定义务的泛化才能
延迟成绩	一次残缺问答大概 10s+ （用户200ms会有体感）延迟次要受两个要素影响：模型和生成的令牌数量。	1、流式传输。央求中的设置stream: true使模型在令牌可用时立刻末尾前往令牌，而不是等待生成残缺的令牌序列。它不会改变获取一切令牌的工夫，但它会减少我们想要显示部分进度或将中止生成的运用程序的第一个令牌的工夫。这可以是更好的用户体验和 UX 改进，因此值得尝试流式传输。 2、基础设备。openai 美国。存在跨国网络延时 3、减小token 。例如运用更短的提示。交互式分词器工具来协助估算成本 4、缓存：经过存储常常访问的数据，可以延长呼应工夫，而无需反复调用 API。但在添加新信息时使缓存有效。
资源和功能	训练&微调都需求不少机器资源，目前GPU资源匮乏部署资源，尤其是C端投放有高并发低延时要求，需求投入宏大成本在线serving	1、不训练基座模型，微调选择的基座模型选几B~几十B左右的LLM （如ChatGLM-6B） 2、曲线救国，线上不直接运用大模型serving，一种是应用大模型的embedding，另一种是应用大模型来停止更多样本标注，来辅助小模型学习

▐量产与低质矛盾

业务在AIGC运用更多是批量化消费，去疾速辅助业务补全海量磋商素材质量低的成绩。不同于交互式生成方式，批量化生成中面临很多成绩，其中最为突出的是原商品图的质量，以及原商品图和背景模板的婚配成绩：
1、商品素材图：主体明晰度低、规划混乱；这对于最终用户的购买体验有极大的负面影响。
技术处理方案：采用超分辨率技术，特别是real-esrgan方法（ESRGAN做生成网络，Unet做判别网络）最终将合成图扩展到1000*1000分辨率，以满足高质量的输入需求。
2、商品素材的规划混乱，包括物档次置不当、画面过于杂乱，使得生成的图片达不到预期要求。
技术处理方案：经过主体辨认以及联通域检测技术，对商品主体结构分布停止挑选，预剔除不符合规范的商品图片，从而优化图片的规划和全体美观度。
3、由于缺乏标准化样本停止模型训练，商品图与背景模板的婚配成绩成为了批量化生成的一大应战。
技术处理方案：精选背景模板：经过细分类目，结合人工评测批量化产出生成图后，剔除采纳率较低的背景图模板，以提高背景的适配性和美观度。
以及特别是C端投放场景，需求建立审核->验收->效果等业务SOP流程，提高消费投放的效率和质量。
▐伦理和监管成绩

随着大模型在AIGC中的广泛运用，它们引发了关于数据隐私、版权、内容监管和成见等成绩的讨论。因此，大模型的运用不只触及技术层面，还触及伦理和法律层面。如政治敏感、违法犯罪、身体损伤、心思健康、隐私财产、成见歧视、礼貌文明、伦理道德等成绩，尤其是LLM直接面向C短消费者服务时，由于消费者的输入不可控，模型有概率得到一些不合规的前往。

成绩	描画	处理方案及思绪
安全与合规	如政治敏感、违法犯罪、伦理道德等成绩，尤其是LLM直接面向C端场景	1、建设安全校验模块才能 2、B端：生成素材数据清洗&人工审核 3、C端：生成式大模型必须经过SFT、RLHF等微调技术对大模型做适配微调，对齐人类的价值观；
政策成绩	对于类GPT才能作为C端运用的开放程度需受限于政策	1、上线前，找安全同窗评价

【附】网信办411公布《生成式人工智能服务管理办法》征求意见稿，规范生成式人工智能产品（AIGC，如 ChatGPT）的开发和运用方式、行业的定义、对消费者的要求和责任等方面。意见稿中尤其提出：“应用生成式人工智能产品向公众提供服务前，该当按照《具有言论属性或社会动员才能的互联网信息服务安全评价规定》向国家网信部门申报安全评价，并按照《互联网信息服务算法引荐管理规定》实行算法备案和变更、登记备案手续。
C端运用上线需求过“双新评价”：

(, 下载次数: 0)

将来展望▐业务侧规划

面对下一年度，AIGC实际的将来展望应基于业务场景继续创新，扩展战果。

▐个人等待

AI大势浩浩荡荡，顺之者昌逆之者亡。YY几个将来的等待场景：
1、加强的交互式AI：相似google发布的Gemini，改变当前信息交互方式，等待每个人都有专属钢铁侠中的人工智能“贾维斯”。
2、个性化和定制化内容：大数据+AIGC根据用户偏好、历史行为和实时反馈生成的个性化和定制化内容。
3、虚拟理想内容：AIGC多模态内容生成发展，图像、视频、音频等，将来说不定AI构建虚拟理想内容。

(, 下载次数: 0)

结语

积极拥抱变化，回绝无谓焦虑。AI技术发展更多地是对人类才能的补充而非替代，更多作为“助理”的效果。
在人工智能飞速发展的明天，我们正站在这个时代的十字路口，AI的提高为我们揭开了技术创新的新篇章，提供了史无前例的便利和机遇；另一方面，技术的飞跃发展也带来人们对将来工作和生活方式的不确定性，引发了人们心中的焦虑和恐惧。
前总理：“中国有6亿人月支出不到1千”。最广大的用户能够并没有感遭到GPT的一日千里的变化。持续学习与顺应是关键，不断学习新知识，提升对AI技术的了解和掌握。唯有接纳和了解AI技术的提高，我们才能把握发展的机遇。经过深化了解AI技术的实践运用，我们可以发现，技术的发展更多地是对人类才能的补充而非替代。

(, 下载次数: 0)

参考材料

Massive Exploration of Neural Machine Translation Architectures

Safety-Prompts

团队引见天猫国际，中国出口电商范畴的领航者，不只是阿里巴巴-淘天集团电商技术体系中的佼石，更是集平台运营、跨境贸易、大贸业务、免税服务于一体的综合性业务旗舰。我们的技术产品覆盖了从商家入驻到消费者体验的每一个环节，构成了电商链路上最为丰富和复杂的生态系统。我们对电商行业的特性和发展趋向有着深化的认知。同时，我们也亲密关注着跨境市场的动态和将来的买卖趋向，以期提早规划，引领行业发展。

¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)