职贝云数AI新零售门户

标题: AIGC内容分享(十二)：AIGC探求之旅AIGC探求之旅 [打印本页]

作者: Xivr0 时间: 4 小时前
标题: AIGC内容分享(十二)：AIGC探求之旅AIGC探求之旅
目录
前言
引言：AI时代，将来已来
AIGC简介与发展历程
早期萌芽阶段（1950s－1990s）
沉淀积累阶段（1990s－2010s）
疾速发展阶段（2010s至今）
大模型与AIGC的关联
大模型概述
大模型的定义和特点
典型大模型举例
AIGC运用探求
业务背景
AIGC技术落地过程
模型选择
技术框架选择
全体架构设计
部分实际案例
其他运用场景
AIGC的实际应战
技术应战
伦理和监管成绩
AIGC的将来展望

前言

随着OpenAI推出ChatGPT，AIGC迎来了史无前例的发展机遇。大模型技术曾经不只仅是技术趋向，而是深上天塑造着我们交流、工作和思索的方式。本文引见了笔者了解的大模型和AIGC的亲密联络，从历史沿革到实践运用案例，再到面临的技术应战和伦理监管成绩，讨论这一技术浪潮如何引领我们进入一个智能化的将来。
引言：AI时代，将来已来

2022.11月30号OpenAI推出ChatGPT后随即爆火，五天注册用户数过百万，2个月用户破1亿，成为史上增长最快的消费者运用。随后各大厂也纷纷卷入AIGC范畴，迎来国产GPT大模型发布潮（百度"文新一言"、阿里"通义千问"、商汤"磋商 SenseChat"等）及AI创业公司成立潮（王小川、李开复等）。
大模型代表一个新的技术AI时代的降临，大模型展现出的弱小的语义了解，内容生成以及泛化才能正在逐渐改变我们的工作与生活方式（AI+）、工作方式和思想方式。正如《陆奇的大模型观》所讲当前我们正迎来新范式的新拐点，从信息系统到模型系统过渡，"模型"知识无处不在。人工智能的浪潮正在引领新的技术革命，或答应称为第五次工业革命。
（【注】引荐大家去阅读《陆奇的大模型观》。激烈建议直接看陆奇演讲视频奇绩创坛| 陆奇最新演讲残缺视频｜大模型带来的新范式：演讲涵盖陆奇对大模型时代的宏观思索，包括拐点的内在动因、技术演进、创业公司结构性机会点以及给创业者的建议。）
在人工智能的新时代，大模型技术正成为推进AIGC（人工智能生成内容）前沿的关键力气。本文将经过引见我们的AIGC项目，来深化讨论这一技术的开发、实施与运用。因个人才能限制，文章中能够存在一些了解或表述错误的地方，希望各位大佬能及时批判和指正。
AIGC简介与发展历程

在与业务等交谈过程中，常常会听大家提到AIGC、ChatGPT、大模型、XX等许多概念，但也发现部分内容混淆。首先来处理下当下最火概念AIGC、ChatGPT、大模型到底是什么？

AIGC是一个更广泛的概念，包括多种类型的内容生成；ChatGPT则是一个详细的产品。简单可以这么了解：AIGC是平台，ChatGPT是平台上的某个软件。
结合人工智能的演进历程，AIGC发展大致分三个阶段[人工智能行业生成内容（AIGC）白皮书（2022年）

早期萌芽阶段（1950s－1990s）

早期萌芽阶段（1950s－1990s），受限于当时的科技程度，AIGC仅限于小范围实验。

沉淀积累阶段（1990s－2010s）

沉淀积累阶段（1990s－2010s），AIGC从实验性向适用性逐渐转变。

算力设备功能不断提升

互联网规模收缩提供海量训练数据

疾速发展阶段（2010s至今）

疾速发展阶段（2010s至今），深度学习模型不断迭代，AIGC打破性发展。

2022年，12月OpenAI的ChatGPT在推出，两个月后用户数量就打破1亿了

大模型与AIGC的关联

大模型（Large Models）与AIGC（人工智能生成内容）之间存在亲密的关联，AIGC依赖于大型的人工智能模型来生成高质量的内容。它们是人工智能技术发展的两个重要方面。简单来说：

总的来说，大模型和AIGC互相促进、共同发展，构成了一个严密联络的技术生态系统。在这个系统中，大模型提供了底层的技术支持，而AIGC则代表了一种实践的运用方式。
大模型概述

大模型的定义和特点

大模型（Large Models）在人工智能（AI）和机器学习（ML）范畴，通常指的是具有大量参数的(通常包含数百万到数十亿甚至更多的参数)、复杂计算结构和强泛化才能的机器学习模型。这类模型往往是基于神经网络，尤其是深度神经网络，包括但不限于深度卷积神经网络（CNNs）、循环神经网络（RNNs）、长短期记忆网络（LSTMs）和Transformer架构。
其次要特点包括：

典型大模型举例

国际：

组织	模型/运用	备注
OpenAI	GPT-1/GPT-2/GPT-3	GPT-1：1.17亿参数；5GB预训练数据 GPT-2：15亿参数；40GB预训练数据 GPT-3：1750亿参数；570GB预训练数据
OpenAI	GPT-4	加入图片功能，对外开放更情愿调用本人的外部知识有更强的逻辑推理才能体验地址：https://chat.openai.com/
Google	LaMDA	谷歌推出的基于Transformer架构的大言语模型 137B参数独特之处在于采用了对话式的交互方式，让用户可以愈加自然地与计算机停止交流
Google	PaLM-E	拥有5400亿个参数独特之处在于可将言语模型和视觉模型结合起来，完成多模态了解与生成。
Meta	PaLM-A	基于PaLM架构可运用于多种场景，包括文本分类、问答系统等
Meta	LLaMA	7B-65B参数
微软	Windows Copilot	集中式 AI 协助的 PC 平台，高效的个人助理

国内：

组织	模型/运用	备注
复旦大学	MOSS	160亿参数的支持中英双语的对话大言语模型国内首个类ChatGPT模型体验地址：https://moss.fastnlp.top/
阿里	通义千问	内测 https://bazinga.aliyun-inc.com/ 公开 https://tongyi.aliyun.com/
清华大学	ChatGLM	开源模型 https://github.com/THUDM/ChatGLM-6B
华为	盘古	国内首个全栈自主的AI大模型，有盘古NLP大模型（对话问答，代码生成，文案生成，Versatile，NL2SQL）、盘古CV大模型，盘古多模态大模型（图形生成，图像编辑，3D生成），盘古预测大模型，盘古迷信计算大模型等体验地址：https://pangu.huaweicloud.com/index.html?ref=openi.cn
商汤	“磋商”SenseChat	体验地址：https://chat.sensetime.com/wb/
腾讯	混元	具有弱小的中文创作才能，复杂语境下的逻辑推理才能超1000亿参数规模，预训练语料超2万亿tokens 体验地址：https://hunyuan.tencent.com/
科大讯飞	星火认知	拥有跨范畴的知识和言语了解才能，可以基于自然对话方式了解与执行义务。体验地址：https://xinghuo.xfyun.cn/
百川智能	Baichuan-7B、Baichuan-13B	开源可收费商用的百川大模型体验地址：https://www.baichuan-ai.com/home
百度	文心一言 2023.10.17 文心大模型4.0正式发布	体验地址：https://yiyan.baidu.com/ 文心大模型的4.0正式发布：在了解、生成、逻辑、记忆这四大才能上分明的提升

【注】更多模型可从huggingface模型平台查看；
huggingface国内镜像（地址：https://aliendao.cn/models#/）
总结来看：

(, 下载次数: 0)

【附】中文才能上10月 SuperCLUE 评测排名
AIGC运用探求

业务背景

笔者所在业务存在多国家多语种的千万级别的海外特征供给，因多语种翻译、商品信息不足、供应商才能等成绩导致大量商品属性缺失、图片素材质量低；导致用户了解难、转化低、万求高。面对极大品量，运营手动仅可补全大批头部商品，无法全量优化。在AI技术成熟的背景下，思索采用AIGC的方式对商品的属性、卖点、素材图片、场景图等信息停止补全及优化。
AIGC技术落地过程

作为一名业务技术开发，必须时辰围绕处理业务虚际成绩、技术创新驱动业务发展、疾速呼应市场变化等方面思索。在项目启动初期，我们首先基于探物香水标品场景2000个品批量AIGC素材，验证AIGC消费可行性。并经过多次脑暴探求，明白要做可以带来业务价值的、可以规模化的、可以突出国际垂类优势的AIGC运用。不做炫技的，落不了地的，没有业务感知的，不做通用的模型，算力(资源不允许)。
因此技术目的：搭建可复用可扩展、嵌入产供投链路的AIGC工程引擎；辅助业务疾速落地AIGC场景。技术选型核心三步：1、模型底层选择；2、言语&框架选择；3、全体架构设计。

模型选择

生文模型：初期我们采用GPT4、GPT3.5，后面也逐渐引入了通义千问、vertex-PaLM2、claude2等。
生图模型：Stable Diffusion
成本方面估算：对于英文，1个token大约为4个英文字符或0.75个英文单词；对于中文，1中文约1-3个token。后期实验上去，探物品 cost=0.12元/品，是在业务可接受的范围。
测算token数网站：https://gpttools.com/estimator

技术框架选择

综合开源社区活跃、牢靠性，以及后期我们采用GPT模型适配度等多方面思索，在模型层我们采用LangChain框架构建。

特点	LangChain	Llama-Index	Semantic Kernel（微软）
言语	Python ；Js/Ts	Python	TypeScript
可组合性	是	是	是
LLMs和Prompt管理	是	是	是
Chains（编排才能）	是	否	是
数据索引处理	是	是	是
义务管理（agents）	是	否	是
形态管理	是	否	是
Evaluation	是	否	是
文档	https://github.com/hwchase17/langchain https://langchain.github.io/		https://github.com/microsoft/semantic-kernel https://learn.microsoft.com/en-us/semantic-kernel/

【注】这些框架的目的是为 LLM 交互创建一个底层编排引擎
LangChain是一个基于大型言语模型（LLMs）构建运用的框架。它的核心思想是定义标准接口（可以自定义完成）& 可以将不同的组件“链接”起来，创建更高级的LLMs运用，相似spring全家桶。它可以协助你完成聊天机器人、生成式问答、文本摘要等功能

	langchain-python	langchain-java
生态繁荣度和牢靠性	高，社区活跃，github 4.7W+star	低，集团外部团队自建
扩展工具多样性	高度丰富的组件才能	极少
集团中间件兼容	和集团外部对接都需求停止框架层开发，比如hsf调用、数据库对接、服务化的才能	支持
集团容器兼容	支持	支持
集团LLM接口兼容	需求停止框架层对接，开发成本较低	有对接成本
开发成本	python数据处理(爬取、清洗、标注)、大模型交互python性价比更高，可疾速搭建试错	跟数据处理和大模型交互更重，试错周期长
文档	langchain官网：https://python.langchain.com/en

【言语选择】：python+java结合的方式：

全体架构设计

(, 下载次数: 0)

数据层：弹内/弹外数据->自然言语文本处理->国际自营行业向量数据库
模型层：依赖集团外部/国际自营大模型才能
工程引擎：横向通用才能视角（生文、生图、会话等），支撑下层业务场景&嵌入消费投放链路

LLM义务执行引擎层

图义务引擎

部分实际案例

建设批量文生文AIGC工程引擎，具有prompt模板提示&自动填充、义务试跑预览、费用预估、批量化AIGC消费等才能。已运用素材文生文、商品咨询FAQ消费等场景。

(, 下载次数: 0)

建设图生图AIGC工程引擎，完成图片的超分处理、AI二创等工程建设，支持业务优化商品图片素材质量。已运用探物标品素材图生图等场景。

(, 下载次数: 0)

其他运用场景

下面是本人搜集的一些运用场景case，希望给大家更多的思索启示。
外部公司运用场景更广，这里简单罗列下：

AIGC的实际应战

笔者在AIGC运用的初探，技术应战与机遇并存。下面给大家分享下AIGC的实际应战以及部分处理思绪。
技术应战

成绩	描画	处理方案及思绪
知识量有限	比如GPT 4，21年前训练样本&通用语料训练，实时数据、垂直范畴的数据&专属知识无法了解无法"在外部世界举动"，不论是搜索网页、调用 API 还是查找数据库	方案1.LLM+检索加强：LLM的基础上经过检索等额外提供范畴数据信息；对于用户输入Query，结合业务数据中检索到的结果一同输入给LLM，则可以得到更精准的回答。方案2.构建行业数据集对LLM停止微调，使模型本身具有输入行业信息的才能。（成本高且效果不佳）【处理方案】：LLM+检索加强：OpenAI提出了chatgpt-retrieval-plugin、WebGPT，开源社区提出了DocsGPT、ChatPDF、基于langchain的检索加强chatbot等等一系列处理方案
效果成绩	部分场景效果不及预期复杂逻辑推理才能不佳对未见过的知识语料回答效果差	1、大模型+上下文学习技术（In-Context Learning），设计合理的prompt模版 2、大模型+思想链提示（Chain-of-Thought Prompting），引入推理途径作为提示，激发大模型按照这种推理的形式生成出合理的结果 3、大模型+高质量标注样本+指令微调，提高模型对特定义务的泛化才能
延迟成绩	一次残缺问答大概 10s+ （用户200ms会有体感）延迟次要受两个要素影响：模型和生成的令牌数量。	1、流式传输。央求中的设置stream: true使模型在令牌可用时立刻末尾前往令牌，而不是等待生成残缺的令牌序列。它不会改变获取一切令牌的工夫，但它会减少我们想要显示部分进度或将中止生成的运用程序的第一个令牌的工夫。这可以是更好的用户体验和 UX 改进，因此值得尝试流式传输。 2、基础设备。openai 美国。存在跨国网络延时 3、减小token 。例如运用更短的提示。交互式分词器工具来协助估算成本 4、缓存：经过存储常常访问的数据，可以延长呼应工夫，而无需反复调用 API。但在添加新信息时使缓存有效。
资源和功能	训练&微调都需求不少机器资源，目前GPU资源匮乏部署资源，尤其是C端投放有高并发低延时要求，需求投入宏大成本在线serving	1、不训练基座模型，微调选择的基座模型选几B~几十B左右的LLM （如ChatGLM-6B） 2、曲线救国，线上不直接运用大模型serving，一种是应用大模型的embedding，另一种是应用大模型来停止更多样本标注，来辅助小模型学习

伦理和监管成绩

随着大模型在AIGC中的广泛运用，它们引发了关于数据隐私、版权、内容监管和成见等成绩的讨论。因此，大模型的运用不只触及技术层面，还触及伦理和法律层面。

成绩	描画	处理方案及思绪
安全与合规	如政治敏感、违法犯罪、伦理道德等成绩，尤其是LLM直接面向C端场景	1、建设安全校验模块才能 2、B端：生成素材数据清洗&人工审核 3、C端：生成式大模型必须经过SFT、RLHF等微调技术对大模型做适配微调，对齐人类的价值观；
政策成绩	对于类GPT才能作为C端运用的开放程度需受限于政策	1、上线前需安全评价

【附】网信办411公布《生成式人工智能服务管理办法》征求意见稿，规范生成式人工智能产品（AIGC，如 ChatGPT）的开发和运用方式、行业的定义、对消费者的要求和责任等方面。意见稿中尤其提出：“应用生成式人工智能产品向公众提供服务前，该当按照《具有言论属性或社会动员才能的互联网信息服务安全评价规定》向国家网信部门申报安全评估，并按照《互联网信息服务算法引荐管理规定》实行算法备案和变更、登记备案手续。
AIGC的将来展望

业务侧规划：基于业务场景继续创新，扩展战果。更多还是聚焦基建和业务场景运用。
技术等待：AI大势浩浩荡荡，顺之者昌逆之者亡。YY几个将来的等待场景

附录

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)