职贝云数AI新零售门户

标题: AIGC综述 [打印本页]

作者: ah9f6f2 时间: 昨天 13:40
标题: AIGC综述
A Comprehensive Survey of AI-Generated Content (AIGC):A History of Generative AI from GAN to ChatGPT
一、AIGC简介

浅谈人工智能范畴各个方向
1、什么是AIGC

AIGC：生成式人工智能，AI-Generated Content。
AIGC的目的是使内容创建过程愈加高效和易于访问，从而可以以更快的速度制造高质量的内容。
AIGC是经过从人类提供的指令中提取和了解意图信息，并根据其知识和意图信息生成内容来完成的。
AIGC的发展依赖于数据的增长、AI算法的发展以及GPU的发展
2、AI发展历程

一文概览人工智能(AI)发展历程

1956，人工智能达特茅斯学院人工智能冬季研讨会上正式运用了人工智能（artificial
intelligence，AI）这一术语。这是人类历史上第一次人工智能研讨，标志着人工智能学科的诞生。
1957年-Frank Rosenblatt-感知机（Perceptron）的神经网络模型
1958年，David Cox提出了logistic regression线性判别器
1967年，Thomas等人提出K最近邻算法
1968年，爱德华·费根鲍姆（Edward Feigenbaum）提出首个专家系统DENDRAL（知识库、推理机）
1974年，哈佛大学沃伯斯(Paul Werbos)博士论文里，初次提出了经过误差的反向传播(BP)来训练人工神经网络，但在该时期未惹起注重。
1980年，在美国的卡内基梅隆大学(CMU)召开了第一届机器学习国际研讨会，标志着机器学习研讨已在全世界兴起。
1989年，LeCun (CNN之父) 结合反向传播算法与权值共享的卷积神经层发明了卷积神经网络（Convolutional Neural Network，CNN），并初次将卷积神经网络成功运用到美国邮局的手写字符辨认系统中。
1995年，Cortes和Vapnik提出结合主义经典的支持向量机(Support Vector Machine)，它在处理小样本、非线性及高维形式辨认中表现出许多特有的优势，并可以推行运用到函数拟合等其他机器学习成绩中。
1997年，Sepp Hochreiter 和 Jürgen Schmidhuber提出了长短期记忆神经网络(LSTM)。
2011年，IBM Watson问答机器人参与Jeopardy回答测验比赛最终博得了冠军。Waston是一个集自然言语处理、知识表示、自动推理及机器学习等技术完成的电脑问答（Q&A）系统。
2012年，Hinton和他的先生Alex Krizhevsky设计的AlexNet神经网络模型在ImageNet竞赛大获全胜，这是史上第一次有模型在 ImageNet 数据集表现如此出色，并引爆了神经网络的研讨热情。 AlexNet是一个经典的CNN模型，在数据、算法及算力层面均有较大改进，创新地运用了Data Augmentation、ReLU、Dropout和LRN等方法，并运用GPU加速网络训练。
2012年，谷歌正式发布谷歌知识图谱Google Knowledge Graph），它是Google的一个从多种信息来源汇集的知识库，经过Knowledge Graph来在普通的字串搜索上叠一层互相之间的关系，协助运用者更快找到所需的材料的同时，也可以知识为基础的搜索更近一步，以提高Google搜索的质量。
2013年，Google的Tomas Mikolov 在《Efficient Estimation of Word Representation in Vector Space》提出经典的 Word2Vec模型用来学习单词分布式表示，因其简单高效惹起了工业界和学术界极大的关注。
2014年，聊天程序“尤金·古斯特曼”（Eugene Goostman）在英国皇家学会举行的“2014图灵测试”大会上，初次“经过”了图灵测试。
2014年，Goodfellow及Bengio等人提出生成对抗网络（Generative Adversarial Network，GAN），被誉为近年来最酷炫的神经网络。
2015年，Microsoft Research的Kaiming He等人提出的残差网络（ResNet）在ImageNet大规模视觉辨认竞赛中获得了图像分类和物体辨认的优胜。
2015年，谷歌开源TensorFlow框架。它是一个基于数据流编程（dataflow programming）的符号数学系统，被广泛运用于各类机器学习（machine learning）算法的编程完成，其前身是谷歌的神经网络算法库DistBelief。
2015年，马斯克等人共同创建OpenAI。它是一个非营利的研讨组织，使命是确保通用人工智能 (即一种高度自主且在大多数具有经济价值的工作上超越人类的系统）将为全人类带来福祉。其发布抢手产品的如：OpenAI Gym，GPT等。
2016年，AlphaGo与围棋世界冠军、职业九段棋手李世石停止围棋人机大战，以4比1的总比分获胜。
2017年，中国香港的汉森机器人技术公司（Hanson Robotics）开发的类人机器人索菲亚，是历史上首个获得公民身份的一台机器人。索菲亚看起来就像人类女性，拥有橡胶皮肤，可以表现出超过62种自然的面部表情。其“大脑”中的算法可以了解言语、辨认面部，并与人停止互动。
2018年，Google提出论文《Pre-training of Deep Bidirectional Transformers for Language Understanding》并发布Bert(Bidirectional Encoder Representation from Transformers)模型，成功在 11 项 NLP 义务中获得 state of the art 的结果。
2020年，OpenAI开发的文字生成 (text generation) 人工智能GPT-3，它具有1,750亿个参数的自然言语深度学习模型，比以前的版本GPT-2高100倍，该模型经过了将近0.5万亿个单词的预训练，可以在多个NLP义务（答题、翻译、写文章）基准上达到最先进的功能。
2021年，OpenAI提出两个衔接文本与图像的神经网络：DALL·E 和 CLIP。DALL·E 可以基于文本直接生成图像，CLIP 则可以完成图像与文本类别的婚配。
2022年11月30日，OpenAI推出ChatGPT，运用了Transformer神经网络架构，也是GPT-3.5架构，2023年一月末，ChatGPT的月活用户已打破1亿，成为史上增长最快的消费者运用。

3、AIGC发展历程

从ChatGPT的前世今生，到如今AI范畴的竞争格局（截止至2023.03）
生成式AI模型（GAI）分为单模态模型和多模态模型：

单模态模型从与生成的内容模态相反的模态接收指令
多模态模型接受跨模态指令并产生不同模态的结果

(, 下载次数: 0)

GPT-3的框架与GPT-2保持相反，但预训练数据大小从Web Text（38GB）到CommonCrawl【训练数据集]（过滤后为570GB），以及基础模型大小从1.5亿增长到175亿。因此，GPT-3在各种方面都比GPT-2具有更好的泛化才能义务，例如人类意图提取。
ChatGPT应用来自人类反馈的强化学习（RLHF）[10-12]来确定对给定指令做出最恰当的呼应，从而提高模型的牢靠性和准确性随着工夫的推移。这种方法使ChatGPT可以更好地了解长对话中的人类偏好。
同时，在计算机视觉中，波动性提出了波动分散[13]stable diffusion， 2022年的人工智能在图像生成方面也获得了宏大成功。与现有方法不同，生成分散模型可以经过控制探求和开发之间的权衡来协助生成高分辨率图像，从而完成生成图像的多样性和与训练数据的相似性的和谐结合。
二、AI发展历史

20世纪50年代，隐马尔科夫模型HMM和高斯混合模型GMM生成了言语和工夫序列之类的顺序数据。
NLP中，生成句子的传统方式是N-gram模型停止单词分别，然后搜索最佳序列。随着LSTM、GRU门控递归网络在训练过程中建模相对较长的依赖关系。
CV中，传统算法纹理合成和纹理映射到2014年生成对抗网络GANs的提出，再到变分自动编码器VAE和stable-diffusion的提出，图像生成过程也有了更细粒度的控制和高质量图像生成的才能。
Transformer的出现，使得NLP/CV出现了交叉点。NLP中，bert、GPT采用transformer作为其次要构建块，与LSTM和GRU相比更具优势。CV中，发展为ViT和swin transformer，多模态代表：CLIP
基于transformer模型的出现彻底改变了人工智能的生成，并带来了大规模训练的能够性。

(, 下载次数: 0)

ChatGPT、DALL-E-2、Codex
bert/transformer/强化学习
三、GAI模型训练中广泛运用的基本组件

3.1、AIGC的组件模型-Foundation Model

transformer

它最后是为了处理传统模型（如RNN）在处理可变长度序

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)