职贝云数AI新零售门户

标题: 【最全整理】一文掌握AI大模型的发展史 [打印本页]

作者: eno 时间: 3 天前
标题: 【最全整理】一文掌握AI大模型的发展史
大模型的发展史，可以看作是从符号逻辑到智能涌现的技术革命。人工智能范畴中的大模型（Large Language Models, LLMs）是近年来最有目共睹的技术打破之一。它们不只重塑了自然言语处理的范式，更推进人类社会进入通用人工智能（AGI）的探求深水区。这场革命并非一挥而就，而是跨越半个世纪的认知迭代与技术积累的产物。
一、早期探求：符号主义的困境与神经网络的醒悟（1950s-2010）

1950年图灵提出“机器能否思索”的哲学命题时，人类对智能的了解仍停留在符号逻辑层面。早期AI系统依赖手工编码规则，如1966年MIT的ELIZA经过形式婚配模拟心思咨询，但这种“拾人牙慧”暴露了符号主义的根本缺陷——缺乏对言语本质的了解。
1986年，Rumelhart提出反向传播算法，为神经网络注入生命力。2003年Bengio团队发表《A Neural Probabilistic Language Model》，初次用神经网络建模词语分布式表示，打开了语义学习的黑箱。但是受限于算力与数据，模型规模长期停留在百万参数量级，此时的Word2Vec（2013）虽能捕捉“国王-男人+女人=女王”的语义关系，却无法处理复杂语境。

(, 下载次数: 0)

二、Transformer革命：留意力机制重构AI认知（2017-2018）

2017年Google论文《Attention Is All You You Need》的发表，标志着AI架构的根本性转向。Transformer摒弃了RNN的序列依赖缺陷，经过自留意力机制完成全局上下文建模，其并行计算特性更释放了GPU集群的算力潜能。这项创新好像打开了潘多拉魔盒：它处理了早期模型如循环神经网络（RNNs）和长短期记忆网络（LSTMs）的关键限制，这些模型在长程依赖性和顺序处理方面存在困难。另一方面，Transformers克制了这些妨碍，彻底改变了这一范畴，并为古代大型言语模型奠定了基础。

(, 下载次数: 0)

2.1 Transformer架构的关键创新

自留意力机制 (Self-Attention)：Transformers运用自留意力来权衡每个标记相对于其他标记的重要性。这使得模型可以动态关注输入的相关部分。数学上：

(, 下载次数: 0)

这里，Q、K、V是查询(query)、键(key)和值(value)矩阵，dₖ是键的维度。自留意力允许并行计算，加快训练速度，同时提高全局上下文了解。

(, 下载次数: 0)

多头留意力：多个留意力头并行操作，每个头专注于输入的不同方面。它们的输入被衔接并转换，从而完成更丰富的上下文表示。

(, 下载次数: 0)

前馈网络(FFN)和层归一化(Layer Norm)：每个Transformer层包括运用于每个标记的前馈网络，以及层归一化和残差衔接。这些波动了训练并支持更深的架构。
地位编码：由于Transformers本身不编码标记顺序，因此添加了地位编码（地位和频率的正弦函数）以表示词序，在不牺牲并行化的状况下保留顺序信息。

(, 下载次数: 0)

对言语建模的影响：1、可扩展性：Transformers完成了完全并行化的计算，使得在大型数据集上训练大规模模型成为能够。2、上下文了解：自留意力捕捉部分和全局依赖关系，提高了连接性和上下文看法
三、参数爆炸：规模定律催生智能涌现（2018-2022）

OpenAI在2020年发布的《Scaling Laws for Neural Language Models》揭示：模型功能随参数规模、数据量、计算量呈幂律增长。
2017年Transformer架构的引入为NLP的新时代铺平了道路，其特点是预训练模型的兴起和对扩展的史无前例的关注。这一时期见证了两个有影响力的模型家族的出现：BERT和GPT，它们展现了大规模预训练和微调范式的弱小功能。
3.1 BERT：双向上下文了解 (2018)

2018年，谷歌推出了BERT（Bidirectional Encoder Representations from Transformers），这是一种运用Transformer编码器(Encoder)的打破性模型，在广泛的NLP义务中获得了最先进的功能。
与之前单向处理文本（从左到右或从右到左）的模型不同，BERT采用了双向训练方法，使其可以同时从两个方向捕获上下文。经过生成深层次的、上下文丰富的文本表示，BERT在文本分类、命名实体辨认（NER）、情感分析等言语了解义务中表现出色。

(, 下载次数: 0)

BERT的关键创新包括：
1、掩码言语建模（Masker Language Modeling — MLM）：BERT不是预测序列中的下一个词，而是被训练预测句子中随机掩码的标记。这迫使模型在停止预测时思索整个句子的上下文 — — 包括前后词语。例如，给定句子“The cat sat on the [MASK] mat”，BERT会学习根据周围上下文预测“soft”。
2、下一句预测（Next Sentence Prediction — NSP）：除了MLM之外，BERT还接受了称为下一句预测的次要义务训练，其中模型学习预测两个句子能否在文档中延续。这协助BERT在需求了解句子之间关系的义务中表现出色，例如问答和自然言语推理。
BERT的影响：BERT的双向训练使其在GLUE（通用言语了解评价）和SQuAD（斯坦福问答数据集）等基准测试中获得了打破性的表现。它的成功证明了上下文嵌入的重要性 — — 这些表示根据周围词语动态变化 — — 并为新一代预训练模型铺平了道路。
3.2 GPT：生成式预训练和自回归文本生成（2018–2020）

虽然BERT优先思索双向上下文了解，但OpenAI的GPT系列采用了不同的策略，专注于经过自回归预训练完成生成才能。经过应用Transformer的解码器(Decoder)，GPT模型在自回归言语模型和文本生成方面表现出色。

(, 下载次数: 1)

GPT的第一个版本于2018年发布，是一个大规模的Transformer模型，经过训练以预测序列中的下一个词，相似于传统言语模型。它的特点：
1、单向自回归训练：GPT运用因果言语建模目的停止训练，其中模型仅基于后面的标记预测下一个标记。这使得它特别合适于生成义务，如文本补全、摘要生成和对话生成。
2、下游义务的微调：GPT的一个关键贡献是它可以在不需求特定义务架构的状况下针对特定下游义务停止微调。只需添加一个分类头或修正输入格式，GPT就可以顺应诸如情感分析、机器翻译和问答等义务。
GPT-2 (2019)：GPT-2是一个参数量达15亿的更大模型。GPT-2展现了令人印象深入的零样本(Zero-shot)才能，意味着它可以在没有任何特定义务微调的状况下执行义务。例如，它可以生成连接的文章、回答成绩，甚至在言语之间翻译文本，虽然没有明白针对这些义务停止训练。

(, 下载次数: 0)

GPT-3 (2020)：GPT-3的发布标志着言语模型规模扩展的一个转机点。仰仗惊人的175B参数，打破了大规模预训练的能够性界限。它展现了分明的少样本(Few-short)和零样本(Zero-short)学习才能，在推理时只需提供最少或无需示例即可执行义务。GPT-3的生成才能扩展到了创意写作、编程和复杂推理义务，展现了超大模型的潜力。
3.3 GPT的影响及规模的作用

GPT模型的引入，特别是GPT-3，标志着AI的一个变革时代，展现了自回归架构和生成才能的弱小功能。这些模型为内容创作、对话代理和自动推理等运用开拓了新的能够性，在广泛的义务中达到了接近人类的表现。GPT-3仰仗其175b亿参数证明了规模的深远影响，表明在大规模数据集上训练的更大模型可以树立新的AI才能标杆。

(, 下载次数: 0)

言语建模功能随着模型大小、数据集大小和训练运用的计算量的添加而颠簸提升。
https://arxiv.org/pdf/2001.08361

复制代码

在2018年至2020年间，该范畴由对规模的不懈追求驱动。研讨人员发现，随着模型规模的增长 — — 从数百万到数十亿参数 — — 它们在捕捉复杂形式和泛化到新义务方面变得更好。这种规模效应得到了三个关键要素的支持：
1、数据集大小：更大的模型需求庞大的数据集停止预训练。例如，GPT-3是在大量互联网文本语料库上停止训练的，使其可以学习多样化的言语形式和知识范畴。
2、计算资源：弱小的硬件（如GPU和TPU）的可用性以及分布式训练技术，使得高效训练具有数十亿参数的模型成为能够。
3、高效架构：混合精度训练和梯度检查点等创新降低了计算成本，使得在合理的工夫和预算内停止大规模训练愈加实践。
3.4 后训练对齐：弥合AI与人类价值观之间的差距

GPT-3生成几乎无法与人类写作区分的文本的才能引发了关于AI生成内容的真实性和可信度的严重担忧。虽然这一成就标志着AI发展的一个重要里程碑，但也突显了确保这些模型与人类价值观、偏好和希冀保持分歧的关键应战。一个次要成绩是幻觉，即LLM生成与理想不符、有意义或与输入提示矛盾的内容，给人一种一本正派地胡说八道的印象。
为了处理这些应战，2021年和2022年的研讨人员专注于改善与人类意图的分歧性并减少幻觉，导致了监督微调（SFT）和基于人类反馈的强化学习（RLHF）等技术的发展。
3.4.1 监督微调 (SFT)

加强GPT-3对齐才能的第一步是监督微调（SFT），这是RLHF框架的基础组成部分。SFT相似于指令调优，触及在高质量的输入-输入对或演示上训练模型，以教它如何遵照指令并生成所需的输入。

(, 下载次数: 0)

这些演示经过精心策划，以反映预期的行为和结果，确保模型学会生成准确且符合上下文的呼应。

(, 下载次数: 1)

但是，SFT本身有局限性：1、可扩展性：搜集人类演示是休息密集型且耗时的，尤其是对于复杂或小众义务；2、功能：简单模拟人类行为并不能保证模型会超越人类表现或在未见过的义务上很好地泛化。
为了克制这些应战，需求一种更具可扩展性和效率的方法，为下一步铺平了道路：基于人类反馈的强化学习（RLHF）。
3.4.2 基于人类反馈的强化学习 (RLHF)

OpenAI在2022年引入的RLHF处理了SFT的可扩展性和功能限制。与需求人类编写残缺输入的SFT不同，RLHF触及根据质量对多个模型生成的输入停止排名。这种方法允许更高效的数据搜集和标注，分明加强了可扩展性。
RLHF过程包括两个关键阶段：
1、训练奖励模型：人类注释者对模型生成的多个输入停止排名，创建一个偏好数据集。这些数据用于训练一个奖励模型，该模型学习根据人类反馈评价输入的质量。
2、运用强化学习微调LLM：奖励模型运用近端策略优化（Proximal Policy Optimization - PPO）指点LLM的微调。经过迭代更新，模型学会了生成更符合人类偏好和希冀的输入。
这个两阶段过程 — — 结合SFT和RLHF — — 使模型不只可以准确遵照指令，还能顺应新义务并持续改进。经过将人类反馈整合到训练循环中，RLHF分明加强了模型生成牢靠、符合人类输入的才能，为AI对齐和功能设定了新标准。
3.4.3 ChatGPT：推进对话式AI (2022)

2022年3月，OpenAI推出了GPT-3.5，这是GPT-3的晋级版，架构相反但训练和微调有所改进。关键加强包括经过改进数据更好地遵照指令，减少了幻觉（虽然未完全消弭），以及更多样化、更新的数据集，以生成更相关、上下文感知的呼应。

(, 下载次数: 0)

ChatGPT基于GPT-3.5和InstructGPT，OpenAI于2022年11月推出了ChatGPT，这是一种打破性的对话式AI模型，专门为自然的多轮对话停止了微调。ChatGPT的关键改进包括：
1、对话聚焦的微调：在大量对话数据集上停止训练，ChatGPT擅长维持对话的上下文和连接性，完成更引人入胜和相似人类的互动。
2、RLHF：经过整合RLHF，ChatGPT学会了生成不只要用而且诚实和有害的呼应。人类培训师根据质量对呼应停止排名，使模型可以逐渐改进其表现。
ChatGPT的推出标志着AI的一个关键时辰，通常被称为ChatGPT时辰(ChatGPT moment)，由于它展现了对话式AI改变人机交互的潜力。
四、生态重构：从技术打破到社会基础设备（2023-至今）

在2023年至2024年间，像GPT-4V和GPT-4o这样的多模态大型言语模型（MLLMs）经过将文本、图像、音频和视频整合到一致系统中重新定义了AI。这些模型扩展了传统言语模型的才能，完成了更丰富的交互和更复杂的成绩处理。

(, 下载次数: 0)

4.1 GPT-4V：视觉遇见言语

2023年，OpenAI推出了GPT-4V，将GPT-4的言语才能与先进的计算机视觉相结合。它可以解释图像、生成标题、回答视觉成绩，并推断视觉中的上下文关系。其跨模态留意力机制允许文本和图像数据的无缝集成，使其在医疗保健（如分析医学图像）和教育（如互动学习工具）等范畴具有价值。
4.2 GPT-4o：全模态前沿

到2024年终，GPT-4o经过整合音频和视频输入进一步推进了多模态。它在一个一致的表示空间中运转，可以转录音频、描画视频或将文本合成音频。实时交互和加强的创造力 — — 如生成多媒体内容 — — 使其成为文娱和设计等行业的多功能工具。
理想世界的影响: MLLMs革新了医疗保健（诊断）、教育（互动学习）和创意产业（多媒体制造）等范畴。它们处理多种模态的才能解锁了创新的新能够性。
4.3 开源和开放权重模型 (2023–2024)

在2023年至2024年间，开源和开放权重AI模型获得了动力，使先进AI技术的访问民主化。
——开放权重LLMs：开放权重模型提供公开访问的模型权重，限制极少。这使得微调和顺应成为能够，但架构和训练数据保持封闭。它们合适疾速部署。例子：Meta AI的LLaMA系列和Mistral AI的Mistral 7B / Mixtral 8x7B
——开源模型使底层代码和结构公开可用。这允许片面了解、修正和定制模型，促进创新和顺应性。例子：OPT和BERT。
——社区驱动的创新：像Hugging Face这样的平台促进了协作，LoRA和PEFT等工具使高效的微调成为能够。
社区开发了专门针对医疗、法律和创意范畴的模型，同时优先思索道德AI实际。开源社区目前处于一个激动人心的阶段，得益于尖端对齐技术的出现。这一停顿导致越来越多的杰出开放权重模型发布。因此，闭源和开放权重模型之间的差距正在稳步减少。LLaMA3.1–405B模型初次历史性地弥合了与闭源对应物的差距。
4.4 推理模型：从系统1到系统2思想的转变 (2024)

2024年，AI开发末尾强调加强推理(Reasoning)，从简单的形式辨认转向更逻辑化和结构化的思想过程。这一转变遭到认知心思学双重过程实际的影响，区分了系统1（疾速、直觉）和系统2（缓慢、分析）思想。虽然像GPT-3和GPT-4这样的早期模型在生成文本等系统1义务上表现出色，但在深度推理和成绩处理方面却有所完善。
OpenAI-o1：推理才能的一大飞跃(2024)
2024年9月12日，OpenAI发布的o1-preview标志着人工智能才能的严重飞跃，尤其是在处理复杂推理义务（如数学和编程）方面。与传统LLMs不同，推理模型采用了「长链思想」（Long CoT） — — 即外部的推理轨迹，使模型可以经过分解成绩、批判本人的处理方案并探求替代方案来“思索”成绩。这些CoTs对用户是隐藏的，用户看到的是一个总结性的输入。

(, 下载次数: 0)

推理模型的关键特性包括：

OpenAI-o1：
2024年12月5日，OpenAI的残缺版o1模型进一步提升了功能，在美国AIME 2024数学考试中排名前500名先生之列，并分明超越了GPT-4o（处理了74%-93%的AIME成绩，而GPT-4o仅为12%）。此外，o1-mini作为更便宜且更快的版本，在编码义务中表现出色，虽然其成本仅为残缺版o1的20%。
OpenAI-o3：
2025年1月31日，OpenAI发布了o3，这是其推理模型系列的最新打破，建立在o1模型成功的基础之上。虽然残缺的o3模型尚未发布，但其在关键基准测试中的表现被描画为具有创始性。
——ARC-AGI ：达到87.5%的准确率，超过了人类程度的85%，远超GPT-4o的5%。
——编程：在SWE-Bench Verified上得分71.7%，并在Codeforces上获得2727的Elo评分，跻身全球前200名竞争性程序员之列。
——数学：在EpochAI的FrontierMath基准测试中达到25.2%的准确率，相比之前的最先进程度（2.0%）有了分明提升。

(, 下载次数: 0)

OpenAI-o1和OpenAI-o3推理模型的发布代表了人工智能范畴的严重提高，经过结构化的外部推理过程提供了杰出的成绩处理才能，并在复杂数学和编程义务中树立了新的标杆。
4.5 成本高效的推理模型：DeepSeek-R1 (2025)

LLMs通常需求极其庞大的计算资源来停止训练和推理。像GPT-4o和OpenAI-o1这样的最先进LLM模型的闭源性质限制了对尖端AI的普及化。
4.5.1 DeepSeek-V3 (2024–12)

2024年12月下旬，DeepSeek-V3作为一种成本高效的开放权重LLM出现，为AI的可访问性设定了新标准。DeepSeek-V3与OpenAI的ChatGPT等顶级处理方案相媲美，但开发成本分明降低，估计约为560万美元，仅为东方公司投资的一小部分。
该模型最多包含670B亿个参数，其中37B亿个活跃参数，并采用专家混合（MoE）架构，将模型划分为专门处理数学和编码等义务的组件，以减轻训练负担。DeepSeek-V3采用了工程效率，例如改进Key-Value缓存管理和进一步推进专家混合方法。该模型引入了三个关键架构：
1、多头潜在留意力（Multi-head Latent Attention — MLA）：经过紧缩留意力键和值来减少内存运用，同时保持功能，并经过旋转地位嵌入（RoPE）加强地位信息。
2、DeepSeekMoE：在前馈网络（FFNs）中采用共享和路由专家的混合，以提高效率并平衡专家应用率。
3、多标记预测 (Multi-Token Prediction — MTP)：加强模型生成连接且上下文相关的输入的才能，特别是对于需求复杂序列生成的义务。

(, 下载次数: 0)

DeepSeek-V3的发布引发了全球科技兜售，危及1万亿美元的市值，并导致英伟达股票盘前下跌13%。DeepSeek-V3的价格为每百万输入标记2.19美元，约为OpenAI相似模型成本的1/30。
4.5.2 DeepSeek-R1-Zero 和 DeepSeek-R1 (2025.1)

仅仅一个月后，2025年1月下旬，DeepSeek经过发布DeepSeek-R1-Zero和DeepSeek-R1再次惹起惊动，这些模型展现了杰出的推理才能，训练成本极低。
应用先进的强化学习技术，这些模型证明了高功能推理可以在没有通常与尖端AI相关的巨额计算费用的状况下完成。这一打破巩固了DeepSeek作为高效和可扩展AI创新指导者的地位。
DeepSeek-R1-Zero：一种基于DeepSeek-V3的推理模型，经过强化学习加强其推理才能。它完全消弭了监督微调(SFT)阶段，直接从名为DeepSeek-V3-Base的预训练模型末尾。
它采用了一种基于规则的强化学习方法(Rule-based Reinforcement Learning)，称为组相对策略优化（Group Relative Policy Optimization — GRPO），根据预定义规则计算奖励，使训练过程更简单且更具可扩展性。

(, 下载次数: 0)

(, 下载次数: 1)

(, 下载次数: 0)

综上，从2017年Transformer架构的引入到2025年DeepSeek-R1的发展，大型言语模型的演化标志着人工智能范畴的一个革命性篇章。LLMs的崛起由四个里程碑式的成就标志：
1、Transformers (2017)：Transformer架构的引入为构建可以以史无前例的准确性和灵敏性处理复杂义务的大规模高效模型奠定了基础。
2、GPT-3 (2020)：该模型展现了规模在AI中的变革力气，证明了在大规模数据集上训练的宏大模型可以在广泛的运用中完成接近人类的表现，为AI所能完成的义务设立了新的基准。
3、ChatGPT (2022)：经过将对话式AI带入主流，ChatGPT使高级AI对普通用户来说愈加可访问和互动。它还引发了关于广泛采用AI的伦理和社会影响的关键讨论。
4、DeepSeek-R1 (2025)：代表了成本效率的一大飞跃，DeepSeek-R1应用专家混合架构(MoE)和优化算法，与许多美国模型相比，运营成本降低了多达50倍。其开源性质加速尖端AI运用的普及化，赋予各行业创新者权利，并强调了可扩展性、对齐性和可访问性在塑造AI将来中的重要性。
LLMs正逐渐演化为多功能、多模态的推理系统，可以同时满足普通用户和特定需求。这一演化得益于打破性技术创新，以及在规模、易用性和成本效益上的分明提升，推进人工智能朝着愈加包容和影响力深远的方向迈进。
五、将来图景：通往AGI的荆棘之路

大模型的发展正面临三重悖论：
1、智能与能耗的平衡：稀疏化训练、量子计算或成破局关键
2、才能与安全的博弈：美国政府要求千亿级模型训练前需报备，中国实施生成式AI管理办法
3、垄断与开放的冲突：OpenAI闭源，而Mistral、智谱AI等坚持开源生态
正如Yann LeCun所言：“当前大模型只是智能拼图的一部分。”将来的AGI系统能够需求交融神经符号架构、世界模型与因果推理，而这条道路上既无机遇，更有未知风险。独一确定的是，大模型已永世改变了人类与技术共存的方式——我们正在见证一个文明级工具的诞生。
如何学习大模型 AI ？

由于新岗位的消费效率，要优于被取代岗位的消费效率，所以实践上整个社会的消费效率是提升的。
但是详细到个人，只能说是：
“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。
这句话，放在计算机、互联网、移动互联网的残局时期，都是一样的道理。
我在一线互联网企业工作十余年里，指点过不少同行后辈。协助很多人得到了学习和成长。
我看法到有很多阅历和知识值得分享给大家，也可以经过我们的才能和阅历解答大家在人工智能学习中的很多困惑，所以在工作繁忙的状况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业冤家无法获得正确的材料得到学习提升，故此将并将重要的AI大模型材料包括AI大模型入门学习思想导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频收费分享出来。
这份残缺版的大模型 AI 学习材料曾经上传CSDN，冤家们假如需求可以微信扫描下方CSDN官方认证二维码收费支付【保证100%收费】

(, 下载次数: 0)

第一阶段（10天）：初阶运用

该阶段让大家对大模型 AI有一个最前沿的看法，对大模型 AI 的了解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

第二阶段（30天）：高阶运用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造公有知识库，扩展 AI 的才能。疾速开发一个残缺的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术停顿，合适 Python 和 JavaScript 程序员。

第三阶段（30天）：模型训练

恭喜你，假如学到这里，你基本可以找到一份大模型 AI相关的工作，本人也能训练 GPT 了！经过微调，训练本人的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。
到此为止，大概2个月的工夫。你曾经成为了一名“AI小子”。那么你还想往下探求吗？

第四阶段（20天）：商业闭环

对全球大模型从功能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到合适本人的项目/创业方向，做一名被 AI 武装的产品经理。

学习是一个过程，只需学习就会有应战。天道酬勤，你越努力，就会成为越优秀的本人。
假如你能在15天内完成一切的义务，那你可谓天赋。但是，假如你能完成 60-70% 的内容，你就曾经末尾具有成为一名大模型 AI 的正确特征了。
这份残缺版的大模型 AI 学习材料曾经上传CSDN，冤家们假如需求可以微信扫描下方CSDN官方认证二维码收费支付【保证100%收费】

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)