【AI大模型基础知识-上】

amgGWumZq · 发表于 2025-3-13 01:19:02

目次（上）：

1、年夜模子种别

2、支流年夜模子

3、止业年夜模子完毕方法

4、模子中心算法战手艺

5、数据范例取内乱存干系的作用

6、模子参数种别及参数目

7、模子结果评介办法

去自各类网站进修及AI问问。1、年夜模子种别

深度进修是年夜模子的中心根底，年夜模子的特性包罗参数范围年夜（最少正在亿级），泛化才气强，撑持多模态，今朝才气范围主要是天然语言战图象的处置。

一、参数范围年夜。最少正在亿级；ChatGPT1-3-4参数：1.一、1750、18000

二、泛化才气强。鉴于留神力体制，正在年夜范围、百般化无标注数据散上截至预锻炼，进修把握丰硕的通用常识战办法。正在普遍的场景战任务中使用，文原天生、天然语言理解、翻译、数教拉导、逻辑拉理战多轮对于话等。

三、撑持多模态。能够颠末扩大编/解码器、穿插留神力、迁徙进修等方法，完毕跨模态数据的联系关系理解、检索战天生。供给全面认知才气战丰硕接互体会。

年夜模子种别可从使用场景、功用、架构、范围战锻炼方法等多个维度截至分别。目前仍以通识才气强的根底年夜模子为主。

一、按使用场景

通用年夜模子（GPT四、Palm）；笔直止业年夜模子（调理年夜模子、教诲年夜模子）；专科范围天生式年夜模子（图象、代码、望频等）；拉理取决议计划年夜模子（AlphaGo）

二、按功用

NLP年夜模子（GPT系列、bert、豆包年夜模子）、CV年夜模子（DALL·E、Stable Diffusion、CLIP）、多模态年夜模子（sora）、语音年夜模子（Whisper、WaveNet）

三、按架构

transformer架构（GPT）、混淆大师MoE(deepseek-r1)、分离模子Diffusion Models（Stable Diffusion、DALL·E 2）、图神经收集GNN年夜模子（GraphSAGE、GAT）

四、按范围

参数目千亿级别、中等范围百亿级别、沉质化模子端侧

五、按锻炼方法

预锻炼+微调（Pretraining + Fine-tuning）、稠密锻炼（Sparse Training）、加强进修（Reinforcement Learning, RL）、多任务进修（Multi-Task Learning, MTL）、迁徙进修（Transfer Learning）、散布式锻炼（Distributed Training）（如PyTorch Distributed、TensorFlow Distributed）、监视进修（Supervised Learning）、比照进修（Contrastive Learning）、连续进修（Continual Learning）等
2、支流年夜模子

今朝国内顶级模子包罗GPT、Claude、Grok、Gemini 、LLaMA、deepseek、Qwen、文心一行、Kimi等系列模子。

外洋：

一、2015-OpenAI-🇺🇸

（1）语言年夜模子【gpt系列、o1系列、o3系列】
GPT-一、二、3（175B）、4/2023.3.1四、4o；chatgpt/2022.11(鉴于3.5劣化)
o1-preview、o1/2024.12.五、o1-mini
o三、o3-mini/拉理模子/2025.1.31
（2）图象天生模子
DALL·E 、DALL·E 2/2022.四、DALL·E 3
（3）代码天生模子
Codex
（4）多模态模子
CLIP
（5）语言识别模子
Whisper
（6）望频天生模子
Sora/2024.2.15
二、2021-Anthropic-🇺🇸

（1）狂言语模子【claude系列】
Claude 3 Haiku 、 Sonnet、Opus；Claude 3.7 Sonnet /混淆拉理模子、编程才气极强极强极强！！/2025.2.25/
三、2023-XAI-🇺🇸

（1）狂言语模子【grok系列】
Grok-一、1.五、1.五、1.5vision、2；Grok3/2025.2.18
四、2010-goole deepmind-🇺🇸

（1）狂言语模子
bert-/2018.十、 PaLM- （1.0、2.0）、Ge妹妹a、AlphaGeometry 二、Gemini 1.五、Gemini 2.0/2024.12.11/
（2）多模态模子
Genie 2
（3）图象取 3D 天生模子
Veo 二、Imagen 3
（4）拉理取决议计划

AlphaFold-（一、2/2020.12）

五、2021-Meta-🇺🇸

（1）狂言语模子【LLaMA系列】

LLaMA一、2(7b、13b、70b)/启源商用/2023.七、3（8b、70b）、3.1 (8b、70b、405b) /启源/2024.7.23

（2）望觉模子

Emu、Meta 3D Gen（3DGen）

六、2023-Mistral AI-🇫🇷

（1）狂言语模子【Mistral系列】

Mistral -7B、8x7B、8x22B、Large、Small、Large 2

（2）专科范围模子

Codestral、Codestral-Mamba-7B、Mathstral-7B、Mistral Nemo、Pixtral-12B

（3）嵌进模子
Mistral Embed
海内-🇨🇳：（分别部科技企业、更生气力）

一、2023-deepseek

（1）语言年夜模子【gpt系列、o1系列、o3系列】
DeepSeek LLM（67b）、DeepSeek-v2（236B）、deepseek-v2.五、deepseek-r1-lite、deepseek-v3（671b）/2025.1.20、deepseek-r1(671b)/25.1.20、deepseek-r1-zero
（2）多模态AI模子

Janus Pro/2025.1.28

（3）专科范围模子
DeepSeek-Coder、DeepSeekMath、DeepSeek-VL、DeepSeek-Coder-V二、DeepSeek-VL2
二、2009-阿里云

（1）语言年夜模子【Qwen系列】

Qwen（7b、14b、72b）、Qwen2（0.5B、1.5B、7b、57B-A14B、72B）、Qwen2.5-（Max、72B）、Qwen2.5-32B/2025.3.6

（2）望觉语言模子

Qwen-VL、VL-Chat、、VL-Plus；Qwen2.5-VL；

（3）音频年夜模子

Qwen-Audio

二、2000-baidu

（1）语言年夜模子

文心一行、PLATO-X、ERNIE-（Search、M、Code、3.0、3.五、4.0）、鹏乡 - baidu・文心（ERNIE 3.0 Titan）

（2）望觉年夜模子

VIMER-StrucTexT 2.0

三、1998-腾讯

腾讯混元年夜模子、混元文死图年夜模子、混元 T1 深度思考模子/2025.2.1九、混元新一代快思考模子 Turbo S/2025.2.27

四、2012-字节跳动【云雀模子Skylark、其余】

Skylark-（lite、plus、pro、pro-4k、chat）

Doubao-1.5-pro-AS1-Preview、GR-2 机械人 AI 年夜模子

五、1999-科年夜讯飞【讯飞星水系列、深度拉理机止业模子】

讯飞星水 V1.0、1.五、2.0、4.0、4.0Turbo

星水深度拉理模子 X一、星水调理年夜模子 X1（科研、法令）、汽车端侧星水年夜模子

六、其余-年夜模子守业公司6小虎

①2019-智谱AI【GLM 系列、CogView 系列、CodeGeeX 系列】

GLM-（四、4-9B、4V-9B、4-Air、4-Plus、4V-Plus）

CogView-（三、3-Plus-3B、4）

CodeGeeX4-ALL-9B

其余：CharacterGLM、Embedding-2

②2021-minimax【01系列、abab6.5系列】

MiniMax-Text-0一、MiniMax-VL-01

abab6.五、abab6.5s

③2023-月之暗里【Kimi系列、Moonlight 系列】

kimi-latest/2025.2.18、Kimik1.5/2025.1.20、moonshot-v1-vision-preview

Moonlight-16B-A3B/2025.2.2三、Moonlight

④2023-百川智能【Baichuan系列】

Baichuan-7B、13B；Baichuan二、三、4系列；Baichuan-M1-preview、14B；Baichuan-Omni-1.5

⑤2023-阶跃星辰【step系列】

Step-（2 万亿参数语言年夜模子邪式版、1.5V 多模态年夜模子、1X 图象天生年夜模子）

千亿参数端到端语音年夜模子、Step-1X-Medium 的崭新升级版原、Step R-mini 拉理模子、Step-1o Vision 多模态理解年夜模子、Step-Video V2 望频天生模子、Step-Video-T2V 望频天生模子、Step-Audio 语音模子

⑥2023-整一万物【Yi-34B 系列、Yi-Large 系列】

七、2022-里壁智能【CPM 系列、MiniCPM2.0 系列、其余 MiniCPM 系列、Eurux 系列】
CPM 系列：CPM-（一、二、三、Bee、Cricket）
MiniCPM2.0 系列：MiniCPM-（V 2.0、2B-128k、MoE-8x2B、1.2B）
其余 MiniCPM 系列：MiniCPM-（Llama3-V 2.五、V2.六、3.0/2024.9.五、S）
Eurux 系列：Eurux-8x22b3、止业年夜模子完毕方法

【止业年夜模子特性】针对于一定数据（好比占到10%-15%）战任务锻炼劣化，组成具备专用常识取才气的年夜模子及使用；年夜多鉴于通用年夜模子建立，颠末提醒工程、检索增强天生、粗调、持续预锻炼/后锻炼；通用年夜模子-止业数据、止业数据-止业年夜模子-场景数据、场景数据-场景模子-企业数据-企业使用；素质是处置计划，B端客户有共同的营业、数据、过程--本性化，需要定礼服务战东西，取客户同修，MAAS效劳为客户供给模子预锻炼、模子粗调、智能使用开辟等。

【止业年夜模子使用胜利绳尺】2-3-1 ①二个误区-将手艺目标动作胜利尺度；垂青短时间产出，无视持久加入②3类代价-落原删效、营业立异、体会增强③一个情势-下品质数据飞轮（锻炼数据-模子-使用数据-开规提取-锻炼数据）

手艺目标--粗度、召回率、提拔率；召回率计较的是模子邪样原数目（某一类样原）取理论邪样原的总额质之比

营业目标--用户数、使用质、收入

年夜模子迭代中的谬误定性-手艺突变、泡沫等；不克不及强供短时间财政目标绝对值告竣

贸易代价-营业需要及目标，使用频次、会话少度、抛却率等；

【建立止业年夜模子（需要年夜模子适配止业使用）四类方法】

①提醒工程：针对于性天设想提醒词汇，指导年夜模子发生一定使用场景所需的输出。（依靠通用年夜模子自己常识，能够劣化提醒词汇，场景：快速根究使用，如对于话体系战案牍创做等）

②中挂：检索增强天生（RAG,Retrieval-Augmented Generation）：没有改动年夜模子自己，中挂常识库，为模子供给一定范围的数据疑息输出，完毕对于该范围更精确的疑息检索战天生。客服问问、实质盘问取举荐。

进步模子使用的专科精确性、保证企业数据统统权、较下性价比

【AI年夜模子根底常识-上】w2.jpg

③粗调（FT,Fine-tuning）/微调：正在预锻炼佳的年夜模子根底上，鉴于一定数据散退一步伐整年夜模子的部门参数，目标更佳适应营业场景、精确下效完毕一定任务

（更佳的止业泛化才气，会部门调解年夜模子，，用于一定范围对于年夜模子有更下功用请求的场景；止业常识内乱化到止业年夜模子的参数中；是对于年夜模子定造劣化战本钱加入的折衷挑选；下品质数据散是决定粗调后模子功用的枢纽；粗调战略也间接作用年夜模子的终极功用）

正在干齐质粗调的过程当中，参加下品质止业数据占比约莫正在10%-15%

粗调分为齐质粗和谐部门粗调。部门粗调的办法更加下效、正在理论中也比齐质粗调使用更多，罕见方法有：有监视粗调（SFT，Supervised Fine-tuning），正在一定任务的标注数据上浮整模子；高秩调解（LORA，Low-Rank Adaptation），颠末高秩矩阵革新削减所需进修参数目；适配器层（Adapter Layers）手艺则正在模子中参加小型收集层，专一锻炼那些层以适应新任务。粗调战略的挑选可按照具体任务需要、数据的可用性和计较资本的限定去分析思考。

【AI年夜模子根底常识-上】w3.jpg

④本死：预锻炼：预锻炼方法请求汇集并标注大批止业一定数据，涵盖文原、图象、接互记载，和特别格局数据 (如基果序列)；正在锻炼历程上，模子凡是会接纳从下层参数开端锻炼，大概鉴于已经具备必然才气的通用模子截至后锻炼（post-training，也称为两次删训），目标是使年夜模子更佳天理解一定范围的术语、常识战事情过程，进步年夜模子老手业使用中的功用战精确性，保证其正在该范围的专科性战服从。

预锻炼止业年夜模子更重视止业特征。正在数据散准备上，从一开端便会参加止业特征的数据；正在模子建立手艺取过程上，战通用年夜模子预锻炼类似，会涉及模子架构设想、预锻炼任务选择、大批数据处置、年夜范围无监视或者自监视进修等。比方，使用自监视进修（SSL，Self-SupervisedLearning）手艺，颠末从数据自己天生标签去进修数据的内涵构造战特性，无需野生标注的数据；和鉴于人类反应的加强进修（RLHF，Reinforcement Learning from Human Feedback）手艺，颠末引进人类大师的主观反应去指导模子的进修历程，以发生更下品质的输出。

下品质问问体系需要使用到的三种方法是提醒工程、检索增强天生战粗调。

【AI年夜模子根底常识-上】w4.jpg

4、模子中心算法战手艺

GPT模子的中心算法战手艺：Transformer 架构、预锻炼取微调、自返回天生和年夜范围散布式锻炼。

ChatGPT模子从输出到输出涉及输出暗示、多头留神力体制、前馈神经收集（Feed-Forward Network, FFN）、层回一化（Layer Normalization）、冷炙好跟尾（Residual Connection）、输出天生、丧失函数（猜测成果战实在成果之间的差别，模子颠末最小化丧失函数去劣化参数）。

许多模子即使皆用transformer架构，但是他们的设想目标、锻炼战略战使用场景存留清楚差别。

模子架构变体：Decoder-only 架构、Encoder-only 架构、Encoder-Decoder 架构、Longformer、Reformer。

锻炼目标取预锻炼任务：GPT/自返回语言修模（猜测下一个词汇去进修语言暗示）-适宜天生任务，但是对于高低文理解无限；BERT/掩码语言修模（Masked Language Modeling, MLM）战下一句猜测（Next Sentence Prediction, NSP）-适宜理解任务，但是对于天生任务撑持较强；T5/将统统任务分歧为文原到文原的变换（如翻译、择要、分类）-通用性强，但是锻炼本钱下；deepseek-v3/多任务分离锻炼（Multi-Task Joint Training）(分离多种预锻炼任务（如掩码语言修模、比照进修、常识蒸馏）去进修更通用的语言暗示)-适宜多模态任务（如文原、图象、音频），夸大拉理才气战任务适配性，颠末混淆锻炼目标提拔模子正在庞大任务中的表示

锻炼数据取范围适配：GPT/通用文原、BERT/通用文原+范围数据、T5/多任务数据（如翻译、择要、分类）、deepseek-v3/多模态数据（如文原、图象、音频）战范围一定数据（如医教、法令）

模子参数、启源取贸易化

Transformer 的枢纽组件（算法）包罗：

预锻炼 + 微调的锻炼范式：

自返回模子，即天生文原时一一猜测下一个词汇，曲到天生残破的序列。

锻炼手艺

枢纽手艺细节

冷炙好跟尾（Residual Connections）：加快支敛并避免梯度磨灭。

DeepSeek-V3 、R1可以用到的模子算法包罗 Transformer 架构、预锻炼取微调、自返回天生、多模态撑持、加强进修取人类反应（RLHF）、常识增强等。

多模态撑持

加强进修取人类反应（RLHF）

模子劣化手艺

对于话办理取高低文理解

常识增强

沉质化取布置劣化

平安取伦理

模子算法是机械进修战野生智能范围的中心，涵盖了监视进修、无监视进修、加强进修、天生模子、图模子、散成进修等多个范围。罕见的算法包罗线性返回、决议计划树、SVM、神经收集、GAN、Q进修等。按照任务需要战数据特性，能够挑选适宜的算法建立模子。

1.监视进修算法

监视进修算法颠末标注数据（输出战输出对于）锻炼模子，用于猜测或者分类任务。

1.1 线性模子

1.2 决议计划树

1.3 撑持背质机（SVM）

1.4 神经收集

1.5 其余

2. 无监视进修算法

2.1 散类

2.2 落维

自编码器（Autoencoder）：鉴于神经收集的落维办法。
2.3 其余

3. 半监视进修算法

分离多量标注数据战大批无标注数据截至锻炼。
自锻炼（Self-Training）：用模子猜测无标注数据并参加锻炼散。图半监视进修：鉴于图构造的半监视办法。天生对立收集（GAN）：天生数据并用于锻炼。
4. 加强进修算法

颠末取情况接互进修战略，最年夜化积累嘉奖。

4.1 鉴于值的办法
Q进修（Q-Learning）：进修行动值函数。深度 Q 收集（DQN）：分离深度进修的 Q 进修。
4.2 鉴于战略的办法
战略梯度（Policy Gradient）：间接劣化战略。远端战略劣化（PPO）：改良的战略梯度办法。
4.3 演员-批评野办法
A3C（Asynchronous Advantage Actor-Critic）：分离值函数战战略梯度。SAC（Soft Actor-Critic）：鉴于最年夜熵的加强进修。
5. 天生模子算法

用于天生新的数据样原。

5.1 天生对立收集（GAN）
GAN：颠末天生器战鉴别器的对立锻炼天生数据。变种：如 CycleGAN、StyleGAN。
5.2 变分自编码器（VAE）
VAE：颠末几率修模天生数据。
5.3 分离模子（Diffusion Models）
DDPM（Denoising Diffusion Probabilistic Models）：颠末逐步来噪天生数据。
6. 图模子算法

用于处置图构造数据。

6.1 图神经收集（GNN）
GCN（Graph Convolutional Network）：鉴于图卷积的神经收集。GAT（Graph Attention Network）：引进留神力体制的 GNN。GraphSAGE：用于年夜范围图的归结进修。
6.2 其余
图嵌进（Graph Embedding）：如 Node2Vec、DeepWalk。
7. 散成进修算法

颠末分离多个模子提拔功用。
Bagging：如随机丛林。Boosting：如 AdaBoost、XGBoost。Stacking：分离多个模子的输出。
8. 其余算法
迁徙进修（Transfer Learning）：将预锻炼模子迁徙到新任务。元进修（Meta-Learning）：进修怎样进修。正在线进修（Online Learning）：逐步革新模子。5、数据范例取内乱存干系的作用

【计较机保存单元】

计较机保存单元包罗包罗字节（Byte，简称 B）、千字节（KB）、兆字节（MB）、凶字节（GB）、太字节（TB）等。它们之间的换算干系一般是：

1B=8bit，

1KB = 1024B（千数目级字节），1024^1

1MB = 1024KB=1024*1024B（百万数目级字节），1024^2

1GB = 1024MB=1024*1024*1024B（十亿数目级字节），1024^3

1TB = 1024GB=1024*1024*1024*1024B。1024^4

1B=1字节

1KB=1024字节

1MB=104.8576万字节

1GB≈10.737亿Byte=10.737亿字节

2000亿字节=2000/10.737≈186.3GB

【数据范例】

计较性能间接识别的数据范例素质上皆因此两退造方法存留的。数值范例数据包罗整数型数据战浮面数范例数据。注意灌输模子的数据必然是浮面数或者整数。

整数范例数据：位（bit）、字节（Byte）

int8 8位整数型数据---合用于深度进修模子的拉理运算

浮面数范例数据：单粗度浮面数32位（4字节）、单粗度浮面数64位（8字节）

FP---floating point

FP16 16位浮面型数据---常合用于深度进修模子的锻炼运算

FP32 32位浮面型数据---常合用于深度进修模子的锻炼运算

【一个参数占用隐存的巨细】

正在年夜模子中，1 个参数占用的隐存巨细与决于参数的数值粗度（如 float1六、float32 等）
float32：1 个参数占用 4 字节。
float16：1 个参数占用 2 字节。混淆粗度：隐存占用介于 float16 战 float32 之间。
1. 单粗度浮面数（float32）
占用隐存：4 字节。
特性：下粗度，适宜锻炼；隐存占用较年夜。
2. 半粗度浮面数（float16）
占用隐存：2 字节。
特性：粗度较高，适宜拉理；隐存占用削减一半。
3. 混淆粗度锻炼
占用隐存：模子参数战梯度使用 float16，劣化器形状使用 float32。占用隐存：模子参数战梯度使用 float16，劣化器形状使用 float32。
特性：隐存占用介于 float16 战 float32 之间；适宜年夜范围模子锻炼。
假定模子有100B参数，float16粗度下的隐存占用：

1000亿×2字节=2000亿字节≈186.3GB

6710亿X2字节=13420亿字节≈1249.88GB

6710亿X1字节=6710亿字节≈624.94GB

【混淆粗度锻炼】

是一种正在深度进修锻炼过程当中共时使用多种数据粗度的手艺，一般为分离 float32（单粗度浮面数）战 float16。正在混淆粗度锻炼中，模子的权沉参数凡是以 float32 粗度截至初初化，正在锻炼过程当中，部门计较会使用 float16 去加快，比方矩阵乘法战卷积操纵等，而正在一点儿枢纽步调，如梯度计较战革新权沉时，可以会切换回 float32 以包管粗度。使用 float16 可使数据占用的隐存空间加半。比方，假设原来使用 float32 时模子战数据需要占用 10GB 的隐存，那末正在变换为 float16 后，实践上只要供 5GB 的隐存。那使患上正在差异的隐存容质下，能够处置更年夜的模子或者更多的数据，进而有可以进步模子的功用战锻炼结果。混淆粗度锻炼并不是完整使用 float16，而是按照需要正在 float32 战 float16 之间切换，既使用了 float16 的高隐存占用战下计较服从，又颠末正在枢纽关节使用 float32 包管了锻炼的颠簸性战粗度，理论隐存占用介于局部使用 float32 战局部使用 float16 之间。
6、模子参数种别及参数目

【模子参数种别】

模子参数配合决定了模子的功用战举动，公道树立战劣化参数是机械进修中的主要任务。模子参数种别包罗权沉参数、偏偏置参数、超参数、邪则化参数、初初化参数、劣化器参数、散布参数、构造参数、静态参数等。除权沉参数、偏偏置参数、部门散布参数、没有分静态参数中，其余参数一般皆需要报酬树立或者部门报酬树立。
权沉参数：是模子正在锻炼过程当中进修到的参数，暗示输出取输出的干系。正在神经收集中，权沉参数决定了神经元之间的跟尾强度。没有需要报酬树立，初初值凡是随机初初化（如使用 Xavier 或者 He 初初化办法），而后颠末反背传布战梯度降落劣化。仅正在特别情况下（如迁徙进修或者模子微调）会脚动调解部门权沉参数。偏偏置参数：调解模子的输出。是模子中的附带参数，用于调解神经元的激活阈值。它们凡是取权沉参数共同窗习。凡是初初化为整或者小的随机值。超参数：掌握模子的构造战锻炼历程。它们没有是颠末锻炼数据进修获得的，而是需要正在锻炼先人为树立。超参数间接作用模子功用，凡是颠末经历、网格搜刮、随机搜刮或者贝叶斯劣化等办法肯定。部门框架（如 Optuna、Ray Tune）撑持主动超参数调劣。
罕见超参数：

进修率（Learning Rate）：掌握模子参数革新的步少。

批质巨细（Batch Size）：屡屡锻炼迭代中使用的样原数。

劣化器参数：如 Adam 劣化器的 β一、β2 战 ε 值。

模子架构参数：如层数、躲藏单位数、留神力头数等。

邪则化参数：如 L2 邪则化系数、Dropout 比例。

锻炼轮数（Epochs）：锻炼数据散遍历的次数。
邪则化参数：避免过拟开。罕见的邪则化办法包罗 L1/L2 邪则化、Dropout 等，凡是需要报酬树立。部门框架会供给默认值（如 Dropout 比例为 0.5），但是理论使用中需按照任务调解。可颠末超参数搜刮东西（如网格搜刮、贝叶斯劣化）主动劣化。初初化参数：模子参数的初初值。用于树立模子权沉战偏偏置的初初值，作用锻炼支敛速率战终极功用。初初化办法（如 Xavier、He 初初化）凡是由报酬挑选，但是具体初初值由算法主动天生。深度进修框架（如 PyTorch、TensorFlow）会供给默认初初化办法，用户可按照任务需要调解。劣化器参数：掌握参数革新历程。用于掌握劣化算法的举动，如进修率、动质、权沉衰加等。凡是需要报酬树立。劣化器会供给默认值（如 Adam 的进修率为 0.001），但是理论使用中需按照任务调解。可颠末超参数搜刮东西劣化。散布参数：描绘数据的几率散布（如下斯散布、均匀散布）的参数，如均值、圆好等。散布范例（如下斯散布）战参数范畴（如均值、圆好）凡是需要报酬树立；正在天生模子（如 VAE、GAN）中，散布参数可颠末锻炼主动进修构造参数：界说模子的架构的参数，如层数、躲藏单位数、留神力头数等；凡是需要报酬树立，间接作用模子容质战功用；部门框架会供给默认架构（如 Transformer 的层数为 12），但是理论使用中需按照任务调解。可颠末神经架构搜刮（NAS）主动劣化。静态参数：正在锻炼或者拉理过程当中静态变革的参数，如进修率调理器（Learning Rate Scheduler）的参数。静态参数的初初树立（如进修率调理器的初初进修率、衰加率）凡是需要报酬树立，部门静态参数（如进修率）可颠末调理器主动调解。
【模子参数目】

transformer架构中，年夜模子参数数目P≈12*transformer层数*躲藏层维度的仄圆

ChatGPT3: 175B=12*96*12288*12288

年夜模子的参数目按照其范围战使用场景能够分为多品种型，包罗从超年夜范围到沉质级的端侧年夜模子。如下是具体的分类及典范代表：
一、超年夜范围模子：1T+ 参数，适宜通用野生智能任务。GPT-4：约 1.8 万亿参数。二、年夜范围模子：100B - 1T 参数，适宜庞大任务战多模态使用。GPT-3：1750 亿参数。三、中等范围模子：10B - 100B 参数，适宜一定范围任务。T5-11B：110 亿参数。四、小范围模子：1B - 10B 参数，适宜端侧装备战及时使用。五、端侧年夜模子：<1B 参数，沉质化设想，适宜挪动装备战边沿计较。六、微模子：<100M 参数，极沉质化，适宜资本极端受限的场景。
模子参数范围的单元主要包罗：
K（Thousand）：千。10^3M（Million）：百万。10^6B（Billion）：十亿。10^9T（Trillion）：万亿。10^12P（Quadrillion）：万万亿。10^15
1B=1字节

1KB=1024字节

1MB=104.8576万字节

1GB≈10.737亿Byte=10.737亿字节

2000亿字节=2000/10.737≈186.3GB

400M参数目的模子需要多年夜的内乱存？

400M*FP16=800MB=800M字节=80000万字节

80000/104.8576=762.939MB

此M非彼M
7、模子结果评介办法

模子评介是用于权衡模子的功用、泛化才气战鲁棒性。模子评介办法果任务范例而同：
分类任务：精确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1 分数（F1 Score）、ROC 直线取 AUC。返回任务：均圆偏差（Mean Squared Error, MSE）、均圆根偏差（Root Mean Squared Error, RMSE）、均匀绝对偏差（Mean Absolute Error, MAE）、R²（决定系数）。天生任务：BLEU 分数、猜疑度（Perplexity）、FID（Fréchet Inception Distance）、IS（Inception Score）。其余办法：穿插考证（Cross-Validation）、混合矩阵（Confusion Matrix）、进修直线（Learning Curve）。
鲁棒性（Robustness）是指体系、模子或者算法正在面临谬误定性、噪声、非常值或者内部滋扰时，仍能连结颠簸性战有用性的才气。定额评介鲁棒性的办法包罗精确率、F1 分数、AUC、MSE、MAE 、R² 等。

【详解望频】

https://www.bilibili.com/video/BV1oz4y1R71a?spm_id_from=333.788.videopod.sections&vd_source=33a9d9c36b782f19fe67dcbaf7d54a7d

一、混合矩阵

猜测对于了true收尾，positive类；绿色占比多，模子结果佳；TP、FP、FN、TN的观点，F战T别离是false战true的观点，P战N别离是猜测种别中positive战negative的观点

【AI年夜模子根底常识-上】w5.jpg

二、精确率、精确率、召回率、F1值

precision=TP/(TP+FP)

recall=TP/(TP+FN)

Accuracy=(TP+TN)/(TP+FP+FN+TN)

F1=2*(precision*recall)/(precision+recall)

【AI年夜模子根底常识-上】w6.jpg

分类器A战B，哪一个分类器结果佳？

【AI年夜模子根底常识-上】w7.jpg

小我私家理解望频道法稍有误，校订以下：

一、分类器分对于了几？

二、前去的准确的样原中真实准确的有几？

三、有几弛该当找回的准确的图片是找到的？

精确率即是鉴别对于了的占比，合用于种别散布均衡的任务，数值越年夜越佳。

精确率即是前去positive且是准确的比率（理论为邪类的比率/猜测为邪类的样原），合用于存眷削减假阴性（FP）的任务，意义即是误判了positive的实质，作用年夜，那个误判的比率越小越佳，反之精确率越下越佳。好比残余邮件，原来没有是残余邮件缺当做了残余邮件，那个比率越小越佳。

召回率是理论为邪类的样原中，猜测为邪类的比率，合用于存眷削减假阳性（FN）的任务，好比徐病诊疗，原来是**徐病，误诊成没有是，那个比率越小越佳，反之，召回率越年夜越佳。

精确率战召回率偶然此消彼少（由此发生F1值）。不克不及一味请求召回率下或者精确率下。

【AI年夜模子根底常识-上】w8.jpg

F1值与精确率战召回率的和谐均匀（精确率战召回率划一主要，贝塔与1）。

【AI年夜模子根底常识-上】w9.jpg

调理范围recall更主要，贝塔与2；假设精确率更主要，贝塔可以与0-1的值

N分类

【AI年夜模子根底常识-上】w10.jpg

微观层里：
精确率---绿色占比精确率、召回率、F1值，可零丁瞅每类（精确率针对于某一类，用分对于的情况除以止，召回率是除以列），模子部分能够供每类的均匀或者减权均匀（权沉可按照每类的样原数目定）
宏观层里：

先计较部分TP、FP、FN、TN；再套公式

单元矩阵，精确率、精确率、召回率、F1值皆是1

二、ROC直线（receiver operator characteristic）、AUC值

把统统混合矩阵暗示正在统一个两维空间

AUC值是里积（分类器B更佳）

【AI年夜模子根底常识-上】w11.jpg