开启左侧

什么是大模型?深度解析“AI大模型”在人工智能中的技术原理及运用

[复制链接]
今年AI年夜模子爆水,尔了调研“年夜模子”正在野生智能中的手艺道理,包罗其构造特性、锻炼办法、枢纽立异面(如Transformer、预锻炼-微调范式)、软件需要取手艺挑战等,助各人分离目前支流年夜模子(如GPT、BERT、Claude 等)截至阐释。
甚么是年夜模子?深度剖析“AI年夜模子”正在野生智能中的手艺道理及使用-1.png


年夜模子手艺综述

1. 界说取特性

“年夜模子”(Large Model)凡是指具备极年夜参数范围战庞大架构的机械进修模子。它们常常包罗数十亿到数万亿级参数,颠末锻炼海质数据进修庞大情势。那些模子的设想初志是提拔表示才气战猜测功用,能够处置更庞大的任务战多种数据方法。年夜模子的典范特性包罗:
    海质参数战计较范围:参数数目凡是以“B”(十亿)为单元,如GPT-3有1750亿参数,GPT-4据称已经突破万亿;模子范围弘大招致锻炼战布置需要超强算力。
    强泛化战多任务才气:年夜模子正在预锻炼中睹过更百般原战情势,因而具备较强的泛化才气。正在无监视或者少样原情况下,它们能够正在已大白锻炼过的任务上天生下品质输出。比方,GPT-3战ChatGPT等展示了超卓的整/少样原进修才气。
    出现才气:跟着模子范围逾越某些临界面,功用常常呈现量的奔腾,被称为“出现才气”(emergent ability)。这类征象表示着更年夜范围能戴去新的功用,但是范围扩大并不是无限造有用——邪如OpenAI Sam Altman所行,参数增加靠近限度时再增加可以其实不戴去清楚提拔,反而增加本钱战服从成就。
    根底模子(Foundation Model)属性:年夜模子凡是正在年夜范围通用数据上预锻炼,教到的是通用语言或者望觉暗示,因而可动作“根底模子”使用于多范围下流任务。
免费分享一套AI+年夜模子初学进修质料给各人,假设您念自教,那套质料十分全面!
存眷公家号【AI手艺星球】收灯号【321C】便可获得!


【野生智能自教门路图(图内乱举荐资本可面打内乱附链交直达进修)】
【AI初学必念书籍-花书籍、西瓜书籍、入手教深度进修等等...】
【机械进修典范算法望频学程+课件源码、机械进修真战名目】
【深度进修取神经收集初学学程】
【计较机望觉+NLP典范名目真战源码】
【年夜模子初学自教质料包】
【教术论文写做攻略东西】
甚么是年夜模子?深度剖析“AI年夜模子”正在野生智能中的手艺道理及使用-2.jpeg


2.主要 构造取架构

现代年夜模子主要鉴于Transformer架构。Transformer由Google正在2017年提出,是一种以多头自留神力(Multi-Head Attention)为中心的深度进修构造。典范的Transformer包罗编码器(Encoder)息争码器(Decoder)二部门:编码器由多层自留神力体制战前馈齐跟尾收集(Feed-Forward Network, FFN)重叠而成,每一层包罗冷炙好跟尾战LayerNorm;解码器构造类似,但是增加了用于处置已经天生输出的Masked Self-Attention模块。其构造重心包罗:
    多头自留神力(Multi-Head Attention):许可模子正在尽情职位对于输出序列中统统职位截至减权聚拢,捕捉少距离依靠战语义干系。取保守RNN差别,Transformer可并止处置序列,年夜幅进步锻炼服从。
    职位编码(Positional Encoding):因为留神力体制自己没有露序列挨次疑息,模子颠末参加邪弦/余弦职位编码将序列中每一个标识表记标帜的职位注进模子,以连结挨次疑息。
    前馈收集取层标准化:每一个留神力模块后跟一个二层FFN战LayerNorm,有帮于非线性暗示战锻炼颠簸性。
    变体:很多狂言语模子理论上只使用Transformer的此中一侧。比方,BERT接纳编码器部门的单背构造,颠末掩码语言模子(Masked LM)预锻炼;而GPT系列接纳仅解码器部门的单背构造,截至自返回预锻炼。别的,也呈现了鉴于Transformer的望觉模子(如ViT)战多模态模子,它们正在根本构造上类似,但是会分离图象特性或者别的模态数据。
3. 预锻炼取微调范式

年夜模子的锻炼凡是依照“预锻炼-微调”范式:
    预锻炼(Pre-training):模子起首正在年夜范围通用语料上自监视锻炼,进修语言或者望觉的通用暗示。罕见任务包罗自返回猜测下一个词汇、掩码猜测(Masking)等,以最年夜化序列天生几率或者规复被屏障的疑息。预锻炼阶段依靠海质数据战强大计较资本,让模子把握深条理的语义纪律战常识构造。
    微调(Fine-tuning):正在预锻炼根底上,针对于一定下流任务使用有标签数据持续锻炼模子。此时劣化目标取任务间接相干,比方文天职类、问问、翻译等,颠末调解模子参数使其更佳天适应具体任务需要。微调历程能清楚提拔年夜模子正在目标任务上的功用,因为模子将预锻炼中得到的通用暗示取一定任务请求相分离。
比年去,借呈现了**指令微调(Instruction Fine-Tuning)等新兴战略。指令微调是指使用露大白指令(prompt)及对于应输出的示例散去持续锻炼年夜模子,使其更善于依照天然语言方法的指令。颠末这类方法,模子能够更活络天照应提醒,进步天生实质的合用性取精确性。比方,GPT类自返回模子预锻炼时仅劣化下一个词汇猜测,没有包管能理解“请干…”,而指令微调则让模子教会根据分析处置成就。指令微调凡是分离人类反应加强进修(RLHF)**等办法配合使用,以退一步增强模子的“守规”才气。
4. 锻炼办法、劣化取丧失函数

年夜模子锻炼涉及多种本领取办法:
    丧失函数:对于语言模子而行,经常使用**穿插熵丧失(Cross-Entropy Loss)**对于序列中的每一个标识表记标帜截至监视。关于自返回模子,目标是最年夜化准确下一个词汇的几率;关于掩码模子(如BERT),目标是猜测被屏障词汇。多任务或者多模态锻炼时,可对于差别任务接纳差别丧失,并减权分离劣化。
    劣化算法:年夜大都Transformer模子接纳鉴于自适应矩估量的劣化器,如Adam或者AdamW(戴权沉衰加的Adam)。AdamW颠末对于权沉衰加的解耦,有帮于颠簸支敛并避免过拟开,是锻炼BERT、GPT等模子的经常使用挑选。共经常分离进修率预冷(warm-up)战线性或者余弦衰加战略去调解进修率,制止锻炼早期梯度爆炸或者过早支敛。年夜模子锻炼借经常使用梯度裁剪(gradient clipping)以掌握梯度范数,避免革新过年夜。
    模子并止取劣化:关于超年夜范围模子,借会用到大师混淆(Mixture of Experts, MoE)等稠密构造,使患上只需部门“大师”分收到场屡屡前背计较,进而清楚扩大参数范围而没有线性增加计较质。别的,借会接纳常识蒸馏、梯度积累等手艺,使正在无限软件资本下锻炼尽可以年夜的模子。
5. 软件资本取散布式锻炼挑战

年夜模子锻炼资本需要极下:参数目级弘大戴去海质的保存战计较压力。凡是需要数十到数百块GPU/TPU构成的散群去并止锻炼。比方,google使用Pathways体系正在二个TPU v4 Pod(合计6144芯片)上锻炼5400亿参数的PaLM模子。罕见的工程手艺包罗:
    数据并止取模子并止:将锻炼数据装分到多GPU(数据并止)或者将模子分装到多GPU(模子并止),共同流火线并止(Pipeline Parallelism)分阶段计较,以突破单卡隐存战算力限定。
    混淆粗度锻炼:使用半粗度浮面(FP16)或者混淆FP16/FP32计较,使用软件Tensor Core加快,共时削减隐存占用。那正在连结模子粗度的条件下可年夜幅提拔锻炼速率。典范作法是PyTorch的torch.cuda.amp或者NVIDIA Apex主动混淆粗度东西。
    劣化框架:使用如DeepSpeed、Megatron、Alpa平分布式锻炼框架去简化年夜范围锻炼布置。那些框架完毕了整冗余劣化器(ZeRO)手艺、通信收缩、查抄面并止等劣化战略,减少了通信瓶颈战隐存占用。
免费分享一套AI+年夜模子初学进修质料给各人,假设您念自教,那套质料十分全面!
存眷公家号【AI手艺星球】收灯号【321C】便可获得!


【野生智能自教门路图(图内乱举荐资本可面打内乱附链交直达进修)】
【AI初学必念书籍-花书籍、西瓜书籍、入手教深度进修等等...】
【机械进修典范算法望频学程+课件源码、机械进修真战名目】
【深度进修取神经收集初学学程】
【计较机望觉+NLP典范名目真战源码】
【年夜模子初学自教质料包】
【教术论文写做攻略东西】
甚么是年夜模子?深度剖析“AI年夜模子”正在野生智能中的手艺道理及使用-3.jpeg


6. 年夜模子取小模子比照:劣势取劣势

年夜模子相较于保守小模子具备以下劣势
    表征才气强:参数目战锻炼数据质年夜,使其能捕获更细微的特性战庞大情势,正在庞大任务上常常具有更下粗度;
    泛化取多任务才气:锻炼时睹过更大都据情势,正在处置已睹数据或者新任务时不易过拟开,可撑持一次预锻炼多种下流任务(Few-shot/Zero-shot才气强);
    多模态取拉理:正在充足范围下,年夜模子具备更强的遐想、拉理战天生才气,能够合用于多模态融合、庞大对于话战编程任务等。
可是,劣势取挑战也很清楚:
    计较取资本开销弘大:锻炼战拉理皆需要下功用GPU散群战年夜容质保存,那对于资本无限的团队或者末端布置而行门坎极下。
    服从取本钱成就:范围增加戴去的边沿支益递加;如Sam Altman所警告,参数删年夜到限度后仅是数字游玩,可以无素质功用提拔,反而构成计较资本糜掷。
    布置战提早:模子体积宏大,拉理提早下,不容易布置到边沿装备或者及时场景;借需要处置并收拉理的并止服从。
    宁静取偏见:年夜模子锻炼数据普遍,不免包罗偏见或者敏感疑息,易呈现语义倾向或者“幻觉”征象。其盛开式天生才气也戴去更多宁静检查战滥用危急。
绝对而行,小模子则参数目少、计较需要高、布置活络(能够正在脚机或者嵌进式装备上运行),但是正在庞大任务上表示较强,凡是需要针对于一定任务经心设想特性或者多模子拉拢才气到达取年夜模子相称的结果。
7. 代表性年夜模子及立异

今朝支流的年夜范围模子及其中心立异包罗:
    GPT系列(OpenAI):代表了自返回语言模子的限度。GPT-3具有1750亿参数,展示了强大的少样原战整样原天生才气;GPT-4则退一步成为多模态模子,撑持图象+文原输出,正在多种专科基准尝试上到达靠近人类水平。OpenAI借引进了RLHF等手艺对于GPT截至宁静对于齐战功用增强(如ChatGPT系列)。
    BERT(Google):初创单背掩码语言模子(Masked LM)预锻炼,接纳仅编码器的Transformer架构。BERT的Base/Large版天职别有1.1亿/3.4亿参数,极年夜提拔了NLP任务的基线功用。其单进取下文进修取下流Fine-tune范式成为止业尺度。
    PaLM(Google):鉴于Google Pathways体系锻炼的超年夜模子,单模子范围达5400亿参数。PaLM接纳齐麋集解码器Transformer架构,颠末年夜范围百般化数据锻炼,完毕了很多语言拉理战天生任务上的突破性少样原功用。
    Claude(Anthropic):Anthropic拉出的宁静对于齐年夜模子,其立异正在于“宪法度AI”(Constitutional AI)锻炼办法,颠末内乱置伦理宪法的方法劣化模子举动,夸大输出实质的宁静性战无害性。Claude系列正在理论对于话使用中证实了这类对于齐战略的有用性。
    LLaMA系列(Meta):Meta启源的语言模子家属,包罗7B、13B、33B、65B等多个范围;后绝LLaMA2扩大到70B参数。固然参数目绝对GPT等略小,但是颠末经心挑选的锻炼数据战劣化,LLaMA正在许多基准上功用优良。出格是LLaMA2-Chat版原正在对于话品质战宁静性上表示靠近关源模子。其盛开战略也促进了社区钻研。
    ERNIE系列(baidu):baidu的常识增强型年夜模子。以ERNIE为根底,融进了丰硕的常识图谱、检索增强等手艺。比方ERNIE Bot正在预锻炼中颠末“常识内乱化”战“检索增强”等伎俩,使模子能更佳天使用内部常识战持久影象;并分离通例模子微调取RLHF等手艺,提拔对于话战拉理才气。
    其余代表:如Meta的Galactica(科学文件天生)、Google的Gemini(多模态分歧模子)、OpenAI的GPT-4o(及时对于话博版)等,皆正在架构、混淆数据或者锻炼办法上有所立异。
各年夜模子的开展表白,差别团队颠末范围扩大、多模态融合、专用劣化战对于齐手艺等路子,不竭拓展年夜模子的使用鸿沟战才气,为野生智能的实践戴去了反动性作用
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )