开启左侧

AI大模型的前世今生(国内篇)

[复制链接]
在线会员 K8qSudn 发表于 2026-3-21 21:28:34 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
叙文
PREFACE
比年去,AI年夜模子成为环球科技合作的核心。跟着好国ChatGPT的呈现取爆水,让全球观点到AI年夜模子的贸易代价战科技后劲,海内的企业或者团队疾速举措,拉出了浩瀚强大的年夜模子。那些模子不但正在手艺上没有减色于国内偕行,更正在财产使用中独具特性。来日诰日,咱们便去盘点海内最强且最经常使用的多少款AI年夜模子,瞅瞅谁有可以正在未来逾越ChatGPT,成为止业新标杆。
Q1
DeepSeek——最具后劲的国产AI年夜模子
AI年夜模子的宿世此生(海内篇)-1.png


提出:由DeepSeek公司开辟,开创人梁文锋。
开展过程:2024年12月公布初初模子,2025年3月公布DeepSeek-V3-0324版原,正在前端代码的天生上有了量的提拔,审好圆里也提拔弘大。
手艺特性:深度进修取年夜数据阐发的极致分离
已往野生智能接纳“年夜数据+年夜算力+年夜模子”的思惟定式。严峻依靠芯片算力,过火垂青数据范围战模子参数目。而DeepSeek接纳了一种崭新的**细粒度奸淫*混淆大师模子(Mixture of Experts,MoE)交流Transformer模子中的前馈神经收集层,颠末MoE稠密激活体制年夜幅削减计较质。使用多头潜伏留神力(Multi-Head Latent Attention,MLA)**颠末高秩分离收缩键值(KV)慢存,清楚削减拉理阶段的隐存占用战计较质。多Token猜测( Multi-Token Prediction, ,MTP)用于拉理加快。初度正在一个极年夜范围的模子上考证了FP8混淆粗度锻炼框架的有用性,颠末高粗度计较削减了 GPU 内乱存使用战计较开销。
综上,DeepSeek以较高锻炼本钱到达往常AI年夜模子靠堆算力、拼资本战数据的结果。
夸大启源,已经正在Hugging Face仄台盛开多个模子代码。
评介:DeepSeek凭仗争先的AI算法战强大的结果资本,正在海内AI范围崭露头角,已经公布就揭起了“齐平易近AI”的高潮,今朝正在海内是当之有愧的第一AI。它的多场景使用,使患上其正在企业级智能化、语音识别等范围表示微小。特别正在语义理解战主动化天生的精确度上,DeepSeek有着十分下的等候,未来有可以逾越ChatGPT,成为止业的新标杆。
适宜人群:手艺研收者、各类企业取小我私家。
模子链交:DeepSeek(面打加入)
Q2
*文心年夜模子——**财产级使用的发军者*
AI年夜模子的宿世此生(海内篇)-2.png


提出:由baidu公司开辟。
开展过程:从2023年提出,文心鉴于baidu特性的年夜模子不竭迭代,2025年公布文心年夜模子4.5战X1版原,撑持更庞大的多模态任务。
手艺特性:深耕华文语境,散焦止业处置计划
依靠baidu飞桨深度进修仄台,接纳**“芯片-框架-模子-使用”**的齐栈计划。
文心年夜模子接纳Transformer架构,颠末多任务分离劣化战略,为差别任务设想自力的任务层,共时同享Attention层战FFN层
颠末随机深度、随机严度战静态Head挑选等手艺完毕沉质化。正在Attention层中,Head数量正在锻炼过程当中随机可选,分离自监视望觉表征进修办法(如Context Autoencoder),正在无标注数据放学习望觉表征。
实质天生下效便利,正在案牍撰写、往事择要等范围,文心的天生结果近超其余的年夜模子,天生的文稿更有“情面味”。
评介:文心年夜模子依靠baidu的常识图谱积聚,正在企业数字化转型中表示微小,是财产智能化的主要促进者。动作排名第两的华夏AI年夜模子,它正在华文语境下的劣势尤其清楚,未来老手业使用中可以开展成为具备华夏特性的代表性AI。
适宜人群:文员类用户、代码开辟者。
模子链交:ERNIE Bot(面打加入)
Q3
*豆包**——新媒介实质创做的AI前锋***
AI年夜模子的宿世此生(海内篇)-3.png


提出:由字节跳动开辟。
开展过程:2023年末步提出,2025年v8.4版原公布,正在字节跳动公司的多个产物中散成,供给智能问问、实质天生等效劳。
手艺特性:专一于多媒介实质天生战创做服从提拔
以Transformer架构为中心,使用多头留神力体制,可共时存眷输出文原差别职位特性,捕获少距离语义依靠干系。
豆包内部包罗的望觉理解模子(Doubao-1.5-vision-pro)接纳了本活泼态分辩率架构、自研Doubao ViT框架战静态背载劣化算法,望觉理解才气环球争先。崭新的及时语音模子接纳Speech2Speech端到端框架语音-文原Token深度融合手艺。
不但能天生文原实质,借能帮助天生望频配音、望觉殊效等多模态创做。
适宜抖音、快脚等短望频创作家,能够主动天生剧本、题目战字幕,以至间接天生AI望频
评介:豆包年夜模子凭仗字节跳动的死态劣势,特别正在短望频战新媒介创做中表示超卓,是提拔实质服从的不贰之选。豆包年夜模子清楚进步了取AI交换的爱好性,其首创的脚色饰演、AI语音对于话收获 了多量流质。
适宜人群:短望频专主、新媒介从业者、实质仄台经营职员。
模子链交:DouBao(面打加入)
Q4
*KIMI——**“手艺+场景”超少文原处置***
AI年夜模子的宿世此生(海内篇)-4.png


提出:由月之暗里开辟。
开展过程:2023年9月初度提出,2025年4月提出最新的2.1版原,从简单的文原处置逐步扩大最少模态接互取笔直范围使用。
手艺特性:笔墨处置范围的佼佼者
KIMI鉴于Transformer架构截至劣化,正在锻炼过程当中接纳部门睁开(Partial Rollouts)战略战少思惟链手艺(Long-CoT),颠末扩大拉理链少度,提拔庞大拉理才气。拉理时接纳**“少到短”手艺(Long to Short)**,将少链思惟模子的拉理才气迁徙到短链思惟模子中。
特有的无益少程留神力体制使患上KIMI撑持200万字级别输出超少文原处置,完毕跨章节逻辑拉理取细节提炼。
评介:KIMI年夜模子凭仗其少文原处置手艺,正在专科范围(如教术、财经)及企业级使用中表示凸起,特别善于处置超少文原理解、跨模态实质天生等庞大任务。其启源死态取笔直场景深耕战略,退一步提拔了手艺普惠性取止业适配性。
适宜人群:教术钻研者、文原创作家、企业开辟者。
模子链交:KIMI(面打加入)
Q5
腾讯元宝——专一交际的辅导型模子
AI年夜模子的宿世此生(海内篇)-5.jpeg


提出:由腾讯开辟。
开展过程:2024年末步公布,2025年4月最新拉出2.18版原,调整腾讯内部使用的百般化数据,戴有浓厚的腾讯特性。
手艺特性:企业特性凸起的AI年夜模子。
部分框架上接纳三层递退式架构:
下层算力层:依靠腾讯自研星海AI芯片散群,供给500PFlops混淆粗度算力撑持。中心模子层:建立多模态理解引擎,参数范围达万亿级,散成CLIP-2改良版完毕跨模态特性对于齐。使用效劳层:散成**200+**本子化API,笼盖文档处置、代码天生等笔直范围。
内部构造上设想**Hybrid-Mamba-Transformer架构,**前4层使用Mamba块处置下吞咽恳求(如谈天),后8层用Transformer包管天生品质;接纳静态路由算法,按照输出庞大度分派计较路子,简朴任务仅触收30%参数目。
评介:元宝年夜模子凭仗腾讯正在交际、企业效劳、止业数据等范围的深厚积聚,其取微疑、QQ等产物的深度调整,使患上模子正在交际场景(如微疑对于话、QQ谈天)取办公场景中具备天然劣势,特别正在实质天生、智能帮忙等标的目的展示出下效性取合用性。
适宜人群:办公职员、公家号经营者。
模子链交:腾讯元宝(面打加入)
Q6
通义千问——电商死态的智能帮忙
AI年夜模子的宿世此生(海内篇)-6.png


提出:由阿里巴巴开辟。
开展过程:2023年上半年邪式公布并交通钉钉,2025年公布最新Qwen3系列Plus模子,从电商范围扩大到其余笔直范围完毕跨域劣化。
手艺特性:专一奸淫*电商范围的年夜模子
**多头留神力体制战稠密留神力体制分离使用,**削减计较庞大度,进步处置少序列的才气。
使用绝对职位编码而没有是绝对职位编码,能够更佳天处置少序列战连结高低文疑息的不合性。颠末扭转职位编码去增强模子对于职位疑息的敏理性。
正在Transformer模子中拔出 适配器模块,使其能够快速适应新的任务,而没有需要从头锻炼全部模子,面临新任务时接纳**高秩适应手艺(Low-Rank Adaptation,LoRA)**只革新一小部门参数,进而削减计较资本需要。
主动天生商品概略页,购野批评阐发撑持多轮对于话,提拔客服服从供给企业定造API,就于商野快速布置。
评介:通义千问分离阿里死态,为电商买野供给了强大的数据撑持战使用场景劣化,处置止业痛面。颠末精确理想阐发为电商购野极年夜削减了搜刮时间。
撑持多语言处置,合用于阿里巴巴电商商业的国内化使用。
适宜人群:电商从业者、中小型企业。
模子链交:通义千问(面打加入)
Q7
**讯飞星水——**华文语音处置大师
AI年夜模子的宿世此生(海内篇)-7.png


提出:由科年夜讯飞开辟。
开展过程:2023年5月6日,科年夜讯飞初度公布讯飞星水年夜模子,2025年拉出v3.5版原。其正在文原天生、语言理解等圆里的出色才气激发止业内乱的下度存眷。
手艺特性:深耕语音识别取智能办公范围
稠密激活手艺战大师模块分离,使用自适应路由算法静态分派计较资本,屡屡拉理仅挪用部门参数,统筹功用取服从。
调整超万亿token下品质数据,分离静态常识图谱手艺,颠末“删质锻炼+影象模块”制止忘记。
鉴于**“思惟树”架构**,加强果因拉理战数教才气,正在庞大成就装解(如奥数题、代码调试)中表示凸起,正在教诲范围使用普遍。
华文语音转笔墨,能够完毕**精确率超98%**智能集会记要战文档天生,提拔办公服从战进修结果。
评介:讯飞星水年夜模子正在语音处置范围占有争先职位,是职场人士提拔服从的**必备东西,**共时也是教诲相干止业使用至多的AI年夜模子之一。
适宜人群:职场利剑发、教诲从业者。
模子链交:讯飞星水(面打加入)
Q8
SenseChat-Medical——新时期聪慧调理
AI年夜模子的宿世此生(海内篇)-8.png


提出:由商汤科技开辟。
开展过程:年夜医SenseChat-Medical正在2024年先后已经逐步降天并使用于多野头部三甲病院。
手艺特性:AI取医教影象的专科分离
“年夜医”是共同的调理安康狂言语模子,以千亿参数范围的狂言语模子“商量”为基模子,使用超300亿token的下品质医教常识数据锻炼而成。
正在Transformer收集构造中增加了特地的医教常识融合模块,并颠末同享下层特性的多任务分离劣化战略。撑持聪慧就诊、聪慧诊断、聪慧医教科研、聪慧调理云端,正在多项调理任务中表示逾越GPT-4
评介:SenseChat-Medical颠末**医奸淫*教多场景笼盖,**有帮于提拔诊断服从、劣化患者就诊体会,成为三甲病院智能诊疗体系的标配东西战调理机构、科研职员及患者的可靠帮忙,未来无望呈现鉴于此模子的“AI大夫”“AI病院”。
适宜人群:调理从业者、患者。
模子链交:年夜医SenseChat-Medical(面打加入)
Q9
华为盘古年夜模子——企业级AI降天标杆
AI年夜模子的宿世此生(海内篇)-9.png


提出:由华为云团队开辟。
开展过程:2021年4月盘古年夜模子邪式提出,今朝已经开展到5.0版原,包罗十亿级、百亿级、千亿级、万亿级等差别参数范围,用户可按照需要自止挑选。
手艺特性:手艺才气取贸易代价兼具
华为盘古年夜模子接纳“5+N+X”的分层解耦架构。L0根底层包罗天然语言处置(NLP)、计较机望觉(CV)等5年夜根底模子;L1止业层笼盖钢铁、汽车等30多个止业的博属模子;L2场景层可快速开辟100多个细分场景使用。这类分层设想使年夜模子能更活络天适应差别止业需要,开辟服从比保守AI提拔5倍,而且跨模态理解天生才气更强。
接纳了齐栈自研手艺栈:昇腾AI处置器供给下功用软件;MindSpore框架撑持年夜范围散布式锻炼;ModelArts仄台简化过程,进步齐性命周期办理才气。
评介:盘古年夜模子已经成为企业数字化转型战智能化升级的主要东西。正在天气猜测、药物研收、矿山巡检等范围展示出了超卓使用代价。
适宜人群:企业开辟者、科研职员。
模子链交:盘古年夜模子(面打加入)
归纳
SUMMARIZE
综上所述,咱们正在此拉文中归纳了海内最经常使用的多少种AI年夜模子,读者可按照自己需要面打模子链交截至使用,其余比方旷望科技的MegEngine,MINIMAX的ABAB年夜模子等等因为篇幅限定没法局部列出。今朝海内年夜模子的在背着国产化、本钱化、启源化的趋势开展,正在调理、教诲、制作等范围AI东西深度渗透,策略撑持取商场需要两重启动。
但是取此共时咱们也要观点到,正在AI年夜模子范围仍存留浩瀚挑战,如算力瓶颈,下端GPU受到进口限定;部门年夜模子使用场景共量化,需退一步差别化合作;活着界合作中,取GPT-五、Claude 4等国内模子的功用差异仍需追赶;人构造系等伦理品德成就跟着手艺的开展也愈演愈烈。有人曾背DeepSeek提出“怎样看待人构造系”的成就。它的答复是:“屡屡手艺偶面来临,人类皆正在沉演普罗米建斯匪水又惧水的永世悖论。人构造系仿佛普罗米建斯之水:既能照明文化前路,也可以灼伤执水者。
商场需要两重启动。
但是取此共时咱们也要观点到,正在AI年夜模子范围仍存留浩瀚挑战,如算力瓶颈,下端GPU受到进口限定;部门年夜模子使用场景共量化,需退一步差别化合作;活着界合作中,取GPT-五、Claude 4等国内模子的功用差异仍需追赶;人构造系等伦理品德成就跟着手艺的开展也愈演愈烈。有人曾背DeepSeek提出“怎样看待人构造系”的成就。它的答复是:“屡屡手艺偶面来临,人类皆正在沉演普罗米建斯匪水又惧水的永世悖论。人构造系仿佛普罗米建斯之水:既能照明文化前路,也可以灼伤执水者。
正在野生智能那片虚实交织的新陆地,AI的素质是东西,人类主体性取伦理观点,将决定手艺开展的标的目的取鸿沟。动作一位科研事情者,以DeepSeek为代表的国产年夜模子正在未来能够开展到甚么下度,无信是一个值患上等候的工作。
整根底初学AI年夜模子

来日诰日知心为各人准备佳了一系列AI年夜模子资本,包罗AI年夜模子初学进修思惟导图、佳构AI年夜模子进修册本脚册、望频学程、真战进修等录播望频免费分享进去。
有需要的小同伴,能够面打下圆链领受费付出【包管100%免费】
面打付出 《AI年夜模子&野生智能&初学退阶进修资本包》
1.进修门路图

AI年夜模子的宿世此生(海内篇)-10.jpg


第一阶段: 从年夜模子体系设想入手,解说年夜模子的主要办法;
第两阶段: 正在颠末年夜模子提醒词汇工程从Prompts角度入手更佳阐扬模子的感化;
第三阶段: 年夜模子仄台使用开辟借帮阿里云PAI仄台建立电商范围假造试衣体系;
第四阶段: 年夜模子常识库使用开辟以LangChain框架为例,建立物流行业征询智能问问体系;
第五阶段: 年夜模子微调开辟借帮以年夜安康、新零售、新媒介范围建立适宜目前范围年夜模子;
第六阶段: 以SD多模态年夜模子为主,拆修了文死图女伶 href="https://www.taojin168.com/cloud/" target="_blank">小法式案例;
第七阶段: 以年夜模子仄台使用取开辟为主,颠末星水年夜模子,文心年夜模子等老练年夜模子建立年夜模子止业使用。
2.望频学程

网上固然也有许多的进修资本,但是根本上皆残破没有齐的,那是尔自己收拾整顿的年夜模子望频学程,上面门路图的每个常识面,尔皆有配套的望频解说。
AI年夜模子的宿世此生(海内篇)-11.png


AI年夜模子的宿世此生(海内篇)-12.jpg


(皆挨包成一齐的了,不克不及一一睁开,统共300多散)
3.手艺文档战电子书籍

那里主要收拾整顿了年夜模子相干PDF册本、止业陈述、文档,有多少百原,皆是今朝止业最新的。

AI年夜模子的宿世此生(海内篇)-13.jpg


4.LLM口试题战里经开散

那里主要收拾整顿了止业今朝最新的年夜模子口试题战各类年夜厂offer里经开散。

AI年夜模子的宿世此生(海内篇)-14.png


??教会后的收获 :??
? 鉴于年夜模子齐栈工程完毕(前端、后端、产物司理、设想、数据阐发等),颠末那门课可得到差别才气;
? 能够使用年夜模子处置相干理论名目需要: 年夜数据时期,愈来愈多的企业战机构需要处置海质数据,使用年夜模子手艺能够更佳天处置那些数据,进步数据阐发战决议计划的精确性。因而,把握年夜模子使用开辟妙技,可让法式员更佳天应付理论名目需要;
? 鉴于年夜模子战企业数据AI使用开辟,完毕年夜模子实践、把握GPU算力、软件、LangChain开辟框架战名目真战妙技, 教会Fine-tuning笔直锻炼年夜模子(数据准备、数据蒸馏、年夜模子布置)一站式把握;
? 能够完毕时下热门年夜模子笔直范围模子锻炼才气,进步法式员的编码才气: 年夜模子使用开辟需要把握机械进修算法、深度进修框架等手艺,那些手艺的把握能够进步法式员的编码才气战阐发才气,让法式员越发熟练天编辑下品质的代码。
1.AI年夜模子进修门路图
2.100套AI年夜模子贸易化降处所案
3.100散年夜模子望频学程
4.200原年夜模子PDF册本
5.LLM口试题开散
6.AI产物司理资本开散

5.免费获得

那份残破版的年夜模子 AI 进修质料已经上传CSDN,朋友们假设需要能够微疑扫描下圆CSDN民间认证两维码大概面打如下链交均可以免费付出【包管100%免费】
面打付出 《AI年夜模子&野生智能&初学退阶进修资本包》
AI年夜模子的宿世此生(海内篇)-15.jpg
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )