开启左侧

从chatgpt来说说AI大模型

[复制链接]
在线会员 ataC0Y 发表于 2025-1-28 16:36:12 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
近来险些统统的热门皆被chatgpt占有,相信各人皆对于chatgpt已经没有陌生了,近来尔也瞅了一点儿,归纳了一点儿对于年夜模子的质料,有些不敷大概倡议,欢送各人斧正。
甚么是AI年夜模子?

      AI年夜模子即是Foundation Model(根底模子),指颠末正在年夜范围普遍的数据上截至锻炼后能适应一系列下流任务的模子。(Foundation Model名词汇滥觞李飞飞等寡教者的那篇论文On the Opportunities and Risks of Foundation Models)。
      AI年夜模子是野生智能迈背通用智能的里程碑手艺。深度进修动作新一代野生智能的标记性手艺,完整依靠模子主动从数据中进修常识,正在清楚提拔功用的共时,也面对着通用数据激删取专用数据缺乏的冲突。AI年夜模子兼具“年夜范围”战“预锻炼”二种属性,里背理论任务修模前需正在海质通用数据上截至事先锻炼,能年夜幅提拔AI的泛化性、通用性、合用性。
年夜模子开展

      AI年夜模子开展滥觞于天然语言处置范围。正在2017年Transformer收集提出后,陪伴着参数目的不竭提拔,它正在天然语言处置范围垂垂成为根底性架构,并正在2018年其参数目到达3亿范围,也即是咱们所生知的BERT。鉴于云云之年夜的参数目,钻研者发明它能够共时超卓天完毕多种天然语言处置任务,那也便吸收了愈来愈多的人参加此中。
      正在年夜模子钻研的晚期阶段,仍然主要集合正在天然语言处置范围,降生了诸如上述BERT、GPT-3等一系列代表性模子,它们的参数目从厥后的多少亿,快速增加为数十亿以致千亿范围。而随之戴去的即是响应才气的提拔,具备了从简朴的文原问问、文原创做到标记式语言的拉理才气;远二年,部门钻研者提出了以其余模态(如望觉等)为根底的年夜模子钻研,期望模子也能够瞅懂人间万物。正在那个阶段,降生了如ViT等包罗数亿参数范围的望觉模子。 上述模子别离具备了读的才气战瞅的才气,钻研者期望将那二类才气分歧共去,具备如年夜脑表示的多模态感知才气,那一部门的代表性模子即是CLIP、DALL·E等模子。
      更多的多模态模子介绍详睹 https://zhuanlan.zhihu.com/p/460512128
从chatgpt来讲道AI年夜模子-1.png


支流年夜模子

(1)BERT:google于2018年10月公布的BERT模子是最为典范的根底模子,它使用BooksCorpus战英文维基百科里杂笔墨的部门,不必标注数据,用设想的二个自监视任务去干锻炼,锻炼佳的模子颠末微调正在11个下流任务上完毕最好功用。
(2)google2021年公布的望觉迁徙模子Big Transfer,BiT
(3)OpenAI正在2020年5月公布的GPT-3则是一个自返回语言模子,具备1750亿参数,正在互联网文原数据上锻炼获得的那一根底模子,能够使用提醒的例子完毕形形色色的任务,使用描绘任务(如“把英文翻译成法语:”)减一个示例(如“sea otter => loutre de mer”),再给一个prompt提醒(如“cheese =>”),GPT-3模子便可天生cheese对于应的法文。这种模子在成为支流的AI范式。
      以GPT系列为例:
      1)GPT-1是上亿范围的参数目,数据散使用了1万原书籍的BookCorpus,25亿单词汇质;
      2)GPT-2参数目到达了15亿范围,此中数据去自于互联网,使用了800万正在Reddit被链交过的网页数据,洗濯后越40GB(WebText);
      3)GPT-3参数范围初度突破百亿,数据散大将语料范围扩大到570GB的CC数据散(4千亿词汇)+WebText2(190亿词汇)+BookCorpus(670亿词汇)+维基百科(30亿词汇)。
(4)Google 客岁提出了 FLAN,一个鉴于 finetune 的 GPT 模子。它的模子构造战 GPT类似 。可是差别于 GPT-3 的是,它鉴于 62 个数据散,每一个数据散机关了 10 个 Prompt 模板,也即是统共拿到 620 个模板的数据以后再截至 finetune。
    更多介绍正在此链交 https://zhuanlan.zhihu.com/p/545709881
外洋年夜模子一览表

从chatgpt来讲道AI年夜模子-2.png


上图去自链交:归纳当下可用的年夜模子LLMs - 知乎
海内年夜模子开展情况

      2021年4月,华为云分离轮回智能公布盘古NLP超年夜范围预锻炼语言模子,参数范围达1000亿;分离北京年夜教公布盘古α超年夜范围预锻炼模子,参数范围达2000亿。 阿里达摩院公布270亿参数的华文预锻炼语言模子PLUG,分离浑华年夜教公布参数范围到达1000亿的华文多模态预锻炼模子M6。
      2021年6 月,北京智源野生智能钻研院公布了超年夜范围智能模子“悟讲 2.0”,参数到达 1.75 万亿,成为其时环球最年夜的预锻炼模子。
      2021年7月,baidu拉出ERNIE 3.0 常识减强大模子,参数范围到达百亿。
      2021年10月,海潮公布约2500亿的超年夜范围预锻炼模子“源1.0”。 2021年12月,baidu拉出ERNIE 3.0 Titan模子,参数范围达2600亿。而达摩院的M6模子参数到达10万亿,将年夜模子参数间接提拔了一个质级。
      到2022年,年夜模子持续炽热。最开端,年夜模子是集合正在计较语言范围,但是现在也已经逐步拓展到望觉、决议计划,使用以至笼盖卵白量猜测、航天等等严峻科学成就,google、Meta、baidu等等年夜厂皆有响应的功效。
海内年夜模子一览表

从chatgpt来讲道AI年夜模子-3.png



从chatgpt来讲道AI年夜模子-4.png



图片滥觞:华夏挪动钻研院公布的《尔国野生智能年夜模子开展静态》
相干质料下载地点
https://download.csdn.net/download/sunnyrainflower/88058046
年夜模子取保守模子比对于

AI年夜模子保守的AI模子
1AI年夜模子受益于其“年夜范围预锻炼﹢微调”的范式,能够很佳天适应差别下流任务,展示出它强大的通用性
因为数据范围或者是模子表示才气的束缚,那些模子常常只可有针对于性天撑持一个大概一类任务,而没法撑持其余任务
2AI年夜模子事先正在海质通用数据上锻炼并具备多种根底才气,可分离多种笔直止业战营业场景需要截至模子微和谐使用适配保守AI才气碎片化、做坊式开辟
3AI年夜模子已经成为基层使用的手艺底座,能够有用支持智能末端、体系、仄台等产物使用降天保守AI使用过程当中存留的壁垒多、布置易
4正在同享参数的情况下,只要正在差别下流尝试中干出响应微调就可以获得良好的表示保守AI模子存留易以泛化到其余任务上的范围性
5自监视进修办法,能够加大都据标注,而且模子参数范围越年夜,劣势越清楚,制止开辟职员再截至年夜范围的锻炼,使用小样原就能够锻炼自己所需模子,极年夜低落开辟使用本钱。野生标注本钱下、周期少、精确度没有下
6无望退一步突破现有模子构造的粗度范围
模子粗度--保守模子

从chatgpt来讲道AI年夜模子-5.png


      从深度进修开展前10年的过程去瞅,模子粗度提拔,主要依靠收集正在构造上的变化。 比方,从AlexNet到ResNet50,再到NAS搜刮进去的EfficientNet,ImageNet Top-1 粗度从58提拔到了84。可是,跟着神经收集构造设想手艺,逐步老练并趋于支敛,念要颠末劣化神经收集构造进而突破粗度范围十分艰难。
模子粗度--Bit模子粗度

从chatgpt来讲道AI年夜模子-6.png


       以google2021年公布的望觉迁徙模子Big Transfer,BiT为例。扩大数据范围也能戴去粗度提拔,比方使用ILSVRC-2012(128 万弛图片,1000 个种别)战JFT-300M(3亿弛图片,18291个种别)二个数据散去锻炼ResNet50,粗度别离是77%战79%。别的使用 JFT-300M锻炼ResNet152x4,粗度能够升高到87.5%,比拟ILSVRC-2012+ResNet50构造提拔了10.5%。
      (下图)颠末模子参数去瞅年夜模子正在参数范围变年夜时对于粗度的作用,黑色 笔墨是对于数据散的正文。
从chatgpt来讲道AI年夜模子-7.png


算力需要

      使用单块英伟达V100GPU锻炼的实践时间去感触感染年夜模子对于算力的需要,典范的年夜模子比方GPT BERT GPT-2等的锻炼时间以下。
从chatgpt来讲道AI年夜模子-8.png


       比方,GPT-3的锻炼使用了上万块英伟达v100 GPU,总本钱下达2760万美圆,小我私家假设要锻炼出一个PaLM也要破费900至1700万美圆。 固然锻炼会使用更年夜范围的算力消耗,拉理睬少十分多,好比浑华年夜教取智谱AI分离启源的单语年夜模子GLM-130B,颠末快速拉理办法,已经将模子收缩到能够正在一台A100(40G*8)或者V100(32G*8)效劳器上截至单机拉理。可是一台A100的8卡机也是要年夜多少十万(A100 40G单卡7w阁下,8弛卡则56w,那末部件也需要60w阁下了),那个本钱,对于许多AI使用来讲,仍是很下。         
      佳消息则是算力正在迭代,算力本钱也鄙人落,NVIDIA的H系列隐卡,好比H100,单从算力(fp32)比拟往常T4(深度进修1.0时期支流隐卡),到达7倍++,坏消息则是H100如许的强大算力隐卡被限定进口海内。         
      正在年夜模子时期,针对于Transformer构造劣化的加快卡、东西链也正在被不竭拉出,算力厂商正在抢占年夜模子计较洼地的共时,进步算力战低落本钱,让年夜模子降天通路可止。
海内使用场景

      智源钻研院针对于2021年北京冬奥会,提出了“悟讲”年夜模子用于冬奥脚语播报数字人,供给智能化的数字人脚语天生效劳,便利听障人士也能支瞅赛事博题报导,提拔他们的社会到场度战幸运感。那个名目借获得了北京市冷炙徐人分离会战市冷炙联聋人协会的鼎力撑持。
从chatgpt来讲道AI年夜模子-9.png


       华为盘古CV年夜模子。主要是针对于无人电机力智能巡检那个场景,以国网沉庆永川供电公司为例,无人机警能巡检开辟主要面对二个挑战:一是怎样对于海质数据截至下效标注;两是缺点品种多达上百种,需要数十个AI识别模子。
      盘古CV年夜模子正在数据标注圆里,使用海质无标注电力数据截至预锻炼,分离多量标注样原截至微调,使患上样原选择服从提拔约30倍,以永川供电天天收罗5万弛下浑图片为例,可节流野生标注时间170人天。正在模子通用性圆里,能够干到一个模子适配上百种缺点,替换本有20多个小模子,削减了模子保护本钱,均匀粗度提拔18.4%,开辟本钱低落90%。
从chatgpt来讲道AI年夜模子-10.png


       固然也缺少没有了近来单十一,单十一是淘宝体系效劳最忙碌的一天,怎样有用天应付成千上亿的用户征询。
      鉴于达摩院开辟的M6年夜模子智能天生实质案牍,便利智能客服截至高低文理解战成就答复天生。
      别的年夜模子的多模态特性提炼才气,也能截至商品属性标签弥补、认知召回等下流任务。
年夜模子锻炼框架

      今朝部门深度进修框架,比方Pytorch战Tensorflow,不法子满意超年夜范围模子锻炼的需要,因而微硬鉴于Pytroch开辟了DeepSpeed,腾讯鉴于Pytroch开辟了派年夜星PatricStar,达摩院共鉴于Tensoflow开辟的散布式框架Whale。像是华为昇腾的MindSpore、baidu的PaddlePaddle,另有海内的逃一科技OneFlow等厂商,对于超年夜模子锻炼截至了深度的跟退取根究,鉴于本死的AI框架撑持超年夜模子锻炼。
从chatgpt来讲道AI年夜模子-11.png


年夜模子主要头部厂商

      最主要的合作敌手有鉴于英伟达的GPU+微硬的DeepSpeed,Google的TPU+Tensorflow,固然另有华为昇腾Atlas800+MindSpore三年夜厂商能够完毕全面的劣化。至于其余厂商,年夜部门皆是鉴于英伟达的GPU根底上截至一点儿立异战劣化。
从chatgpt来讲道AI年夜模子-12.png


斯坦祸年夜教年夜模子中间对于环球 30 个支流年夜模子截至了齐方向的评测

从chatgpt来讲道AI年夜模子-13.png


       GLM-130B 是亚洲唯一中选的年夜模子。正在取 OpenAI、Google Brain、微硬、英伟达、Meta AI 的各年夜模子比照中,评测陈述显现 GLM-130B 正在精确性战公允性目标上取 GPT-3 175B (davinci)  靠近或者持仄,鲁棒性、校准偏差战无偏偏性劣于 GPT-3 175B。
      由浑华手艺功效转移的公司智谱 AI 启源了 GLM 系列模子的新成员——中英单语对于话模子 ChatGLM-6B,撑持正在单弛消耗级隐卡上截至拉理使用。那是继此前启源 GLM-130B 千亿基座模子以后,智谱 AI 再次拉出年夜模子标的目的的钻研功效。
      启源的地点:https://github.com/THUDM/ChatGLM-6B
期望

关于 AI年夜模子而行,咱们不但期望它的参数目弘大,年夜模子也应共时具备多种模态疑息的下效理解才气、跨模态的感知才气和跨差别化任务的迁徙取施行才气等。
对于文章的实质搁到了ppt里面,念要下载的朋友能够到尔的资本里面下载,ppt干的比力粗拙,借请包涵。
https://download.csdn.net/download/sunnyrainflower/87642873
华夏挪动钻研院于2023年4月公布的《尔国野生智能年夜模子开展静态》鄙人里地点
https://download.csdn.net/download/sunnyrainflower/88058046
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )