开启左侧

深度解析:中国人工智能大模型技术发展白皮书

[复制链接]
短期,华夏野生智能协会公布了《华夏野生智能年夜模子手艺利剑皮书籍》,体系梳理了年夜模子手艺演退,深入会商枢纽手艺因素,并阐发目前挑战及未来瞻望。尔为各人干了扼要归纳,并附上本文供深入浏览。
  1. 目次
  2. 第 1 章 年夜模子手艺概括 ...................................5
  3. 1.1 年夜模子手艺的开展过程 ......................5
  4. 1.2 年夜模子手艺的死态开展 ......................9
  5. 1.3 年夜模子手艺的危急取挑战 ................11
  6. 第 2 章 语言年夜模子手艺 .................................13
  7. 2.1 Transformer 架构.................................13
  8. 2.2 语言年夜模子架构 ................................17
  9. 2.2.1 掩码语言修模 .............................17
  10. 2.2.2 自返回语言修模 .........................18
  11. 2.2.3 序列到序列修模 .........................18
  12. 2.3 语言年夜模子枢纽手艺 ........................19
  13. 2.3.1 语言年夜模子的预锻炼 .................19
  14. 2.3.2 语言年夜模子的适配微调 .............21
  15. 2.3.3 语言年夜模子的提醒进修 .............24
  16. 2.3.4 语言年夜模子的常识增强 .............26
  17. 2.4.5 语言年夜模子的东西进修 .............27
  18. 第 3 章 多模态年夜模子手艺 .............................29
  19. 3.1 多模态年夜模子的手艺系统 ................29
  20. 3.1.1 里背理解任务的多模态年夜模子 .29
  21. 3.1.2 里背天生任务的多模态年夜模子 .31
  22. 3.1.3统筹 理解战天生任务的多模态年夜模子............................33
  23. 3.1.4 常识增强的多模态年夜模子 .........35
  24. 3.2 多模态年夜模子的枢纽手艺 ................36
  25. 3.2.1 多模态年夜模子的收集构造设想 .36
  26. 33.2.2 多模态年夜模子的自监视进修劣化 ....................................37
  27. .2.3 多模态年夜模子的下流任务微调适配 ................................39
  28. 第 4 章 年夜模子手艺死态 .................................41
  29. 4.1 典范年夜模子仄台 ................................41
  30. 4.2 典范启源年夜模子 ................................44
  31. 4.2.1 典范启源语言年夜模子 .................44
  32. 4.2.2 典范启源多模态年夜模子 .............53
  33. 4.3 典范启源框架取东西 ........................57
  34. 4.4 年夜模子的锻炼数据 .............................60
  35. 4.4.1 年夜模子的锻炼数据处置过程战特性 ................................60
  36. 4.4.2 年夜模子经常使用的公然数据散 .........63
  37. 第 5 章 年夜模子的开辟锻炼取拉理布置 .........66
  38. 5.1 年夜模子开辟取锻炼 ............................66
  39. 5.2 年夜模子拉理布置 ................................68
  40. 5.2.1 年夜模子收缩 .................................69
  41. 5.2.2 年夜模子拉理取效劳布置 .............70
  42. 5.3 硬软件适配取配合劣化 ....................71
  43. 5.3.1 年夜模子的硬软件适配 .................72
  44. 5.3.2 年夜模子的硬软件配合劣化 .........72
  45. 第 6 章 年夜模子使用 ..746.1 疑息检索 .....74
  46. 6.2 往事媒介 .....756.3 聪慧都会 .....76
  47. 6.4 死物科技 .....766.5 聪慧办公 .....77
  48. 6.6 影望制作 .....786.7 智能教诲 .....78
  49. 46.8 聪慧金融 .....796.9 聪慧调理 .....79
  50. 6.10 聪慧工场 ...796.11 糊口效劳....80
  51. 6.12 智能机械人 ......................................80
  52. 6.13 其余使用 ...80
  53. 第 7 章 年夜模子的宁静性 .................................82
  54. 7.1 年夜模子宁静危急激发环球普遍存眷 82
  55. 7.2 年夜模子宁静办理的策略法例战尺度标准 ...............................83
  56. 7.3 年夜模子宁静危急的具体表示 ............85
  57. 7.3.1 年夜模子自己的宁静危急 .............85
  58. 7.3.2 年夜模子正在使用中衍死的宁静危急 ....................................86
  59. 7.4 年夜模子宁静钻研枢纽手艺 ................88
  60. 7.4.1 年夜模子的宁静对于齐手艺 .............88
  61. 7.4.2 年夜模子宁静性评测手艺 .............91
  62. 第 8 章 归纳取思考 94
  63. 8.1 配合多圆协作,配合促进年夜模子开展 ...................................95
  64. 8.2树立 年夜模子开规尺度战评测仄台 ....96
  65. 8.3 应付年夜模子戴去的宁静性挑战 ........97
  66. 8.4 睁开年夜模子普遍适配,促进年夜模子手艺栈自立可控...........98
复造代码
年夜模子开展过程
自2006年Geoffrey Hinton提出颠末逐层无监视预锻炼霸占深层收集锻炼困难此后,深度进修正在浩瀚范围均得到了清楚的突破,其开展过程从最初的标注数据监视进修,逐步演退到预锻炼模子,终极迈背年夜模子的新纪元。2022年末,OpenAI公布的ChatGPT凭仗其出色的功用激发了普遍的存眷,充实展示了年夜模子正在处置多场景、多用处、跨教科任务时的强大才气。因而,年夜模子被遍及觉得是未来野生智能范围不成或者缺的枢纽根底装备。
深度剖析:华夏野生智能年夜模子手艺开展利剑皮书籍-1.png


正在那场手艺高潮中,语言年夜模子动作发军者,颠末年夜范围预锻炼进修了丰硕的语言常识取天下常识,从而具有了里背多任务的通用供解才气。其开展眉目明了看来,历经统计语言模子、神经语言模子、预锻炼语言模子,曲至现在的语言年夜模子(根究阶段)的四个阶段。
深度剖析:华夏野生智能年夜模子手艺开展利剑皮书籍-2.png


    统计语言模子固然鉴于马我可妇假定,但是因为数据稠密成就的作用,其才气无限;神经语言模子颠末神经收集对于语义同现干系截至修模,胜利天捕捉了庞大语义依靠;预锻炼语言模子接纳“预锻炼+微调”的范式,颠末自监视进修使模子能够适配各类下流任务;而年夜模子则鉴于缩搁定律。简朴来讲即是,跟着模子参数战预锻炼数据范围的不竭增加,模子的才气取任务结果会连续提拔,以至展示出了一点儿小范围模子所没有具备的共同“出现才气”。
深度剖析:华夏野生智能年夜模子手艺开展利剑皮书籍-3.png


年夜模子使用
年夜模子时期邪逐步掀启尾声,其发军者如ChatGPT在经济、法令、社会等范围阐扬着相当主要的感化。OpenAI凭仗其GPT-一、GPT-2和GPT-3等语言模子,展示了差别范围参数下的强大才气,而google也拉出了范围宏大的PaLM模子,具有5400亿参数。当模子参数范围跃降至千亿质级,语言年夜模子所展示出的百般化才气使人瞩目。GPT-3仅凭提醒词汇或者大都样例,就能超卓天完毕浩瀚任务。
深度剖析:华夏野生智能年夜模子手艺开展利剑皮书籍-4.png


自Transformer架构表态此后,OpenAI拉出了一系列争先的语言年夜模子手艺,如GPT-一、GPT-二、GPT-3等,它们正在天然语言任务中展示了出色功用。CodeX颠末微调GPT-3,提拔了代码战庞大拉理才气;InstructGPT战ChatGPT则使用人类反应的加强进修手艺,增强了依照人类指令的才气战对于人类偏偏佳的理解。GPT-4则更退一步,处置更少的高低文窗心,具备多模态理解才气,逻辑拉理、庞大任务处置才气清楚改良,为多模态范围开辟了新六合。
年夜模子手艺死态在兴旺开展,多种效劳仄台背小我私家用户战贸易使用盛开。OpenAI API让用户轻快会见差别GPT模子以完毕任务。Anthropic的Claude系列模子夸大有效性、诚笃性战无害性。baidu文心一行鉴于常识增强的年夜模子,供给盛开效劳战插件体制。讯飞星水认知年夜模子具备盛开式常识问问、多轮对于话、逻辑战数教才气,和对于代码战多模态的理解才气。讯飞战华为分离公布了撑持年夜模子锻炼私有化的“星水一体机”。
深度剖析:华夏野生智能年夜模子手艺开展利剑皮书籍-5.png


年夜模子的启源死态异常丰硕多彩,涵盖了启源框架战启源年夜模子。启源框架如PyTorch战飞桨撑持年夜范围散布式锻炼,OneFlow则撑持消息态图的活络变换,而DeepSpeed则颠末削减冗余内乱存会见以锻炼更年夜模子。启源年夜模子如LLaMA、Falcon战GLM则低落了钻研门坎,增进了使用的繁华。Baichuan系列模子撑持中英单语,使用下品质锻炼数据,表示出色,并启源了多种质化版原。CPM系列正在华文NLP任务上表示超卓。
年夜模子手艺的使用场景普遍非常,为各止各业注进了新的生机。不管是往事、影望、营销、娱乐、军事、教诲、金融仍是调理等范围,年夜模子皆能清楚低落消耗本钱,进步做品质质,帮力产物营销,增强决议计划才气,使教诲方法越发本性化战智能化,进步金融效劳品质,赋能调理机构诊断齐历程。更主要的是,年夜模子被觉得是未来野生智能使用中的枢纽根底装备,能够动员高低游财产的改革,组成配合开展的死态,对于经济、社会战宁静等范围的智能化升级组成枢纽支持。
年夜模子的危急战挑战
可是,年夜模子手艺仍然面对诸多危急取挑战。其可靠性还没有获得充实保证,分解实质无理念性战实效性上仍存留缺点。年夜模子的可注释性绝对较强,其事情道理易以透辟理解。别的,使用年夜模子的布置本钱昂扬,涉及大批锻炼战拉理计较,罪耗下,使用本钱下,且端侧拉理存留提早等成就。正在年夜数据缺乏的情况下,年夜模子的迁徙才气受到限制,鲁棒性战泛化性面对严重挑战。更加严峻的是,年夜模子借存留被滥用于天生虚假疑息、歹意指导举动等衍死手艺危急,和宁静取隐衷成就。
深度剖析:华夏野生智能年夜模子手艺开展利剑皮书籍-6.png


归纳
年夜模子手艺,以其宽广的使用远景战弘大后劲,无信成了手艺开展的核心。可是,随之而去的挑战亦阻挡无视:奸淫*可靠性、可注释性的困难需要咱们来霸占,数据品质取数目的提拔成为火急需要,使用布置本钱的低落取迁徙才气的增强异常主要,而宁静取隐衷庇护的加强更是枢纽中的枢纽。别的,根究更加揭开理论、具备降天代价的使用场景,亦是咱们需要勤奋的标的目的。奸淫*那些挑战取机缘并存,将决定年夜模子手艺未来的普遍使用取开展运气。
对于Python进修指北

教佳 Python不管 是赋闲仍是干副业赢利皆没有错,但是要教会 Python 仍是要有一个进修计划。最初给各人分享一份齐套的 Python 进修质料,给这些念进修 Python 的小同伴们一面辅佐!
包罗:Python激活码+装置包、Python web开辟,Python爬虫,Python数据阐发,野生智能、主动化办公等进修学程。戴您从整根底体系性的教佳Python!
怎样进修年夜模子 AI ?

因为新岗亭的消耗服从,要劣于被代替岗亭的消耗服从,以是理论上全部社会的消耗服从是提拔的。
可是具体到小我私家,只可道是:
“开始把握AI的人,将会比力早把握AI的人有合作劣势”。
那句话,搁正在计较机、互联网、挪动互联网的开局期间,皆是一致的原理。
尔正在一线互联网企业事情十余年里,辅导过很多偕行后代。辅佐许多人获得了进修战生长。
尔观点到有许多经历战常识值患上分享给各人,也能够颠末咱们的才气战经历解问各人正在野生智能进修中的许多猜疑,以是正在事情忙碌的情况下仍是对峙各类收拾整顿战分享。但是甘于常识传布路子无限,许多互联网止业朋友没法得到准确的质料获得进修提拔,故此将并将主要的AI年夜模子质料包罗AI年夜模子初学进修思惟导图、佳构AI年夜模子进修册本脚册、望频学程、真战进修等录播望频免费分享进去。
深度剖析:华夏野生智能年夜模子手艺开展利剑皮书籍-7.jpg


第一阶段(10天):开端使用

该阶段让各人对于年夜模子 AI有一个最前沿的观点,对于年夜模子 AI 的理解超越 95% 的人,能够正在相干会商时揭晓初级、没有跟风、又交天气鼓鼓的看法,他人只会战 AI 谈天,而您能调学 AI,并能用代码将年夜模子战营业跟尾。
    年夜模子 AI能干 甚么?年夜模子是如何得到「智能」的?用佳 AI 的中心心法年夜模子使用营业架构年夜模子使用手艺架构代码示例:背 GPT-3.5 注意灌输新常识提醒工程的意思战中心思惟Prompt 典范组成指令调劣办法论思惟链战思惟树Prompt 进犯战抗御…
第两阶段(30天):下阶使用

该阶段咱们邪式加入年夜模子 AI 退阶真战进修,教会机关私有常识库,扩大 AI 的才气。快速开辟一个残破的鉴于 agent 对于话机械人。把握功用最强的年夜模子开辟框架,捉住最新的手艺平息,适宜 Python 战 JavaScript顺序 员。
    为何要干 RAG拆修一个简朴的 ChatPDF检索的根底观点甚么是背质暗示(Embeddings)背质数据库取背质检索鉴于背质检索的 RAG拆修 RAG零碎 的扩大常识混淆检索取 RAG-Fusion 简介背质模子当地布置…
第三阶段(30天):模子锻炼

祝贺您,假设教到那里,您根本能够找到一份年夜模子 AI相干的事情,自己也能锻炼 GPT 了!颠末微调,锻炼自己的笔直年夜模子,能自力锻炼启源多模态年夜模子,把握更多手艺计划。
到此为行,大要2个月的时间。您已经成了一位“AI小子”。那末您借念朝下根究吗?
    为何要干 RAG甚么是模子甚么是模子锻炼供解器 & 丧失函数简介小尝试2:脚写一个简朴的神经收集并锻炼它甚么是锻炼/预锻炼/微调/沉质化微调Transformer构造简介沉质化微调尝试数据散的建立…
第四阶段(20天):贸易关环

对于环球年夜模子从功用、吞咽质、本钱等圆里有必然的认知,能够正在云端战当地等多种情况下布置年夜模子,找到适宜自己的名目/守业标的目的,干一位被 AI 武拆的产物司理。
    软件选型戴您理解环球年夜模子使用国产年夜模子效劳拆修 OpenAI 代办署理冷身:鉴于阿里云 PAI 布置 Stable Diffusion正在当地计较机运行年夜模子年夜模子的私有化布置鉴于 vLLM 布置年夜模子案例:怎样文雅天正在阿里云私有布置启源年夜模子布置一套启源 LLM 名目实质宁静互联网疑息效劳算法存案…
进修是一个历程,只要进修便会有挑战。天讲酬勤,您越勤奋,便会成为越优良的自己。
假设您能正在15天内乱完毕统统的任务,这您堪称先天。可是,假设您能完毕 60-70% 的实质,您便已经开端具备成为一位年夜模子 AI 的准确特性了。
那份残破版的年夜模子 AI 进修质料已经上传CSDN,朋友们假设需要能够微疑扫描下圆CSDN民间认证两维码免费付出【包管100%免费】

深度剖析:华夏野生智能年夜模子手艺开展利剑皮书籍-8.jpg
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )