开启左侧

AI大模型开发运用技术道路

[复制链接]
在线会员 WYW6u9 发表于 2025-2-26 21:53:08 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
AI年夜模子开辟使用是一项手艺麋集型事情,包罗多个条理、多个阶段,而且涉及多种百般的手艺战东西。原文梳理了AI年夜模子开辟使用历程,将其归结为三个层级:数据层、模子层战撑持层,具体组成拜见图1。

图1.AI年夜模子开辟使用架构
1、数据层

数据是AI年夜模子开辟使用的根底,可用于模子锻炼、模子评介和模子拉理战阐发。数据的品质、范围战可用水平间接决定AI年夜模子的功用。数据层事情包罗:数据摄入、数据保存、元数据、数据预处置。
(一)数据摄入

1、数据源范例

AI年夜模子所需的数据源范例包罗:构造化数据、非构造化数据战及时数据流。

(1)构造化数据  包罗:① 数据库数据,诸如干系型数据库数据;② 电子表格数据,诸如CSV战Excel格局的数据。

(2)非构造化数据 包罗:① 文原数据,诸如文档、电子邮件、交际媒介帖文;② 图象数据,诸如JPEG、PNG格局文献等;③ 音频数据,诸如WAV、MP3格局文献;④ 望频数据,诸如MP四、AVI格局文献。

(3)及时数据流  包罗:① 物联网装备收罗数据,诸如传感器、智能装备等;② 交际媒介静态;③ 金融商场数据。

2、数据摄入方法

(1)批数据处置 是指正在预约时间内乱汇集一批数据,以后再对于那些数据截至一次性处置。数据是成批处置,而没有是逐条处置。撑持批数据处置的手艺东西包罗:Apache Hadoop,Apache Spark。

(2)流数据处置 是指及时、持续天处置数据流。数据的处置战传输是逐条截至,没有需要等候统统数据局部到齐后再一次性处置。撑持流数据处置的手艺东西包罗:Apache Kafka、Apache Flink、AWS Kinesis。
(两)数据保存

针对于已经汇集的用于AI年夜模子开辟的数据,其保存方法包罗:数据湖、数据堆栈战散布式文献体系。

一、 数据湖

数据湖手艺是下度可扩大的数据保存手艺,以本初格局保存本初数据、非构造化战半构造化数据。其中心劣势是撑持汇集战保存年夜范围本初数据,而无需立即处置或者阐发统统数据。

数据湖东西有:AWS S三、Azure Data Lake、Google Cloud Storage。

二、 数据堆栈

数据堆栈手艺用于保存去自差别数据源的构造化数据,为盘问、报表战中心阐发供给数据撑持。现有的数据堆栈东西包罗:Snowflake、Amazon Redshift、Google BigQuery。

三、散布式文献体系

散布式文献体系,将文献数据分离保存正在多个物理节面上,那些节面颠末收集互连,组成一个正在逻辑上分歧的文献体系。散布式文献体系颠末散布式保存战并止处置手艺,完毕了数据的下效会见战保存,共时借供给了下可用性、可扩大性战容错性。现有最主要的散布式文献体系是Hadoop散布式文献体系(HDFS)。
(三)元数据

元数据战数据目次的建立,是AI年夜模子开辟使用的主要事情,组成了AI年夜模子数据办理战模子可回溯的根底。数据目次是元数据的载体,元数据是数据目次的实质,两者相互合作,用于撑持数据发明、数据理解、数据血统追踪战数据品质办理。

一、元数据

元数据是用于描绘模子数据的数据,包罗模子开辟、模子锻炼、模子评介战模子布置过程当中发生的各种疑息。

元数据办理的东西包罗:MLflow、Weights & Biases、Dataiku等。

二、数据目次

数据目次是一个集合化的元数据保存战办理体系,用于记载战描绘AI年夜模子相干的数据。数据目次可用于撑持模子数据的快速查找、理解战使用。

数据目次的撑持东西包罗:Apache Atlas、Alation等。
(四)数据预处置

数据预处置是AI年夜模子开辟使用的枢纽步调,是把本初数据中存留的数据成就截至调解、改正,进而提拔数据品质、标准数据格局,保证其合用于模子锻炼、模子评介战模子拉理事情。

一、数据洗濯

数据洗濯事情的目标,是处置数据中的噪声、没有不合、毛病和缺得值。数据洗濯办法包罗:

(1)处置缺得值 包罗:① 鉴于数据均匀值、中位值去添补缺得值;② 简略缺得值过量的数据记载;③ 使用年夜模子猜测去弥补缺得值。

(2)数据来沉识别 战简略重复数据记载。

(3)数据落噪 从数据中来除数据噪声或者相关疑息。

二、数据变换

把本初数据变换为合用于模子锻炼的数据格局。具体事情包罗:

(1)数据标准化 将数值特性值变换到尺度范畴。

(2)分类变质编码 是指将数据的分类变质,诸如文原标签或者种别变换为数值方法,就于AI年夜模子处置。经常使用的编码办法包罗:One-Hot编码、标签编码、目标编码战频次编码。

(3)数据分词汇 用于天然语言处置,把数据文天职割为单个字词汇大概分词汇单元。

(4)数据落维 加大都据散的特性数目,共时保存数据的主要疑息,进而简化数据、低落计较庞大度。数据落维主要手艺:主身分阐发(PCA)、t-SNE手艺。

三、数据增强

数据增强,是指颠末对于现无数据的变更或者扩大,正在没有增加本初数据的情况下,增加数据散的百般性战范围,用以进步模子的泛化才气。具体事情包罗:

(1)图象增强 颠末图象数据的扭转、翻转、裁剪战颜色彩整等手艺,去增加数据的百般性。

(2)文原增强 对于文原数据截至共义词汇交流、随机拔出 、回译、句子沉组或者文原天生等。

(3)分解数据天生使用 天生对立收集、SMOTE等手艺去创立野生数据。

四、数据朋分

数据朋分的目标,是把数据散朋分多身材散的历程,别离用于模子锻炼、模子考证战模子拉理。罕见的数据朋分手艺包罗:锻炼散、考证散、尝试散朋分,K合穿插考证,时间序列朋分,分层朋分等。
2、模子层

模子是AI年夜模子开辟使用的中心,模子层的具体事情包罗:模子设想、模子开辟、模子布置战模子拉理。
(一)模子设想

AI年夜模子包罗机械进修模子战深度进修模子二类。

一、机械进修模子

机械进修是指颠末数据战情势的进修去完毕指界说务。机械进修分为监视进修、无监视进修战加强进修。

(1)监视进修 是指按照已经知输出战输出成果之间干系的数据散,锻炼获得一个最劣模子。罕见的监视进修算法包罗:撑持背质机(SVM)、决议计划树、逻辑返回、K隔壁算法。

(2)无监视进修 鉴于无标识表记标帜数据发明数据中存留的情势或者数据之间的干系。罕见的无监视进修算法包罗:K均值散类、主身分阐发(PCA)、联系关系划定规矩开掘、非常检测。

(3)加强进修  旨正在颠末智能体取情况的接互去进修最劣战略,以最年夜化积累嘉奖。罕见的加强进修算法包罗:Q-Learning、SARSA、DQN、A3C、PRO战TRPO。

二、深度进修模子

深度进修是指鉴于深层神经收集模子的机械进修办法,能够从大批数据中主动进修庞大的特性暗示战情势。罕见的深度进修模子有卷积神经收集、轮回神经收集战Transformer。

(1)卷积神经收集(CNNs) 善于处置网格数据,诸如图象、望频等;使用于图象分类、目标检测、图象朋分任务。

(2)轮回神经收集(RNNs) 善于处置序列化数据,诸如时间序列、文原等数据;使用于天然语言处置、语音识别战时间序列猜测。其变体算法包罗是非期影象收集(LSTMs)战门控轮回单位(GRUs)。

(3)Transformers使用 自留神体制去处置序列化数据,并止计较才气强;使用于天然语言处置、计较机望觉。
(两)模子开辟

模子开辟是指正在模子设想的根底上,锻炼战劣化机械进修(ML)战深度进修(DL)模子,终极颠末建立猜测或者天生模子将本初数据变换为可操纵、可阐发的常识划定规矩。模子开辟事情包罗:模子锻炼、模子评介和尝试跟踪战模子版原办理三部门。

一、模子锻炼

模子锻炼是模子开辟的中心关节,颠末模子锻炼去劣化模子参数,使其能够从数据中进修并完毕指界说务。

(1)散布式锻炼 将数据分片,分派到多个GPUs/TPUs上截至并止锻炼,进而有用天锻炼年夜模子。其经常使用的框架战东西包罗:TensorFlow、PyTorch、Horovod。

(2)超等参数调劣 颠末肯定战挑选用于模子锻炼的最好超等参数去劣化模子功用。超等参数调劣办法包罗:网格搜刮、随机搜刮、贝叶斯劣化。

(3)锻炼管讲 将数据预处置、模子锻炼、模子评介、模子劣化等步调体系天构造正在共同,组成主动化事情流,能够清楚天进步开辟服从、削减毛病,并保证模子尝试的可回复复兴性。锻炼管讲的经常使用东西包罗:TensorFlow Extended(TFX)、MLflow、Kubeflow Pipelines、Apache Airflow。

二、模子评介

模子评介是对于模子正在一定任务中的功用及表示截至体系性尝试战阐发,保证其正在理论使用中的有用性、颠簸性战可靠性。

(1)评介目标 是用于质化模子处置数据时的功用目标,能够用于比力差别模子之间的好坏。目标包罗三类:① 分类任务目标,包罗精确率、精确率、召回率、F1评分等;② 返回任务目标,包罗均圆偏差、均匀绝对偏差、决定系数等;③ 散类任务目标,包罗Silhouette评分、Davies-Bouldin Index等。

(2)评介办法  包罗:① 锻炼散、考证散战尝试散分别,别离用于锻炼模子、调劣模子战终极评介模子;②穿插 考证,将数据散分别为多身材散,轮流使用某身材散动作考证散,其余动作锻炼散,去考证模子功用;③对立 评介,使用对立样原尝试模子的强健性。

(3)模子功用阐发  包罗:① 偏差阐发,阐发模子正在哪些样原上表示欠安,找出改良标的目的;② 特性主要性阐发,阐发哪些特性对于模子功用的奉献最年夜;③倾向 -圆好阐发,用于阐发模子的拟开才气,可否存留短拟开战过拟开;④ 数据散布阐发,查抄锻炼数据战尝试数据散布可否不合,制止数据漂移。

三、尝试跟踪战模子版原办理

(1)尝试跟踪  用于记载战办理模子锻炼尝试的具体疑息,保证尝试可复现。尝试跟踪东西包罗:Weights & Biases, MLflow, Neptune等。

(2)模子版原办理 包罗模子版原掌握、模子保存等,保证模子的差别版天赋够获得有用办理,并完毕可复现性。模子版原办理东西包罗:DVC(数据版原掌握)、Git等。
(三)模子布置

模子布置是指把锻炼佳的AI年夜模子布置到消耗情况中,并能够为理论事情供给效劳的历程。因为AI年夜模子具备下计较庞大度、年夜范围参数战保存需要,其布置历程需要出格存眷模子功用、可扩大性、资本使用率战本钱劣化。

一、模子效劳

模子效劳是指将锻炼佳的AI年夜模子布置公布,用于理论使用的猜测拉理事情。模子效劳方法:REST APIs、gRPC、GraphQL。用于撑持模子效劳的东西战框架:TensorFlow Serving、FastAPI、Flask、TorchServe。

二、容器化

模子容器化是将AI年夜模子及其依靠干系挨包退一个可移植的、断绝情况中,以就完毕跨仄台的不合性布置。容器化东西有:Docker、Kubernetes。

三、边沿布置

边沿布置的目标,是正在边沿装备上布置AI年夜模子模子,去完毕高时延、离线或者隐衷庇护的模子拉理事情。那些边沿装备是指智妙手机、物联网装备等。边沿布置东西包罗:TensorFlow Lite、Core ML、ONNX Runtime。

四、连续散成战布置

主动化模子布置事情,以保证更快速、更可靠天革新模子版原。连续散成战布置东西包罗:Jenkins、GitLab CI/CD、GitHub Actions等。

五、模子劣化

模子劣化是指颠末削减模子范围、低落计较需要,进而增强模子拉理的服从。具体手艺包罗:模子质化、模子剪枝、常识蒸馏等。
(四)模子拉理

模子拉理是指鉴于锻炼佳的AI年夜模子截至猜测阐发,和鉴于新的、往常已打仗的数据天生输出成果。

一、及时拉理

及时拉理主要使用于这些需要实时反应的使用法式,为其供给高时延的猜测成果。使用方法包罗谈天机械人战假造帮忙。相干的手艺有:REST APIs、gRPC、TensorFlow Serving、TorchServe、ONNX Runtime。

二、批处置拉理

批处置拉理用于处置年夜范围数据的拉理阐发,凡是使用于时间没有敏感的事情任务。具体使用场景包罗:① 为用户天生举荐倡议;②剖析 汗青数据组成新的观点;③处置 年夜范围数据散,用以天生报表。所需的手艺东西包罗:Apache Spark、Hadoop、Airflow、Luigi等。

三、慢存体制

慢存的目标是颠末保存频仍恳求的猜测成果去提拔照应时间。慢存体制主要使用于谈天机械人体系中的重复询问、频仍使用的举荐倡议。慢存手艺包罗内乱存慢存,诸如Redis、Memcached;散布式体系的边沿慢存等。
3、撑持层

为了撑持AI年夜模子从数据预处置、模子锻炼、模子开辟、模子布置,不竭到模子拉理使用,能够更有用、更可靠天施行降天,借需要一点儿手艺模块的撑持。
(一)根底装备

根底装备是撑持模子锻炼、模子布置战拉理使用的资本保证。因为AI年夜模子具备宏大的参数目战下计较需要,其根底装备需要具备下功用、可扩大性战活络性。

一、云仄台  诸如AWS、Azure、Google Cloud、阿里云、华为云等

2、当地效劳器 包罗:① 计较软件,诸如GPU、TPU、CPU和AI专用芯片;② 保存软件,诸如NVMeSSD、Lustre、GPFS、AWS S三、Google Cloud Storage;③ 收集软件,诸如下速收集InfiniBand、RDMA,高时延收集等。

3、边沿装备 诸如物联网装备、智妙手机等。
(两)宁静战开规

AI年夜模子的宁静战开规请求涵盖了数据隐衷、模子宁静、伦理义务战法令法例等圆里。颠末采纳有用的手艺步伐,能够保证AI年夜模子正在模子开辟、模子布置战模子拉理过程当中契合宁静战开规请求,庇护用户隐衷,制止模子滥用。

一、数据宁静战开规

(1)数据隐衷庇护 包罗:① 数据藏名化,针对于模子相干数据截至脱敏处置,来除小我私家身份疑息;② 数据减稀,关于模子相干的固态数据战传输数据截至减稀处置,避免数据保守;③ 数据会见掌握,限定对于模子相干数据的会见权力,保证只需受权职员能够会见。

(2)数据开规查抄 正在数据预处置、模子锻炼、模子布置、模子拉理使用各个阶段,相干手艺职员必需服从《收集宁静法》、《数据宁静法》、《小我私家疑息庇护法》、《收集数据宁静办理规则》等国度法令法例。

二、模子宁静

(1)对立进犯战防备  检测并防备对立样原进犯,避免模子被歹意输出误导。

(2)模子滥用抗御 正在模子输出中参加实质过滤体制,避免天生无害实质。颠末会见掌握等伎俩限定模子的使用范畴,避免滥用。

(3)模子可注释性  使用SHAP、LIME等东西注释模子的决议计划历程,进步模子通明度
(三)模子监控战反应

针对于AI年夜模子的拉理使用,建立模子监控战反应关环,从消耗情况中监测模子功用目标,并把疑息反应给模子开辟,增进模子迭代战改良。

一、模子监控

模子监控一圆里是监控模子功用,颠末汇集战阐发模子的功用目标去评介模子运行情况。罕见的功用监控目标包罗:吞咽质、反应时延、毛病率战资本占用。

模子监控另外一圆里是截至漂移检测,包罗数据漂移战模子漂移二部门。

二、日记战阐发

AI年夜模子的日记战阐发是指对于模子运行历程截至日记汇集、处置战阐发,鉴于阐发成果截至模子劣化。

经常使用的日记阐发东西包罗:ELK Stack、Prometheus + Grafana、Splunk、Datadog。

三、反应关环

颠末汇集用户反应、监控模子输出、阐发日记数据,以后鉴于上述疑息劣化模子,进而组成模子迭代轮回。那一轮回历程关于提拔模子功用、改良用户体会和保证模子宁静性战可靠性相当主要。
(四)用户接互交心

AI年夜模子的用户接互交心,是用户取模子接互的进口,其功用表示间接作用用户体会战模子的使用结果。用户接互交心大抵分三类:

一、使用法式接互界里

包罗Web界里、挪动使用App等。用户可颠末图形化界里,取AI年夜模子截至接互,适宜一般用户,使用普遍。

使用示例包罗:DeepSeek网页版战脚机App、ChatGPT谈天窗心等。

二、智能体

包罗谈天机械人、假造帮忙等,能够主动感知情况,取用户接互具备必然主动性。

三、APIs交心

使用法式开辟交心(APIs),用于撑持开辟职员截至使用法式开辟散成,鉴于用户需要截至定造化开辟。

现有的年夜模子APIs交心包罗:OpenAI API、Hugging Face API等。
4、归纳

AI年夜模子开辟使用是一个多阶段、多手艺撑持的庞大历程。原文梳理了年夜模子的开辟使用历程,归结为三个层级:数据、模子战撑持层。每一个层级皆需要专科的手艺战东西撑持。

正在数据层,包罗数据摄入、数据保存、元数据办理战数据预处置等事情。数据层相干的手艺东西包罗年夜数据办理东西、数据目次东西和数据处置东西。

模子层是年夜模子开辟使用的中心,包罗模子设想、模子开辟、模子布置、模子拉理等开辟历程。各个开辟历程皆需要有一定的手艺战东西撑持。

正在AI年夜模子开辟使用的共时,借需要存眷数据宁静、隐衷庇护战正当开规等成就。那些成就是撑持层里的事情实质,涵盖根底装备、宁静战开规、模子监控战反应、用户接互交心等圆里。
总之,颠末对于AI年夜模子开辟使用历程和手艺东西的梳理,能够更深入地理解AI年夜模子、更全面天把握AI年夜模子相干常识,进而能够更下效、更颠簸、下品质天正在各止各业中使用AI年夜模子,终极促进社会开展、进步人们的糊口品质。
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )