开启左侧

什么样的数据被AI大模型需求?

[复制链接]
在线会员 NWI 发表于 2025-1-24 20:18:13 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
滥觞:数据办理架构齐文同 2219 个字,倡议浏览 10 分钟

AI海潮之下,互联网年夜厂“内乱卷”的赛讲尤其默契,不合将目标锁定年夜模子。从baidu的文心一行到阿里的通义千问,从腾讯混元到字节豆包……各厂均卷出了自野的年夜模子。而正在各人猖獗锻炼年夜模子的面前 ,数据那一“软通货”尤其主要。

究竟结果,数据是年夜模子的“食粮”。数据的品质战数目将间接作用着年夜模子的功用战精确度。跟着年夜模子赛讲的加快“内乱卷”,未来关于数据的需要质只会愈来愈多,品质请求也会愈来愈下。

数据将是未来AI年夜模子合作的枢纽因素

野生智能开展的突破受益于下品质数据的开展。比方,庞大语言模子的最新平息依靠于更下品质、更丰硕的锻炼数据散:取GPT-2比拟,GPT-3对于模子架构只截至了弘大的改正,但是破费肉体汇集更年夜的下品质数据散截至锻炼。ChatGPT取GPT-3的模子架构类似,并使用RLHF(去自野生反应历程的加强进修)去天生用于微调的下品质标识表记标帜数据。

甚么样的数据被AI年夜模子需要?w2.jpg

野生智能范围以数据为中间的AI,即正在模子绝对牢固的条件下,颠末提拔数据的品质战数目去提拔全部模子的锻炼结果。提拔数据散品质的办法主要有:增加数据标识表记标帜、洗濯战变换数据、数据紧缩、增加数据百般性、连续监测战保护数据等。未来数据本钱正在年夜模子开辟中的本钱占比或者将提拔,主要包罗数据收罗,洗濯,标注等本钱。

甚么样的数据被AI年夜模子需要?w3.jpg

以数据为中间的 AI:模子稳定,颠末改良数据散品质提拔模子结果

AI年夜模子需要甚么样的数据散

1)下品质:下品质数据散能够进步模子粗度取可注释性,而且削减支敛到最劣解的时间,即削减锻炼时少。

2)年夜范围:OpenAI 正在《Scaling Laws for Neural Language Models》中提出 LLM 模子所依照的“伸缩法例”(scaling law),即自力增加锻炼数据质、模子参数范围大概延长模子锻炼时间,预锻炼模子的结果会愈来愈佳。

3)丰硕性:数据丰硕罪能够进步模子泛化才气,过于简单的数据会十分简单让模子过于拟开锻炼数据。

甚么样的数据被AI年夜模子需要?w4.jpg

归纳:年夜模子所需的数据范例


    年夜范围百般性数据:年夜模子寻求的是泛化才气战深度理解才气,因而需要涵盖普遍中心、范围战语境的年夜范围数据散。那包罗但是没有限于文原、图象、音频、望频等多种方法的数据,以保证模子能够理解战天生百般化的实质。

    下品质标注数据:关于监视进修任务,下品质的标注数据相当主要。那请求数据不但精确反应实在天下的情况,借需要标注详尽、不合,以进步模子的锻炼服从战精确性。关于语言模子,那可以表示着需要精确到词汇或者句子的语义标注;关于图象识别,则是像艳级的标签或者鸿沟框。

    无监视进修数据:跟着自监视进修战预锻炼-微调范式的鼓起,大批已标注数据成为锻炼年夜模子的主要资本。这种数据辅佐模子进修语言的统计纪律、图象的下层特性等,为后绝一定任务的进修挨下坚固根底。

    对于话取接互式数据:关于旨正在完毕人机接互的年夜模子,如谈天机械人,汇集真正的对于话数据尤其主要。那些数据应包罗各类对于话场景、用户企图战表情反响,有帮于模子进修天然流畅的对于话天生战理解才气。

    跨模态数据:跟着多模态AI的开展,能够将文原、图象、声音等多种疑息融合理解的年夜模子日趋受到重视。因而,汇集并调整那些差别模态的数据,增进模子正在差别维度上的进修战联系关系,成为新的趋势。


数据散怎样发生

成立数据散的过程主要分为 1)数据收罗;2)数据洗濯:因为收罗到的数据可以存留缺得值、噪声数据、重复数据等品质成就;3)数据标注:最主要的一个关节;4)模子锻炼:模子锻炼职员会使用标注佳的数据锻炼出需要的算法模子;5)模子尝试:考核员截至模子尝试并将尝试成果反应给模子锻炼职员,而模子锻炼职员颠末不竭天调解参数,以就得到功用更佳的算法模子;6)产物评介:产物评介职员使用并截至上线前的最初评介。

数据收罗:收罗的工具包罗望频、图片、音频战文原等多品种型战多种格局的数据。数据收罗今朝经常使用的有三种方法,别离为:1)体系日记收罗办法;2)收集数据收罗办法;3)ETL。

甚么样的数据被AI年夜模子需要?w5.jpg

数据洗濯:数据洗濯是进步数据品质的有用办法。因为收罗到的数据可以存留缺得值、噪声数据、重复数据等品质成就,故需要施行数据洗濯任务,数据洗濯动作数据预处置中相当主要的关节,洗濯后数据的品质很年夜水平上决定了 AI 算法的有用性。

甚么样的数据被AI年夜模子需要?w6.jpg

数据标注:数据标注是过程中最主要的一个关节。办理员会按照差别的标注需要,将待标注的数据分别为差别的标注任务。每个标注任务皆有差别的标准战标注面请求,一个标注任务将会分派给多个标注员完毕。

模子锻炼取尝试:终极颠末产物评介关节的数据才算是真实过闭。产物评介职员需要重复考证模子的标注结果,并对于模子可否满意上线目标截至评介。

数据怎样使用
预锻炼阶段:使用年夜范围的无监视或者自监视进修数据,颠末年夜范围的语言修模、图象天生等任务预锻炼模子,使其具备根本的理解战天生才气。那一阶段的数据应重视百般性战范围,以充实捕获语言的统计纪律战天下的百般性。精密标注数据的使用:正在预锻炼根底上,颠末一定任务的精密标注数据截至微调,使模子针对于一定使用场景(如感情阐发、物体识别)到达下粗度。微调时,下品质标注数据的精确性战不合性是枢纽。数据增强取扩删:颠末数据增强手艺(如文原共义改写、图象变更)战分解数据天生,增加锻炼散的百般性战丰硕度,特别是正在实在标注数据密缺的情况下,能够有用提拔模子功用。
连续进修取革新:跟着新数据的不竭发生,模子应能连续进修,适应新的语言习惯、流行文化等变革。那请求成立有用的数据革新体制战正在线进修过程,保证模子连结取时俱退。
多模态融合锻炼:关于多模态年夜模子,需要设想特地的锻炼战略,如分离嵌进空间的进修、跨模态留神力体制等,以有用使用跨模态数据,增进模子正在差别模态间的疑息调整战理解。【End】
据统计,99%的数据年夜咖皆存眷了那个公家号

👇
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )