开启左侧

院士讲AI大模型,助推油气行业新质消费力发展!

[复制链接]
在线会员 WijgmVR 发表于 2025-1-24 20:04:19 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
4月24日,正在2024华夏煤油石化企业疑息手艺交换年夜会暨油气鼓鼓财产数字化转型顶峰服装论坛t.vhao.net上,华夏工程院院士、华夏煤油勘察开辟钻研院传授刘开截至了中心为《油气鼓鼓止业AI年夜模子开展的瞻望》的讲演。

院士道AI年夜模子,帮拉油气鼓鼓止业新量消耗力开展!w2.jpg

刘开院士暗示,年夜模子势必促进油气鼓鼓止业新量消耗力开展,海内油气鼓鼓止业年夜模子研收方才起步,展示出弘大使用后劲,但是应切忌冒险,要从数据、算力、算法等圆里干佳根本罪。

院士道AI年夜模子,帮拉油气鼓鼓止业新量消耗力开展!w3.jpg

院士道AI年夜模子,帮拉油气鼓鼓止业新量消耗力开展!w4.jpg



年夜模子的观点及开展近况



野生智能年夜模子今朝不一个精确的界说,外洋凡是嚷根底模子(foundation model),海内凡是嚷年夜模子,一般为指用多模态数据(图象、文原、表格数据等)预锻炼、包罗多少十以至上千亿参数目的深度进修模子。

年夜模子最初指的是狂言语模子(Large Language Model, LLM),厥后开展了望觉年夜模子(Large Vision Model, LVM)、多模态年夜模子等。2022年7月李飞飞等100余论理学者联名揭晓文章《On the Opportunities and Risks of Foundation Models》,邪式提出根底模子(foundation model)的观点,2022年OpenAI拉出用时八年研收而成的ChatGPT,将年夜模子拉背新一轮高潮。

院士道AI年夜模子,帮拉油气鼓鼓止业新量消耗力开展!w5.jpg

甚么是年夜模子呢?

刘开院士觉得能够从如下多少个圆里去判定年夜模子:参数目、使用数据质、计较资本、泛化才气、适应性、活络性、功用目标等。

院士道AI年夜模子,帮拉油气鼓鼓止业新量消耗力开展!w6.jpg

刘开院士用科普的语言介绍了多少个年夜模子经常使用术语。好比狂言语模子、望觉年夜模子、多模态年夜模子。狂言语模子比如是瞽者,只可阐发处置语言;望觉年夜模子比如是聋哑人,只可阐发处置图象战望频;多模态年夜模子比如是一般人,能够处置语言、图象、望频、笔墨等多模态数据。假设把锻炼年夜模子比方为干麻辣喷鼻锅的话,那末预锻炼相称于干麻辣喷鼻锅的底料,微调相称因而自己购食材。

年夜模子比拟于保守AI,表示出了泛化性(Generalization)、通用性(Generality)、出现性(Emergency)三个特性。

泛化性是手印型正在已睹过的数据上的表示才气,年夜模子的泛化才气更强,能够适应战准确处置新的、差别的或者已睹过的情况。

通用性是手印型处置各类差别任务的才气,年夜模子具备下通用性,能够正在普遍的任务范例上表示出优良的功用,没有需要对于每一个新任务截至出格定造或者从头锻炼。

出现性是指当模子到达必然的范围战庞大度时,它能够展示出一点儿正在小范围或者较简朴模子中未曾呈现的新才气或者举动。





年夜模子正在笔直范围的使用情况



整体来讲,尔国年夜模子财产跟国内比,另有必然差异。以OpenAI的chatGPT为例,瞅一下海内中年夜模子的差异。OpenAI只干年夜模子,并且是从八年前便只研收那一件事,别的借聘请了顶尖级的算法大师,也正在数据、算力、算法等圆里干了大批踏实的事情。比照去瞅,咱们海内的年夜模子企业年夜部门皆仍是根底尚浅。以是咱们要无视差异、理性观点不敷,年夜步追赶。国度层面临年夜模子开展也赐与了极年夜的存眷战撑持,颠末策略歪斜战资本加入,鼎力开展年夜模子财产。

年夜模子正在笔直范围的使用能够分为三个品级:通用根底模子、止业根底模子、场景模子。通用年夜模子根本是由一点儿庞大IT公司战有气力的守业公司去研收,好比外洋的OpenAI、DeepMind、google、苹因等,海内的阿里、baidu、腾讯、百川智能等。止业年夜模子是正在通用年夜模子的根底上,参加止业数据战大师经历,研收的庞大预锻炼模子。场景模子是使用通用年夜模子大概止业年夜模子研收的处置具体营业场景的模子。

院士道AI年夜模子,帮拉油气鼓鼓止业新量消耗力开展!w8.jpg

远一年去,年夜模子的笔直使用已经正在法令、调理、都会建立等多个止业疾速睁开,并展示出弘大的后劲战代价。油气鼓鼓止业野生智能年夜模子使用方才起步,能够分为狂言语模子、望觉年夜模子/多模态年夜模子二个圆里的笔直使用。跟通用止业一致,油气鼓鼓止业正在狂言语模子圆里使用最快,如23年SPE年会上的PetroQA等。望觉年夜模子战多模态年夜模子方才开端根究,如DDE战之江尝试室分离拉出的GeoGPT。GeoGPT是为了处置天教科研瓶颈的博有年夜模子;使用了丰硕的天教博有语料。





年夜模子研收的枢纽因素



促进年夜模子开展的枢纽因素有三个:数据、算力、算法。
数据是年夜模子使用的基石!
算力是年夜模子使用的保证!
算法是年夜模子使用的东西!
院士道AI年夜模子,帮拉油气鼓鼓止业新量消耗力开展!w10.jpg

年夜模子锻炼是一项十分庞大的体系工程,锻炼质年夜、数据质年夜、时间少。年夜模子凡是包罗十亿至数百亿的参数,使用了海质数据,因而需要强大的算力战劣化算法去锻炼,锻炼时间也比力少,即年夜模子的锻炼本钱很下。

数据圆里,通用根底模子许多是正在启源数据散上锻炼的,使用的数据质年夜、泛化性强。多少个公然数据散也为通用根底模子的锻炼供给了根底。油气鼓鼓止业的数据十分庞大,且因为收罗、保存情势等启事,汗青数据的数据品质成就比较严峻。数据品质是作用油气鼓鼓止业年夜模子使用的枢纽。

算力圆里,锻炼年夜模子需要GPU算力,为何不消CPU呢?因为年夜模子锻炼需要许多重复计较。CPU,处所处置器,它善于的是多量庞大逻辑战决议计划的任务;GPU,图形处置器,它善于的是重复、大批计较。举一个例子,CPU是一个数教系结业的下材死,能计较各类通俗庞大的成就,GPU便像是聚集了一万个只会1+1=2的小师长教师,能以最快的速率处置海质简朴重复的成就,那恰是锻炼野生智能最需要的才气,颠末对于宏大数据的进修、阐发、拉理,让机械像人类这样处置成就。

今朝多少个出名的通用模子皆是用了许多算力才锻炼进去的,好比LLaMA 2,70B的模子用了1.6万块A100;GPT 3,175B的模子,用1000块A100锻炼22天。可是,尔国油气鼓鼓止业遍及没有具备根底模子的锻炼才气,只可是微调。

算法圆里,那一轮年夜模子的开展很年夜水平上是大都多少个顶尖人材促进的算法上的突破。但是算法素质上仍是一个东西,一是算法的功用下度依靠于数据的品质战数目;两是算法泛化才气无限;三是算法可以受到进犯。油气鼓鼓止业正在年夜模子算法圆里遍及缺少自立可控,且油气鼓鼓止业年夜模子使用的定位该当是怎样用年夜模子算法支持油气鼓鼓主停业务,而没有是跟互联网企业来卷年夜模子算法。





未来使用瞻望



ChatGPT拉出目前,油气鼓鼓止业对于年夜模子的兴致愈来愈年夜。但是油气鼓鼓止业年夜模子使用面对许多成就战挑战。

一是数据的成就。油气鼓鼓止业比拟于通用止业,存留收罗本钱下、多解性、样原少、多模态等成就,怎样以年夜模子使用为契机,促进数据办理那是起首要思考的事情。

两是算力的成就,现在咱们不锻炼年夜模子所需要的算力,这如何办呢?是加入年夜笔资本来购?仍是租借他人的算力?自己建立的话,如何修、谁去修、如何用?租借的话如何包管数据宁静战隐衷庇护?

三是算法的成就。OpenAI正在超强算力、超年夜数据、初级人才的减持下,加入8年才研收ChatGPT,ChatGPT偶然分借不敷精确,借正在不竭迭代升级。那是一个体系工程,今朝油气鼓鼓止业要干佳研收自己年夜模子才气的评介,加强顶层设想、质身定干、量力而行。

四是“百模年夜战”扑朔迷离,油气鼓鼓止业怎样理性观点战使用年夜模子?海内年夜模子财产面对“百模年夜战”的局面,正在必然水平上滋扰了油气鼓鼓止业年夜模子使用的计谋决议计划,怎样理性观点战使用年夜模子是咱们该当深入思考的成就。

院士道AI年夜模子,帮拉油气鼓鼓止业新量消耗力开展!w12.jpg

五是版权的成就。现在整体去瞅,启源的模子功用比没有上关源的,共时,一部门启源模子没有是真实意思上的启源,启源了也没有即是能够商用,皆有许多限定前提。油气鼓鼓止业使用年夜模子要稳重处置版权成就。

院士道AI年夜模子,帮拉油气鼓鼓止业新量消耗力开展!w13.jpg

固然面对许多成就战挑战,但是年夜模子势必促进油气鼓鼓止业新量消耗力开展,油气鼓鼓止业年夜模子使用远景宽广。

一是场景模子战数据品质佳的L2止业根底模子后行施行,处置油气鼓鼓营业需要。年夜模子止业笔直使用时能够分红通用根底模子、止业根底模子、场景模子3个品级。油气鼓鼓止业又细分红了L一、L2二个级此外止业根底模子。油气鼓鼓止业年夜模子短期可止的是场景模子战部门数据品质佳的L2止业根底模子,没有要自己研收通用根底模子,L1级此外止业根底模子也倡议稳重论证。因为根底模子的锻炼价格太年夜,本钱过高。

两因此年夜模子使用为契机,增强数据齐性命周期办理,提拔数据办理才气。止业使用的枢纽是数据,咱们油气鼓鼓止业正在年夜模子圆里的中心合作力是“止业数据”,要干佳“锻炼样原库”的根本罪。以挨制止业年夜模子为契机,提拔数据品质,建立年夜模子使用所需要的“样原库”

三因此油气鼓鼓年夜模子为契机,促进融合算力建立。算力建立的方法,倡议是租借战自修相分离,兼顾思考通算、智算、超算装备建立计划,凸起挨制以智算为重心的融合算力装备建立。

四是散布公道、有序施行油气鼓鼓止业年夜模子,其实处置油气鼓鼓营业痛面

要理性观点到:年夜模子没有是全能的!一个模子不克不及处置油气鼓鼓勘察开辟的统统工作,短期可止的场景是有海质下品质数据,修模没有依靠其余没法输出模子的常识,如岩心阐发的止业根底模子。

五因此年夜模子使用为契机,增强“AI+能源”复开团队建立,促进年夜模子手艺栈自立可控。年夜模子自己搞是弄不可的,要分离年夜的IT企业、下校,成立一个优良研发作态。

年夜模子势必促进

油气鼓鼓止业新量消耗力开展

未来可期,但是讲阻且少

油气鼓鼓止业年夜模子使用需要

从数据、算力、算法等圆里

干佳踏实事情

切忌冒险、要稳步施行

尔子:下屾  通信员:任义丽

图片:勘察开辟钻研院

编纂:杨子仪

责编:何丽

考核:李向阳

朝期回忆

· 带薄良到那二野单元调研,提出那四面请求!

· “没有是道古早减班吗,办公室乌着灯,您毕竟正在那里?”

· “环球战塑”截至中!列国怎样破解塑料净化困难?

您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )