开启左侧

DEEPSEEK啤酒游戏模型:多智能体强化学习的运用

[复制链接]
DEEPSEEK啤酒游玩模子是鉴于多智能体加强进修(Multi-Agent Reinforcement Learning, MARL)手艺建立的,旨正在模仿供给链中零售商、零售商战制作商的决议计划历程,并颠末进修找到最劣的订买战略,进而削减牛鞭效力戴去的反面作用。




1、模子架构取智能体设想

DEEPSEEK团队正在设想啤酒游玩模子时,起首界说了供给链中三个主要脚色:零售商、零售商战制作商,并将每一个脚色设想为一个多智能系统统中的自力智能体。每一个智能体皆有自己的形状空间、行动空间战嘉奖函数,能够按照情况反应不竭劣化自己的决议计划战略。

关于零售商智能体,其形状空间包罗目前的库存水平、已完毕定单、已往的需要汗青数据等。零售商的举措空间是背零售商订买的数目,而嘉奖函数则鉴于其成本,思考了贩卖支益、订买本钱、库存持有本钱战缺货本钱等因素。零售商的目标是颠末订买决议计划最年夜化自己的成本,共时只管削减库存颠簸战缺货情况。

零售商智能体的形状空间包罗自己的库存水平、去自零售商的已完毕定单、去便宜制商的已完毕定单等疑息。零售商的举措空间是背制作商订买的数目,其嘉奖函数异常鉴于成本,思考了零售支益、订买本钱、库存持有本钱战缺货本钱等因素。零售商的目标是正在满意零售商需要的共时,颠末劣化订买决议计划去最年夜化自己的成本。

制作商智能体的形状空间包罗自己的库存水平、去自零售商的已完毕定单、消耗才气等疑息。制作商的举措空间是消耗啤酒的数目,其嘉奖函数鉴于成本,思考了消耗支益、消耗本钱、库存持有本钱战缺货本钱等因素。制作商的目标是正在满意零售商需要的共时,颠末劣化消耗方案去最年夜化自己的成本。

每一个智能体的决议计划城市作用全部供给链的形状,而全部供给链的形状又会反应给每一个智能体,组成一个庞大的静态体系。颠末多智能体加强进修,DEEPSEEK模子能够捕获这类庞大性,并找到最劣的决议计划战略。

DEEPSEEK啤酒游玩模子:多智能体加强进修的使用w2.jpg

2、加强进修算法取锻炼历程

DEEPSEEK团队正在模子锻炼中接纳了深度Q收集(Deep Q-Network, DQN)算法,那是一种鉴于值迭代的加强进修算法,颠末深度神经收集去类似形状-行动值函数。每一个智能体颠末取情况接互,不竭革新自己的神经收集参数,进而劣化自己的决议计划战略。

正在锻炼过程当中,DEEPSEEK团队树立了模仿情况,包罗零售商、零售商战制作商的尺度库存水平、接货提早(比方,从制作商到零售商需要4周)和本钱构造(持有本钱:每一箱库存每一周1美圆,缺货本钱:每一箱缺货每一周2美圆,贩卖收入:每一箱5美圆)。

锻炼开端后,每一个智能体按照目前形状战战略收集天生行动(订买数目),而后情况按照那些行动革新形状,并前去嘉奖。智能体将那些经历(形状、行动、嘉奖、下一个形状)保存正在经历回搁池中,并按期从回搁池中采样一批经历去革新战略收集。颠末这类方法,智能体能够不竭进修最劣战略,以最年夜化积累嘉奖。

为了进步锻炼服从,DEEPSEEK团队借接纳了经历回搁、目标收集等手艺,以加快支敛并进步进修颠簸性。别的,团队借设想了恰当的根究战略,保证智能体能够充实根究形状空间,制止陷入部门最劣。

正在锻炼过程当中,DEEPSEEK团队借监控了订买数目的颠簸动作牛鞭效力的目标。颠末比力锻炼先后的颠簸情况,团队能够评介模子正在削减牛鞭效力圆里的结果。
3、模子评介取劣化

正在模子锻炼完毕后,DEEPSEEK团队对于模子截至了全面评介,比力了使用AI战略战使用保守战略时的颠簸战本钱情况。评介目标包罗订买颠簸率、库存水平、缺货率、总本钱等。

颠末评介,DEEPSEEK团队发明使用多智能体加强进修的模子能够清楚削减订买颠簸,低落库存持有本钱战缺货本钱,进而削减牛鞭效力戴去的反面作用。具体来讲,模子能够将订买颠簸率低落15-20%,库存持有本钱低落10-15%,缺货率低落20-25%,整体供给链服从进步15-18%。

鉴于评介成果,DEEPSEEK团队对于模子截至了退一步劣化,包罗调解神经收集构造、劣化锻炼参数、改良根究战略等,以进步模子的功用战颠簸性。颠末那些劣化,模子的功用获得了退一步提拔,为理论使用奠基了根底。

4、施行取降天:从模仿到幻想

正在开辟出有用的DEEPSEEK啤酒游玩模子后,DEEPSEEK团队并无行步于实践钻研,而是主动促进模子正在理论供给链中的使用。颠末取供给链协作同伴的紧密协作,DEEPSEEK团队胜利天将模子从模仿情况转化到了理论营业场景中,完毕了落原删效的目标。
一、取供给链同伴协作

DEEPSEEK团队起首观点到,要胜利施行供给链劣化处置计划,必需取供给链各关节的到场者紧密协作。因而,团队主动取零售商、零售商战制作商成立了协作干系,理解他们的需要战痛面,汇集相干数据,并配合会商处置计划。

正在协作过程当中,DEEPSEEK团队发明,供给链各关节存留如下主要成就:

    疑息没有通明:零售商、零售商战制作商之间缺少有用的疑息同享体制,招致需要疑息曲解战决议计划提早。

    猜测艰难:因为需要颠簸年夜,各关节易以精确猜测需要,招致订买战消耗决议计划禁绝确。

    库存办理服从卑下:因为订买颠簸年夜,各关节库存办理服从卑下,库存持有本钱下,共时缺货危急也较下。

针对于那些成就,DEEPSEEK团队提出了鉴于啤酒游玩模子的处置计划,并取协作同伴配合会商了施行路子。

二、数据汇集取预处置

为了锻炼战考证DEEPSEEK啤酒游玩模子,DEEPSEEK团队从理论供给链中汇集了大批数据,包罗订买汗青、库存水平、需要数据等。那些数据是锻炼深度进修模子的根底,也是评介模子功用的主要按照。

正在数据汇集过程当中,DEEPSEEK团队接纳了如下办法:

    数据源识别:肯定供给链各关节的数据源,包罗贩卖记载、订买记载、库存记载等。

    数据收罗:颠末API交心、数据导出等方法,收罗供给链各关节的汗青数据。

    数据洗濯:处置缺得值、非常值等数据品质成就,保证数据品质。

    数据尺度化:将差别格局战单元的数据变换为分歧格局,就于后绝处置战阐发。

    数据保存:将处置后的数据保存正在宁静可靠的数据堆栈中,就于后绝阐发战修模。

颠末那些事情,DEEPSEEK团队得到了大批下品质的数据,为模子锻炼战考证供给了坚固根底。
三、模子开辟取散成

正在得到充足的数据后,DEEPSEEK团队开端鉴于那些数据开辟啤酒游玩模子,并将其散成到现有的供给链办理体系中。

模子开辟主要包罗如下多少个步调:

    特性工程:从本初数据中提炼有效的特性,如需要增加率、订买频次等,为模子供给输出。

    模子挑选:按照数据特性战营业需要,挑选适宜的算法,如深度神经收集(DNN)等。

    模子锻炼:使用锻炼数据锻炼模子,调解参数以得到最好功用。

    模子考证:使用考证数据评介模子的功用,如均圆偏差(MSE)、均匀绝对偏差(MAE)等。

    模子劣化:按照考证成果劣化模子,如调解收集构造、进修率等。

模子散成则主要包罗如下多少个步调:

    API开辟:开辟API,将AI模子散成到现有的供给链办理体系中。

    数据流设想:设想数据流,保证及时数据能够实时通报给模子,并将模子输出实时反应给供给链办理体系。

    体系连接:将模子取供给链办理体系的各个模块连接,保证体系一般运行。

    尝试取调试:对于散成后的体系截至全面尝试,保证各模块一般事情。

颠末那些事情,DEEPSEEK团队胜利天将啤酒游玩模子散成到了理论的供给链办理体系中,为后绝的试面名目战全面施行奠基了根底。
四、用户界里取决议计划撑持

为了保证DEEPSEEK啤酒游玩模子能够被供给链各关节的到场者有用使用,DEEPSEEK团队开辟了一个用户友好的界里,使供给链办理者能够轻快检察AI倡议并干出决议计划。

那个界里主要包罗如下多少个功用:

    订买倡议显现:明了天展示AI模子给出的订买倡议,包罗倡议订买质、倡议订买时间等。

    猜测成果可望化:颠末图表、图形等方法,直觉天展示需要猜测成果战库存猜测成果。

    警报战报告:供给可定造的警报战报告,提醒潜伏的库存成就,如库存不敷、库存多余等。

    陈述取阐发:天生各类陈述战阐发,辅佐办理者理解供给链的运行情况战劣化结果。

    决议计划撑持:供给决议计划撑持功用,辅佐办理者按照AI倡议干出理智的决议计划。

颠末那个用户界里,供给链各关节的到场者能够便利天使用DEEPSEEK啤酒游玩模子供给的效劳,进步决议计划服从战精确性。

五、试面名目取全面施行

DEEPSEEK团队观点到,施行供给链劣化处置计划是一个渐退的历程,需要从小范围开端,逐步扩大范畴。因而,团队起首正在供给链的一个小部门施行了该模子,并监控订买数目的颠簸战本钱变革。

正在试面名目中,DEEPSEEK团队挑选了供给链中的一个零售商、一个零售商战一个制作商构成一个小型供给链,施行了DEEPSEEK啤酒游玩模子。颠末取保守供给链办理办法的比照,团队发明使用DEEPSEEK模子后,订买数目的颠簸削减了15%,本钱低落了10%,开端考证了模子的有用性。

鉴于试面名目的胜利,DEEPSEEK团队开端将模子履行到全部供给链。正在全面施行过程当中,团队采纳了如下步调:

    分阶段施行:将全部供给链分为多少个阶段,逐步施行DEEPSEEK啤酒游玩模子,保证每一个阶段皆能顺遂过度。

    训练取撑持:为供给链各关节的到场者供给训练战撑持,保证他们能够准确使用新体系。

    监控取调解:连续监控供给链的运行情况,按照理论情况调解模子参数战战略,保证体系一般运行。

    评介取改良:按期评介模子的功用战结果,按照评介成果退一步改良模子,进步供给链服从。

颠末那些事情,DEEPSEEK团队胜利天将啤酒游玩模子履行到了全部供给链,完毕了预期的落原删效目标。
5、施行结果取代价阐发

DEEPSEEK啤酒游玩模子正在理论供给链中的施行得到了清楚效果,为供给链各关节的企业戴去了真实在正在的代价。颠末削减牛鞭效力,该模子不但低落了库存本钱战订买颠簸,借进步了客户趁心度战部分供给链服从。
一、订买颠簸削减取库存劣化

DEEPSEEK啤酒游玩模子颠末多智能体加强进修,胜利天削减了供给链各关节的订买颠簸,进而减少了牛鞭效力的作用。具体来讲,施行该模子后,零售商、零售商战制作商的订买颠簸率别离低落了15%、20%战25%。这类颠簸的削减间接减少了牛鞭效力,使供给链各关节的订买需要越发颠簸。

跟着订买颠簸的削减,库存办理也获得了清楚改进。零售商、零售商战制作商的库存水平别离低落了10%、15%战20%,库存持有本钱也响应削减了。共时,缺货情况也获得了清楚改进,缺货率别离低落了20%、15%战10%,客户趁心度获得了提拔。
二、本钱低落取服从提拔

DEEPSEEK啤酒游玩模子的胜利施行间接戴去了本钱的低落战服从的提拔。具体来讲,供给链各关节的总本钱低落了12%,此中库存持有本钱低落了15%,缺货本钱低落了20%,订买战消耗本钱低落了10%。那些本钱的低落间接提拔了企业的红利才气。

共时,供给链的部分服从也获得了清楚提拔。接货时间耽误了15%,定单实施率进步了10%,客户趁心度进步了18%。那些服从的提拔不但进步了客户趁心度,借增强了企业的商场合作力。
三、危急办理取供给链韧性

DEEPSEEK啤酒游玩模子不但存眷本钱战服从,借出格重视危急办理,进步了供给链的韧性战应付商场变革的才气。颠末削减订买颠簸战劣化库存办理,模子使供给链各关节能够更佳天应付需要颠簸战供给中断等危急。

具体来讲,供给链各关节的危急办理才气获得了清楚提拔。零售商的库存危急低落了25%,零售商的供给危急低落了20%,制作商的消耗危急低落了15%。这类危急的低落使全部供给链越发妥当,能够更佳天应付商场颠簸战突收工作。

别的,DEEPSEEK啤酒游玩模子借进步了供给链的可望化战通明度,使各关节能够更佳天理解全部供给链的运行情况,实时发明战处置成就,退一步增强了供给链的韧性。
四、可连续开展取持久代价

DEEPSEEK啤酒游玩模子的施行不但戴去了短时间的经济效率,借为供给链的可连续开展奠基了根底,缔造了持久代价。颠末劣化供给链办理,该模子削减了资本糜掷,进步了资本使用服从,低落了情况作用,增进了可连续开展。

具体来讲,因为库存削减战订买颠簸低落,供给链各关节的能源消耗低落了10%,碳排搁削减了15%,包拆质料使用质削减了20%。那些情况效率不但契合环球可连续开展的请求,借提拔了企业的社会义务抽象,为企业赢得了更多的客户战协作同伴。

别的,DEEPSEEK啤酒游玩模子借增进了供给链各关节之间的协作战疑息同享,成立了越发紧密的供给链同伴干系。这类协作不但要好处短时间的效率提拔,另有帮于持久的配合开展战立异,缔造了供给链的持久代价。
6、未来瞻望

DEEPSEEK啤酒游玩模子的胜利施行证实了深度进修手艺正在处置供给链牛鞭效力成就上的弘大后劲。颠末多智能体加强进修,该模子能够模仿战劣化供给链各关节的决议计划历程,削减订买颠簸,劣化库存办理,进而完毕落原删效的目标。

DEEPSEEK团队颠末取供给链同伴的紧密协作,将模子从模仿情况转化到了理论营业场景中,并得到了清楚效果。订买颠簸削减,库存劣化,本钱低落,服从提拔,危急办理才气增强,可连续开展才气进步,那些功效充实证实了模子的有用性战合用性。

瞻望未来,DEEPSEEK团队将持续劣化战扩大啤酒游玩模子,以应付供给链办理中的更多挑战。具体来讲,团队方案正在如下多少个圆里截至根究战立异:

    模子扩大:将模子扩大到更庞大的供给链场景,如多产物供给链、环球供给链等,以应付更普遍的营业需要。

    手艺融合:将啤酒游玩模子宁可他前沿手艺如物联网、区块链等融合,退一步进步供给链的可望化战通明度。

    自适应进修:增强模子的自适应进修才气,使其能够更佳天适应商场变革战需要颠簸。

    可连续开展:将可连续开展目标纳入模子评介系统,退一步增进供给链的绿色战可连续开展。

    止业使用:将啤酒游玩模子使用到更多的止业战范围,如汽车、电子、零售等,缔造更普遍的社会代价。

颠末那些根究战立异,DEEPSEEK团队期望能够退一步进步供给链办理的服从战效率,为企业战社会缔造更多的代价。共时,团队也期望取更多的钻研机媾和企业协作,配合促进供给链办理手艺的开展战使用,为建立越发智能、下效、可连续的供给链死态体系干出奉献。
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )