阿里巴巴通义尝试室拉出的,那是一个特地为评介野生智能智能体正在实在电阛阓景中表示而设想的基准尝试。钻研者觉得现有的 AI 尝试过于偏向教术实践,因而颠末野生到场的方法,从亚马逊等仄台提炼真正的用户需要,建立了涵盖营销战略、本钱订价战法令征询等七年夜范围的真战考题。尝试成果显现,固然GPT-4o战Gemini 1.5 Pro等顶尖模子正在简朴任务中表示优良,但是正在需要多步拉理战庞大计划的下易度贸易成就眼前,其准确率会年夜幅下滑。别的,钻研发明差别 AI 模子正在金融计较或者战略计划圆里展示出各自的专科劣势,表示了未来贸易使用可以需要由多个 AI 大师构成的假造团队。该基准颠末引进东西层级设想战每一季度静态革新体制,旨正在促进 AI 从简朴的谈天机械人退步为具备自立处置成就才气的数字职工。
一.探访AI正在贸易真战中的实在代价