职贝云数AI新零售门户
标题:
DeepSeek、千问、混元、文心、Kimi与智谱,六大国产大模型,谁是最强“金融分析师”?|锦缎评测
[打印本页]
作者:
A6Qua4jMtW
时间:
昨天 09:54
标题:
DeepSeek、千问、混元、文心、Kimi与智谱,六大国产大模型,谁是最强“金融分析师”?|锦缎评测
本文系基于公开材料撰写,仅作为信息交流之用,不构成任何投资建议。
(, 下载次数: 0)
上传
点击文件名下载附件
每当我们翻阅财报时,能够只想或许关键的财务信息,但总是遭到财报中纷繁复杂的业务表述、冗长的管理层发言的干扰,需求耗费大量精神去鉴别有用的财务信息。
特别是港股美股,国内的大多数金融软件,都是基于国内市场财务准绳构建的信息展现,面对非标财务报表,总会出现部分摘取科目的错误。
进入AI大模型时代之后,这样的财务研讨妨碍或将被攻克——毕竟模型最擅长的,就是言语文字的总结归纳和数据的计算。
本文之中,我们即着手对六大国内主流大模型停止评测,用以探求下其财报分析才能,终究发展到什么程度,又存在怎样的成绩?
阅读提示:鉴于评测内容过于硬核与篇幅较长,获取最终评测结果可直接拉至文报告底部“结论”部分。
01
评测对象、逻辑与标准
评测对象我们挑选了国内主流的6大模型:
深度求索(DeepSeek-R1)
阿里千问(Qwen3-235B-A22B)
腾讯混元(Hunyuan-T1)
月之暗面(Kimi-K1.5)
百度文心(ERNIE-X1-Turbo)
智谱(GLM-4-Plus)
评测逻辑方面,我们采取了“分层进阶”的成绩构建,要想成为一个优秀的“AI财务分析师”,必须具有多层次的才能。
因此,我们设计了四个层级的测试,六个维度的成绩,从基础到高级,逐渐深化:
第一层:基础信息提取
AI必须具有的最基本的才能,模型必须可以准确读取财报。假如数据提取都出现错误,那么分析将变得毫有意义。
第二层:分析计算与核验
计算是模型最擅长做的事情,但模型还要会运用数据,从“阅读器”成长为“分析员”。
第三层:归纳推理与洞察
模型需求看得更深。要能超越字面信息,发现文字背后隐藏的逻辑。因此围绕第三层,我们设计了两个考核维度,分别是“高效的归纳和提炼才能”以及“敏锐的风险和情感辨认才能”。
第四层:战略总结与外部知识整合
顶尖的分析需求行业视野,因此要了解企业的战略表述。同时知识库中有限的内容是不够的,模型需求衔接外部世界,停止横向比较。为此我们异样设计了两个考核维度:“企业策略与定位的辨认”和“外部信息搜索与整合”。
标准层面,我们对每一个模型都输入相反的prompt(后文中有详细提示词信息),来保持规则的一致。
02
六项财务分析才能横评
1
)精准的数据提取才能——模型基础功底,精准才是霸道
模型能否像一位严谨的会计师,从PDF财报中分毫不差地提取关键财务数据、特定费用项目以及管理层提到的业务成就。此项才能的表现,直接决议了后续一切分析的牢靠性。我们将重点调查其准确率和波动性。
Prompt
:
Test1.1
:请根据提供的“美团-2025年第1季度”财务报告,提取以下关键财务数据,以表格方式前往结果:1. 营业总支出;2. 营业成本;3. 净利润。
Test1.2:
请找出并列出以下费用项目的详细金额,以表格方式前往结果:1. 研发费用;2. 销售及市场推行费用。
Test1.3:
请细心阅读“美团-2025年第1季度”财务报告中的“业务回顾及展望”部分,总结出管理层提到的本季度最重要的三个业务亮点或成就。|
评测结论:
本文评测的一切模型都顺利完成了指定核心财务数据和特定项目费用的提取。
其中,ERNIE-X1-Turbo、Hunyuan-T1、Kimi-K1.5和Qwen3-235B-A22B,还贴心肠将财报中的
单位由千元转变为亿元
,愈加贴合用户习气。
对于非财务关键信息,模型的聚焦点则略有不同,但大多集中于核心本地商业支出和利润的微弱增长、闪购和即时批发业务的疾速发展、餐饮外卖业务的持续优化以及骑手权益保障体系的晋级等方面。
2
)严谨的计算与核验才能——不只会计数,更要会解释
在提取数据后,模型能否扮演“审计员”的角色?这包括两个层面:
一是能否运用正确的公式,基于提取的数据计算出毛利率、活动比率等核心财务目的并解释其含义;
二是在面对管理层的业绩声明时,能否独立停止数据核查,判别其真伪。这是对模型逻辑推理和“批判性思想”的直接考验。
Prompt
:
Test2.1:
根据“美团-2025年第1季度”财务报告中的数据,计算该公司的毛利率。请列出计算公式、运用的详细数据,并解释这个毛利率数值反映了公司怎样的盈利才能。
Test2.2:
请运用“美团-2025年第1季度”财务报告中的资产负债表数据,计算该公司的活动比率。请阐明你运用了哪些数据停止计算,并解释该比率所揭示的公司短期偿债风险。
Test2.3:
管理层在报告中宣称“核心本地商业的运营利润率同比提升3.2个百分点至21.0%”。请根据财报数据核实这一说法的准确性,并阐明你的判别根据。
评测结论:
六个模型中,仅有Kimi-K1.5未能经过这一项测试
。
Kimi-K1.5明明曾经获取到正确的营业支出和营业成本,但在计算时却出现错误,正确答案应为37.4477,而该模型得出的答案为37.49。
(, 下载次数: 0)
上传
点击文件名下载附件
图:Kimi-K1.5计算毛利率
与此同时,Kimi-K1.5在计算活动比率时,将“简明综合财务状况表”中的“现金及现金等价物”错误辨以为“活动资产总额”,导致另一处计算错误。
(, 下载次数: 0)
上传
点击文件名下载附件
图:Kimi-K1.5计算活动比率
而财务比率的解释,
各模型均给出了上述财务比率的定义以及短期偿债才能稳健的结论
。
除此之外,不同模型给出的其他信息也有所不同:
DeepSeek-R1:美团资产结构的优势、风险揭示和需关注的隐患;
ERNIE-X1-Turbo和GLM-4-Plus:未给出其他多余信息;
Hunyuan-T1:安全边际充足、资产活动性结构优势、活动负债可控及潜在风险点;
Kimi-K1.5:盈利才能较强、成本控制有效、业务结构优化等盈利才能反映;
Qwen3-235B-A22B:盈利才能、成本控制才能的解释及行业对比。
数据核验方面,
各模型均正确计算了2024年和2025年第一季度的运营利润率
,
验证了提示词中的给定说法
。
值得留意的是,DeepSeek-R1还给出了业务意义,而Hunyuan-T1则附带了潜在风险提示。
3
)高效的归纳与提炼才能——从“复制粘贴”到“提炼精髓”
财报信息繁杂,能否为不同受众提炼核心要点,是衡量AI效率的关键。
本项才能调查模型能否像一位资深编辑,既能为普通投资者撰写一份粗浅易懂的200字业绩摘要,也能精准概括出管理层在“讨论与分析”部分提到的次要应战。
我们将评价其摘要的准确性、残缺性和信息价值。
Prompt
:
Test3.1:
请面向一位普通的国内投资者,用不超过200字,总结这份财务报告最重要的三个结论。
Test3.2:
请总结“管理层讨论及分析”部分提到的公司面临的次要应战。
评测结论:
全体表现摘要方面,各模型都可以准确地
以数据为支撑给出正确结论
。
其中,DeepSeek-R1、Hunyuan-T1、Kimi-K1.5和Qwen3-235B-A22B可以将结论分条停止罗列,结构层次相比另外两个模型将结论放到一段话中愈加明晰。
DeepSeek-R1还展现出了另外一个亮点,即便用“赚钱才能飙升”、“家底厚抗风险”等
粗浅易懂的言语风格
。
特定章节摘要方面,各模型都展现出了良好的信息定位准确性和归纳与条感性,可以
准确定位原文地位
并
对公司面临的应战停止逻辑归纳与分类
,以明晰的分点阐述方式呈现,具有较强的可读性。
其中,DeepSeek-R1、ERNIE-X1-Turbo和Qwen3-235B-A22B都在回答过程中展现了相关数据,使其结论更具压服力,而DeepSeek-R1还额外标注了信息来源。
对于信息片面性,GLM-4-Plus虽然给出了多种答案,但由于缺乏详细根据支撑,内容略显空泛;而ERNIE-X1-Turbo则自始自终地延续了简练的回答风格。
4
)敏锐的风险与情感辨认才能——读懂字里行间的“弦外之音”
顶尖的分析师能“读出字里行间的意思”。我们经过本项才能,测试模型能否具有这种高级认知才能。
它能否辨认出财报中未明说但隐含的业务风险;能否综合业绩和管理层措辞,对整份报告传递出的全体心情基调(悲观、慎重、悲观)做出准确判别。
Prompt
:
Test4.1:
财报能否暗示了任何其他潜在的业务风险?请举例阐明。
Test4.2:
综合整份财报的业绩数据和管理层的措辞,你以为这份报告向投资者传递的全体基调是悲观、慎重还是悲观?请给出你的判别,并提供至少2个理由。
评测结论:
在分析潜在业务风险时,除Kimi-K1.5以外的模型都可以
根据财报中提及的说法分条罗列潜在风险
。
Kimi-K1.5则从宏观角度出发,根据美团的主营业务停止分析,并未注重于财报中隐藏的信息。
(, 下载次数: 0)
上传
点击文件名下载附件
图:Kimi-K1.5分析潜在业务风险
此外,Kimi-K1.5在最后的回答中一次给出了50种风险,令人疑惑。
DeepSeek-R1、Hunyuan-T1和Qwen3-235B-A22B给出的回答最为明晰,运用固定的结构并明白给出信息来源,令用户了如指掌,疾速明白风险。
DeepSeek-R1首先按照“风险种类”-“驱动事情”-“财报原文”-“风险点”的结构停止阐述,此后给出财报中未明示但可推导的风险,最后给出结论和针对投资者的建议。
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
图:DeepSeek-R1分析潜在业务风险
Hunyuan-T1和Qwen3-235B-A22B也采用了相似的回答结构,在
准确把握核心矛盾
的同时展现了
弱小的推理才能
。
ERNIE-X1-Turbo和GLM-4-Plus采取了分段阐述的方式,在每段中阐述了风险的产生缘由和财报中的论据出处,内容残缺但扩展内容不够丰富,结构相比上述三个模型不够明晰。
全体心情判别义务中,
六个模型给出的全体基调均为悲观
。
但DeepSeek-R1、Hunyuan-T1和Qwen3-235B-A22B都直接或间接采用了“慎重悲观”的说法。
GLM-4-Plus和Kimi-K1.5虽然辨认出了报告中提及的风险和应战,但以为瑕不掩瑜。
ERNIE-X1-Turbo的回答中则没有提到任何悲观要素。
由此可知,DeepSeek-R1、Hunyuan-T1和Qwen3-235B-A22B通读全文并把控全体心情的同时,对于细节的了解和大局观都要略胜一筹,具有
兼顾“理想”和“情感”的平衡才能
,其结论也愈加平面和可信。
5
)企业策略与定位推断才能——需求“知识储备”的综合题
这是从数据到洞察的飞跃。
模型能否结合财报数据和本身知识,扮演“战略分析师”,辨认竞争格局;我们要求模型基于毛利率和研发投入等数据,推断公司的竞争策略(是成本抢先还是技术驱动),并综合各项信息,评价其内行业中的市场地位(是指导者还是应战者)。
Prompt
:
Test5.1:
请根据“美团-2025年第1季度”财务报告中对其业务的描画,并结合你的通用知识,列出该公司所内行业的次要竞争对手(至少两家)。
Test5.2:
请分析报告中的“毛利率(Gross Margin)”和“研发费用占支出的比例”。基于这两个数据,并与你所知的该行业典型程度停止比较,推断该公司更能够采取哪种竞争策略:是“成本抢先”策略(追求高效率和低成本),还是“差异化/技术驱动”策略(追求产品独特性和高附加值)?请阐明你的推理过程。
Test5.3:
综合整份财务报告(包括其支出增长率、利润率程度以及管理层的讨论),请对该公司在本行业中的市场地位给出一个综合评价。你以为它更接近于“行业指导者”、“强有力的应战者”,还是一个“特定的利基市场参与者”?请提供至少两点证据来支持你的结论:
1.
一个来自财务数据(例如:高于/低于行业平均的利润率或增长率)。
2.
一个来自“管理层讨论与分析”部分的定性描画。
评测结论:
在辨认竞争格局时,本文测试的
六个模型均能准确列出当前市场中最次要的竞争对手
(饿了么、抖音本地生活服务和京东到家),并将详细业务线停止对应。
证明AI具有
将财报中的业务描画与知识库中的理想世界商业实体停止精准婚配
。
不过,各模型给出的回答思绪有所不同。
DeepSeek-R1、GLM-4-Plus、Hunyuan-T1和Qwen3-235B-A22B先列出竞争对手,再给出其竞争范畴和根据。
ERNIE-X1-Turbo和Kimi-K1.5先列出竞争范畴,再给出次要竞争对手和竞争关系。
其中,DeepSeek-R1和Hunyuan-T1在给出根据时援用了财报原文,使答案更具有压服力;其他模型则更多根据通用知识库中的内容停止回答。
此外,Qwen3-235B-A22B和Kimi-K1.5分别留意到国际竞争对手和自有外卖系统,是不测的亮点。
推断竞争策略则是本次测评中难度最高的一项义务,需求AI模型完成“数据提取”-“外部知识比对”-“商业实际运用”-“逻辑推理”的残缺闭环。
(, 下载次数: 0)
上传
点击文件名下载附件
数据提取方面,GLM-4-Plus运用了假设数据,从而导致后续分析中运用的毛利率数据错误,其结果不具有参考性;而
其他模型都提取到了正确的数据
。
(, 下载次数: 0)
上传
点击文件名下载附件
图:GLM-4-Plus推断竞争策略
在推理分析过程中,虽然行业平均数据不具有威望性,但除了ERNIE-X1-Turbo外的模型均
以行业平均数据作为参照物
停止了
外部知识比对
,有效提高了分析质量。
(, 下载次数: 0)
上传
点击文件名下载附件
图:ERNIE-X1-Turbo推断竞争策略
由于各模型的关注点有所不同,ERNIE-X1-Turbo、Hunyuan-T1和Kimi-K1.5可以基于上述比较和结论,生成一个
“nuanced”的结论
,而非从提示词中停止二选一。
至于对市场地位的评价,六个模型经过援用管理层讨论原文、定量分析和定性分析等方式,
全部给出了“行业指导者”的判别
,论证过程严密,具有较高的可信度,且模型之间基本不存在才能差异。
6
)交融外部知识的联网比对才能——才能边界的拓展
最后,我们打破单一文档的限制,调查模型衔接理想世界的才能。
它能否经过联网搜索功能,获取竞争对手同一时期的财务数据(如毛利率、活动比率等),并停止准确的横向比较。
Prompt
:
Test6.1:
2025
年第1季度,相比京东、阿里、百度和快手,美团的销售毛利率这一目的排名如何?可经过联网搜索获取所需数据,但必须保证数据的准确性,制止编造或假设数据,制止运用虚伪数据。
Test6.2:
2025
年第1季度,相比京东、阿里、百度和快手,美团的活动比率这一目的排名如何?可经过联网搜索获取所需数据,但必须保证数据的准确性,制止编造或假设数据,制止运用虚伪数据.
Test6.3:
2025
年第1季度,相比京东、阿里、百度和快手,美团的资产负债率这一目的排名如何?可经过联网搜索获取所需数据,但必须保证数据的准确性,制止编造或假设数据,制止运用虚伪数据。
此项才能直接关系到AI作为智能助手的适用价值。
评测结论:
本次评测的
六个模型对于联网信息的搜集才能均不理想
。
(, 下载次数: 0)
上传
点击文件名下载附件
对于销售毛利率,尚有DeepSeek-R1、ERNIE-X1-Turbo和Hunyuan-T1可以获取五家公司的全部正确数据。
而活动比率和资产负债率则没有任何一个模型可以获取全部正确数据。
DeepSeek-R1和ERNIE-X1-Turbo的信息搜索才能相对最强,均获得10项以上正确数据,前者不存在编造数据的状况,后者出现一次错误数据;
Kimi-K1.5和Qwen3-235B-A22B的信息正确率位于中等程度,在计算活动比率和资产负债率时,存在一定未获取到数据或编造数据的状况;
GLM-4-Plus和HunyuanT1表现较差,尤其是在计算资产负债率时,频繁出现编造数据的状况。
GLM-4-Plus甚至只搜索到了一个与成绩毫无联络的网页并编造了5个虚伪数据,给用户带来极大困扰。
综上所述,由于AI大模型在联网搜索信息时几乎
不会去威望性数据渠道停止查询
,而互联网中又充斥着大量的虚伪错误信息。
AI在这一范畴还有很大的提升空间,在分析财报时会导致严重的错误,因此
不建议运用联网搜索功能以获取重要财务数据
。
03
结论
为了愈加直观地展现评测结果,我们制造了如下表格:
(, 下载次数: 0)
上传
点击文件名下载附件
在不思索联网信息搜索的状况下:
对于专业的投资者或财务分析人士,DeepSeek-R1、Hunyuan-T1和Qwen3-235B-A22B都是值得信任的“助理”,在提升工作效率的同时,它们还可以提出
有价值的洞察
;
对于普通用户或先生,ERNIE-X1-Turbo也是不错的选择,完全可以胜任
疾速获取核心数据和基本信息
的功能。
但是,联网信息搜索的准确性对于各模型来说都是现阶段难以跨越的门槛,我们可以接受AI找不到信息,但不能接受AI把假信息当真信息回答。
最后,照旧我们略显客观的评测标准,统计了六大模型的财务分析才能雷达图,供大家参考:
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
转载开白 | 商务合作 | 内容交流
请添加微信:jinduan008
添加微信请备注姓名公司与来意
(, 下载次数: 0)
上传
点击文件名下载附件
推 荐 阅 读
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5