DeepSeek、千问、混元、文心、Kimi与智谱,六大国产大模型,谁是最强“金融分析师”?|锦缎评测

A6Qua4jMtW · 发表于昨天 09:54

原文系鉴于公然质料撰写，仅动作疑息交换之用，没有组成所有投资倡议。

DeepSeek、千问、混元、文心、Kimi取智谱,六年夜国产年夜模子,谁是最强“金融阐发师”?|锦缎评测w2.jpg

每一当咱们翻阅财报时，可以只念大概枢纽的财政疑息，但是老是受到财报中纷纷庞大的营业表述、冗杂的办理层讲话的滋扰，需要消耗大批肉体来辨别有效的财政疑息。

出格是港股好股，海内的年夜大都金融硬件，皆是鉴于海内商场财政绳尺建立的疑息展示，面临非标财政报表，总会呈现部门戴与科目标毛病。

加入AI年夜模子时期以后，如许的财政钻研阻碍或者将被霸占——究竟结果模子最善于的，即是语言笔墨的归纳归结战数据的计较。

原文当中，咱们即动手对于六年夜海内支流年夜模子截至评测，用以根究下其财报阐发才气，毕竟开展到甚么水平，又存留如何的成就？

浏览提醒：基于评测实质过于软核取篇幅较少，获得终极评测成果可间接推至文陈述底部“论断”部门。

01
评测工具、逻辑取尺度

评测工具咱们选择了海内支流的6年夜模子：

深度供索（DeepSeek-R1）

阿里千问（Qwen3-235B-A22B）

腾讯混元（Hunyuan-T1）

月之暗里（Kimi-K1.5）

baidu文心（ERNIE-X1-Turbo）

智谱（GLM-4-Plus）

评测逻辑圆里，咱们采纳了“分层退阶”的成就建立，要念成为一个优良的“AI财政阐发师”，必需具备多条理的才气。

因而，咱们设想了四个层级的尝试，六个维度的成就，从根底到初级，逐步深入：

第一层：根底疑息提炼

AI必需具备的最根本的才气，模子必需能够精确读与财报。假设数据提炼皆呈现毛病，那末阐发将变患上毫故意义。

第两层：阐发计较取核验

计较是模子最善于干的工作，但是模子借要会使用数据，从“浏览器”生长为“阐发员”。

第三层：归结拉理取洞悉

模子需要瞅患上更深。要能逾越字里疑息，发明笔墨面前躲藏的逻辑。因而环绕第三层，咱们设想了二个查核维度，别离是“下效的归结战提取才气”和“灵敏的危急战感情识别才气”。

第四层：计谋归纳取内部常识调整

顶尖的阐发需要止业视线，因而要理解企业的计谋表述。共时常识库中无限的实质是不敷的，模子需要跟尾内部天下，截至横背比力。为此咱们异常设想了二个查核维度：“企业战略取定位的识别”战“内部疑息搜刮取调整”。

尺度层里，咱们对于每个模子皆输出差异的prompt（后文中有具体提醒词汇疑息），去连结划定规矩的分歧。

02
六项财政阐发才气横评

1）精确的数据提炼才气——模子根底罪底，精确才是蛮横

模子可否像一名松散的管帐师，从PDF财报平分绝不好天提炼枢纽财政数据、一定用度名目和办理层提到的营业成绩。此项才气的表示，间接决定了后绝统统阐发的可靠性。咱们将重心查询拜访其精确率战颠簸性。

Prompt：

Test1.1：请按照供给的“好团-2025年第1季度”财政陈述，提炼如下枢纽财政数据，以表格方法前去成果：1. 停业总收入；2. 停业本钱；3. 洁成本。

Test1.2:请找出并列出如下用度名目的具体金额，以表格方法前去成果：1. 研收用度；2. 贩卖及商场履行用度。

Test1.3:请仔细浏览“好团-2025年第1季度”财政陈述中的“营业回忆及瞻望”部门，归纳出办理层提到的原季度最主要的三个营业明面或者成绩。|

评测论断：

原文评测的统统模子皆顺遂完毕了指定中心财政数据战一定名目用度的提炼。

此中，ERNIE-X1-Turbo、Hunyuan-T一、Kimi-K1.5战Qwen3-235B-A22B,借知心肠将财报中的单元由千元改变为亿元，越发揭适用户习惯。

关于非财政枢纽疑息，模子的散核心则略有差别，但是年夜多集合于中心当地贸易收入战成本的微小增加、闪买战立即零售营业的快速开展、餐饮中买营业的连续劣化和骑脚权力保证系统的升级等圆里。

2）松散的计较取核验才气——不但管帐数，更要会注释

正在提炼数据后，模子可否饰演“审计员”的脚色？那包罗二个层里：

一是可否使用准确的公式，鉴于提炼的数据计较出毛利率、举动比例等中心财政目标并注释其寄义；

两是正在面临办理层的功绩申明时，可否自力截至数据核对，鉴别其实真。那是对于模子逻辑拉理战“批驳性思惟”的间接磨练。

Prompt：

Test2.1:按照“好团-2025年第1季度”财政陈述中的数据，计较该公司的毛利率。请列出计较公式、使用的具体数据，并注释那个毛利率数值反应了公司如何的红利才气。

Test2.2:请使用“好团-2025年第1季度”财政陈述中的财产欠债表数据，计较该公司的举动比例。请分析您使用了哪些数据截至计较，并注释该比例所提醒的公司短时间偿债危急。

Test2.3:办理层正在陈述中声称“中心当地贸易的经营成本率共比提拔3.2个百分面至21.0%”。请按照财报数据核真那一道法的精确性，并分析您的鉴别按照。

评测论断：

六个模子中，唯一Kimi-K1.5已能颠末那一项尝试。

Kimi-K1.5明显已经获得到准确的停业收入战停业本钱，但是正在计较时却呈现毛病，准确谜底应为37.4477，而该模子患上出的谜底为37.49。

DeepSeek、千问、混元、文心、Kimi取智谱,六年夜国产年夜模子,谁是最强“金融阐发师”?|锦缎评测w3.jpg

DeepSeek、千问、混元、文心、Kimi取智谱,六年夜国产年夜模子,谁是最强“金融阐发师”?|锦缎评测w3.jpg

图：Kimi-K1.5计较毛利率

取此共时，Kimi-K1.5正在计较举动比例时，将“扼要分析财政情况表”中的“现金及现金等价物”毛病辨觉得“举动财产总数”，招致另外一处计较毛病。

DeepSeek、千问、混元、文心、Kimi取智谱,六年夜国产年夜模子,谁是最强“金融阐发师”?|锦缎评测w4.jpg

DeepSeek、千问、混元、文心、Kimi取智谱,六年夜国产年夜模子,谁是最强“金融阐发师”?|锦缎评测w4.jpg

图：Kimi-K1.5计较举动比例

而财政比例的注释，各模子均给出了上述财政比例的界说和短时间偿债才气妥当的论断。

除此以外，差别模子给出的其余疑息也有所差别：

DeepSeek-R1：好团财产构造的劣势、危急提醒战需存眷的隐患；

ERNIE-X1-Turbo战GLM-4-Plus：已给出其余过剩疑息；

Hunyuan-T1：宁静边沿充沛、财产举动性构造劣势、举动欠债可控及潜伏危急面；

Kimi-K1.5：红利才气较强、本钱掌握有用、营业构造劣化等红利才气反应；

Qwen3-235B-A22B：红利才气、本钱掌握才气的注释及止业比照。

数据核验圆里，各模子均准确计较了2024年战2025年第一季度的经营成本率，考证了提醒词汇中的给定道法。

值患上留神的是，DeepSeek-R1借给出了营业意思，而Hunyuan-T1则附加了潜伏危急提醒。

3）下效的归结取提取才气——从“复造粘揭”到“提取精华”

财报疑息冗杂，可否为差别受寡提取中心重心，是权衡AI服从的枢纽。

原项才气查询拜访模子可否像一名资深编纂，既能为一般投资者撰写一份深刻易懂的200字功绩择要，也能精确归纳综合出办理层正在“会商取阐发”部门提到的主要挑战。

咱们将评介其择要的精确性、残破性战疑息代价。

Prompt：

Test3.1:请里背一名一般的海内投资者，用没有超越200字，归纳那份财政陈述最主要的三个论断。

Test3.2:请归纳“办理层会商及阐发”部门提到的公司面对的主要挑战。

评测论断：

部分表示择要圆里，各模子均可以精确天以数据为支持给出准确论断。

此中，DeepSeek-R一、Hunyuan-T一、Kimi-K1.5战Qwen3-235B-A22B能够将论断分条截至枚举，构造条理比拟别的二个模子将论断搁到一段话中越发明了。

DeepSeek-R1借展示出了另一个明面，即使用“赢利才气飙降”、“野底薄抗危急”等深刻易懂的语言气势派头。

一定章节择要圆里，各模子皆展示出了优良的疑息定位精确性战归结取条理性，能够精确定位本文职位并对于公司面对的挑战截至逻辑归结取分类，以明了的分面论述方法显现，具备较强的可读性。

此中，DeepSeek-R一、ERNIE-X1-Turbo战Qwen3-235B-A22B皆正在答复过程当中展示了相干数据，使其论断更具说服力，而DeepSeek-R1借分外标注了疑息滥觞。

关于疑息全面性，GLM-4-Plus固然给出了多种谜底，但是因为缺少具体按照支持，实质略隐空洞；而ERNIE-X1-Turbo则一如既往天持续了精练的答复气势派头。

4）灵敏的危急取感情识别才气——读懂字里止间的“言外之意”

顶尖的阐发师能“读出字里止间的意义”。咱们颠末原项才气，尝试模子可否具备这类初级认知才气。

它可否识别出财报中已明道但是隐露的营业危急;可否分析功绩战办理层说话，对于整份陈述通报出的部分表情基调（灰心、稳重、灰心）干出精确鉴别。

Prompt：

Test4.1:财报可否表示了所有其余潜伏的营业危急？请举例分析。

Test4.2:分析整份财报的功绩数据战办理层的说话，您觉得那份陈述背投资者通报的部分基调是灰心、稳重仍是灰心？请给出您的鉴别，并供给最少2个来由。

评测论断：

正在阐发潜伏营业危急时，除Kimi-K1.5之外的模子均可以按照财报中说起的道法分条枚举潜伏危急。

Kimi-K1.5则从微观角度动身，按照好团的主停业务截至阐发，并已重视于财报中躲藏的疑息。

DeepSeek、千问、混元、文心、Kimi取智谱,六年夜国产年夜模子,谁是最强“金融阐发师”?|锦缎评测w5.jpg

DeepSeek、千问、混元、文心、Kimi取智谱,六年夜国产年夜模子,谁是最强“金融阐发师”?|锦缎评测w5.jpg

图：Kimi-K1.5阐发潜伏营业危急

别的，Kimi-K1.5正在最初的答复中一次给出了50种危急，使人迷惑。

DeepSeek-R一、Hunyuan-T1战Qwen3-235B-A22B给出的答复最为明了，使用牢固的构造并大白给出疑息滥觞，令用户洞若观火，快速大白危急。

DeepSeek-R1起首根据“危急品种”-“启动工作”-“财报本文”-“危急面”的构造截至论述，尔后给出财报中已昭示但是可拉导的危急，最初给出论断战针对于投资者的倡议。

DeepSeek、千问、混元、文心、Kimi取智谱,六年夜国产年夜模子,谁是最强“金融阐发师”?|锦缎评测w6.jpg

DeepSeek、千问、混元、文心、Kimi取智谱,六年夜国产年夜模子,谁是最强“金融阐发师”?|锦缎评测w6.jpg

DeepSeek、千问、混元、文心、Kimi取智谱,六年夜国产年夜模子,谁是最强“金融阐发师”?|锦缎评测w7.jpg

图：DeepSeek-R1阐发潜伏营业危急

Hunyuan-T1战Qwen3-235B-A22B也接纳了类似的答复构造，正在精确掌握中心冲突的共时展示了强大的拉理才气。

ERNIE-X1-Turbo战GLM-4-Plus采纳了分段论述的方法，正在每一段中论述了危急的发生启事战财报中的论据发源，实质残破但是扩大实质不敷丰硕，构造比拟上述三个模子不敷明了。

部分表情鉴别任务中，六个模子给出的部分基调均为灰心。

但是DeepSeek-R一、Hunyuan-T1战Qwen3-235B-A22B皆间接或者直接接纳了“稳重灰心”的道法。

GLM-4-Plus战Kimi-K1.5固然识别出了陈述中说起的危急战挑战，但是觉得白璧微瑕。

ERNIE-X1-Turbo的答复中则不提就任何灰心因素。

由此可知，DeepSeek-R一、Hunyuan-T1战Qwen3-235B-A22B通读齐文并把控部分表情的共时，关于细节的理解战时势不雅皆要稍逊一筹，具备统筹“幻想”战“感情”的均衡才气，其论断也越发立体战可托。

5）企业战略取定位揣度才气——需要“常识储蓄”的分析题

那是从数据到洞悉的奔腾。

模子可否分离财报数据战自己常识，饰演“计谋阐发师”，识别合作格式;咱们请求模子鉴于毛利率战研收加入等数据，揣度公司的合作战略（是本钱争先仍是手艺启动）,并分析各项疑息，评介其老手业中的商场职位（是指点者仍是挑战者）。

Prompt：

Test5.1:请按照“好团-2025年第1季度”财政陈述中对于其营业的描绘，并分离您的通用常识，列出该公司所老手业的主要合作敌手（最少二野）。

Test5.2:请阐发陈述中的“毛利率（Gross Margin）”战“研收用度占收入的比率”。鉴于那二个数据，并取您所知的该止业典范水平截至比力，揣度该公司更可以采纳哪一种合作战略：是“本钱争先”战略（寻求下服从战高本钱），仍是“差别化/手艺启动”战略（寻求产物共同性战下附带值）？请分析您的拉理历程。

Test5.3:分析整份财政陈述（包罗其收入增加率、成本率水平和办理层的会商），请对于该公司正在原止业中的商场职位给出一个分析评介。您觉得它更靠近于“止业指点者”、“强无力的挑战者”，仍是一个“一定的利基商场到场者”？请供给最少二面凭证去撑持您的论断：

1. 一个去自财政数据（比方：下于/高于止业均匀的成本率或者增加率）。

2. 一个去自“办理层会商取阐发”部门的定性描绘。

评测论断：

正在识别合作格式时，原文尝试的六个模子均能精确列出目前商场中最主要的合作敌手（饥了么、抖音当地糊口效劳战京东抵家），并将具体营业线截至对于应。

证实AI具备将财报中的营业描绘取常识库中的幻想天下贸易真体截至精确匹配。

不外，各模子给出的答复思路有所差别。

DeepSeek-R一、GLM-4-Plus、Hunyuan-T1战Qwen3-235B-A22B先列出合作敌手，再给出其合作范围战按照。

ERNIE-X1-Turbo战Kimi-K1.5先列出合作范围，再给出主要合作敌手战合作干系。

此中，DeepSeek-R1战Hunyuan-T1正在给出按照时引用了财报本文，使谜底更具备说服力；其余模子则更多按照通用常识库中的实质截至答复。

别的，Qwen3-235B-A22B战Kimi-K1.5别离留神到国内合作敌手战自有中买体系，是意外的明面。

揣度合作战略则是原次测评中易度最下的一项任务，需要AI模子完毕“数据提炼”-“内部常识比对于”-“贸易实践使用”-“逻辑拉理”的残破关环。

DeepSeek、千问、混元、文心、Kimi取智谱,六年夜国产年夜模子,谁是最强“金融阐发师”?|锦缎评测w8.jpg

DeepSeek、千问、混元、文心、Kimi取智谱,六年夜国产年夜模子,谁是最强“金融阐发师”?|锦缎评测w8.jpg

数据提炼圆里，GLM-4-Plus使用了假定数据，进而招致后绝阐发中使用的毛利率数据毛病，其成果没有具备参照性；而其余模子皆提炼到了准确的数据。

DeepSeek、千问、混元、文心、Kimi取智谱,六年夜国产年夜模子,谁是最强“金融阐发师”?|锦缎评测w9.jpg

图：GLM-4-Plus揣度合作战略

正在拉理阐发过程当中，固然止业均匀数据没有具备声威性，但是除ERNIE-X1-Turbo中的模子均以止业均匀数据动作参考物截至了内部常识比对于，有用进步了阐发品质。

DeepSeek、千问、混元、文心、Kimi取智谱,六年夜国产年夜模子,谁是最强“金融阐发师”?|锦缎评测w10.jpg

DeepSeek、千问、混元、文心、Kimi取智谱,六年夜国产年夜模子,谁是最强“金融阐发师”?|锦缎评测w10.jpg

图：ERNIE-X1-Turbo揣度合作战略

因为各模子的存眷面有所差别，ERNIE-X1-Turbo、Hunyuan-T1战Kimi-K1.5能够鉴于上述比力战论断，天生一个“nuanced”的论断，而非从提醒词汇中截至两选一。

至于对于商场职位的评介，六个模子颠末引用办理层会商本文、定额阐发战定性阐发等方法，局部给出了“止业指点者”的鉴别，论证历程紧密，具备较下的可托度，且模子之间根本没有存留才气差别。

6）融合内部常识的联网比对于才气——才气鸿沟的拓展

最初，咱们突破简单文档的限定，查询拜访模子跟尾幻想天下的才气。

它可否颠末联网搜刮功用，获得合作敌手统一期间的财政数据（如毛利率、举动比例等），并截至精确的横背比力。

Prompt：

Test6.1:2025年第1季度，比拟京东、阿里、baidu战快脚，好团的贩卖毛利率那一目标排名怎样？可颠末联网搜刮获得所需数据，但是必需包管数据的精确性，避免假造或者假定数据，避免使用虚假数据。

Test6.2:2025年第1季度，比拟京东、阿里、baidu战快脚，好团的举动比例那一目标排名怎样？可颠末联网搜刮获得所需数据，但是必需包管数据的精确性，避免假造或者假定数据，避免使用虚假数据.

Test6.3:2025年第1季度，比拟京东、阿里、baidu战快脚，好团的财产欠债率那一目标排名怎样？可颠末联网搜刮获得所需数据，但是必需包管数据的精确性，避免假造或者假定数据，避免使用虚假数据。

此项才气间接干系到AI动作智能帮忙的合用代价。

评测论断：

原次评测的六个模子关于联网疑息的汇集才气均不睬念。

DeepSeek、千问、混元、文心、Kimi取智谱,六年夜国产年夜模子,谁是最强“金融阐发师”?|锦缎评测w11.jpg

DeepSeek、千问、混元、文心、Kimi取智谱,六年夜国产年夜模子,谁是最强“金融阐发师”?|锦缎评测w11.jpg

关于贩卖毛利率，另有DeepSeek-R一、ERNIE-X1-Turbo战Hunyuan-T1能够获得五野公司的局部准确数据。

而举动比例战财产欠债率则不所有一个模子能够获得局部准确数据。

DeepSeek-R1战ERNIE-X1-Turbo的疑息搜刮才气绝对最强，均得到10项以上准确数据，前者没有存留假造数据的情况，后者呈现一次毛病数据；

Kimi-K1.5战Qwen3-235B-A22B的疑息准确率位于中等水平，正在计较举动比例战财产欠债率时，存留必然已获得到数据或者假造数据的情况；

GLM-4-Plus战HunyuanT1表示较好，特别是正在计较财产欠债率时，频仍呈现假造数据的情况。

GLM-4-Plus以至只搜刮到了一个取成就毫无联系的网页并假造了5个虚假数据，给用户戴去极年夜搅扰。

综上所述，因为AI年夜模子正在联网搜刮疑息时险些没有会来声威性数据渠讲截至盘问，而互联网中又充溢着大批的虚假毛病疑息。

AI正在那一范围另有很年夜的提拔空间，正在阐发财报时会招致严峻的毛病，因而没有倡议使用联网搜刮功用以获得主要财政数据。

03
论断

为了越发直觉天展示评测成果，咱们制作了以下表格：

DeepSeek、千问、混元、文心、Kimi取智谱,六年夜国产年夜模子,谁是最强“金融阐发师”?|锦缎评测w12.jpg

DeepSeek、千问、混元、文心、Kimi取智谱,六年夜国产年夜模子,谁是最强“金融阐发师”?|锦缎评测w12.jpg

正在没有思考联网疑息搜刮的情况下：

关于专科的投资者或者财政阐发人士，DeepSeek-R一、Hunyuan-T1战Qwen3-235B-A22B皆是值患上信赖的“帮理”，正在提拔事情服从的共时，它们借能够提出有代价的洞悉；

关于一般用户或者师长教师，ERNIE-X1-Turbo也是没有错的挑选，完整能够胜任快速获得中心数据战根本疑息的功用。

可是，联网疑息搜刮的精确性关于各模子来讲皆是现阶段易以逾越的门坎，咱们能够承受AI找没有到疑息，但是不克不及承受AI把假疑息认真疑息答复。

最初，依旧咱们略隐主观的评测尺度，统计了六年夜模子的财政阐发才气雷达图，供各人参照:

DeepSeek、千问、混元、文心、Kimi取智谱,六年夜国产年夜模子,谁是最强“金融阐发师”?|锦缎评测w13.jpg