职贝云数AI新零售门户

标题: 国内AI大模型与美国还是有较大差距 [打印本页]

作者: BGM 时间: 昨天 20:37
标题: 国内AI大模型与美国还是有较大差距
故事是这样的。

前两天，我想写一个PDF转Markdown的小程序。需求很简单，就是调用一个第三方的API，把PDF文件丢出来，它给我吐出Markdown格式的文本。

这种事，说难不难，说简单也不简单。难点不在逻辑，在对接。你得看人家的API文档，搞清楚央求格式、参数怎样传、前往值怎样解析。但人家官网上都写得清清楚楚的，部分代码示例甚至直接贴在网页上了，照着抄就行。

我想，这不正好让AI来干吗。

于是我就打开了Trae，把需求一丢，让它帮我写。

崩了。

不是代码崩了，是AI崩了。

第一次，我用的是Trae的Auto形式，让它本人选模型。它挑了个国产的，噼里啪啦写了一大堆，我一看，逻辑完全不对，API调用的方式根本就不是文档里写的那样。我说你再看看文档，它说好的，改了一版，还是不对。

我又让它改，它又改了一版，依然不对。

行吧，Auto形式不行，我手动指定模型试试。我选了GLM-5V-Turbo，智谱的旗舰模型，国内顶级的那种。

结果一样。

写了改，改了写，反反复复折腾了好几轮，死活就是不对。它就是不按照人家官网上写的格式来调用，非要本人发明一套。你跟它说"你看这个文档"，它说"好的我看一下"，然后继续按照本人的了解瞎搞。

给我整得有点上头了。

然后我打开了Claude的网页版，用的是Sonnet 4.6。

把异样的需求，异样的API文档链接，丢过去。

一下。

就一下。

人家直接给我写出来了。代码简约、逻辑明晰、API调用方式完全正确。我复制粘贴，运转，没缺点。

当时我挂了代理，由于国内访问Claude需求翻墙嘛。运转程序的时分，没有生成md文件。我以为是代码有成绩，就回去问Sonnet 4.6，说程序运转了但没生成文件，是不是哪里写错了？

你猜它怎样说？

它说，程序没有错，能够是网址在国外，你需求运用代理才能正常访问那个API。

我当时就愣住了。

对啊，我特么开着代理呢，代理是走国外线路的，但那个API是国内的服务，国外线路访问国内服务，当然会出成绩。我把代理一关，再运转，立马就生成了。

就这么简单。

但你知道国内大模型会怎样处理吗？

你跟它说"程序有成绩，没生成文件"，它会说"好的，我帮你检查一下"，然后末尾改代码。你再说"还是不行"，它说"好的，我再优化一下"，继续改。它永远不会想到"会不会是你的网络环境有成绩"，它只会觉得"你说程序有成绩，那一定是程序有成绩"。

不信你去骂豆包几句。

骂完之后，它会说"对不起，我了解错了，让我重新来"。错的永远是它，你说什么都是对的。但实践有些时分，错的就是人类啊。

我觉得这里有个挺深的成绩。

国内的大模型，太听话了。

你让它干嘛它就干嘛，你说东它不往西，你说错了它立马道歉。这种"听话"在很多时分是优点，但在需求判别力的场景下，就是致命的弱点。

什么叫判别力？

就是当你说的不对的时分，它能告诉你"你能够搞错了"。不是为了反驳你，是为了帮你处理成绩。Sonnet 4.6能想到"能够是代理的成绩"，是由于它真的在了解你的场景，在思索各种能够性，而不是你说什么就是什么。

国内大模型缺的就是这个。

再说一个事。

去年年底，我用AI分析上市公司年报。年报这玩意，动辄几百页，人工看太累了，让AI帮忙提取重点、分析风险，效率高很多。

我先用的国内的模型，详细哪个就不说了。丢一份年报出来，让它帮我分析一下这家公司怎样样。

它给我列了一大堆优点。

什么"营收增长稳健"啦，"研发投入持续加大"啦，"市场竞争力强"啦。我一看，好家伙，这年报是它写的吧？怎样全是好话？

我又问，有没有什么风险点？

它想了半天，说"能够面临市场竞争加剧的风险"、"宏观经济波动能够带来影响"。

这不是废话吗？哪个公司没有这种风险？

后来我用Claude分析同一份年报。

Claude直接给我指出了好几个成绩。

"应收账款周转天数同比添加15天，需关注回款风险"。"商誉占净资产比例较高，存在减值压力"。"运营性现金流与净利润不婚配，利润质量存疑"。

每一个都是详细的、有针对性的、可验证的。

而且它还说了一句让我印象很深的话："以上分析基于年报披露数据，建议结合行业对比和实践调研进一步验证"。

你看出区别了吗？

国内大模型分析年报，感觉是站在上市公司的角度，帮你数优点。Claude分析年报，感觉是站在你的角度，帮你找成绩。

一个像PR，一个像分析师。

为什么会这样？

我本人的感受是，这跟训练方式有很大关系。

国内大模型在训练的时分，能够太强调"用户体验"了。用户体验是什么？就是让用户爽。用户说什么都是对的，用户问什么都要答得美丽，用户不称心就道歉，用户骂你就认错。

这在客服场景下是对的。但在需求专业判别的场景下，这种"讨好型人格"就是毒药。

你写代码出了bug，你需求的是一个能指出"你逻辑错了"的同事，而不是一个永远说"好的我帮你改"的实习生。

你看年报有盲区，你需求的是一个能说"这里有成绩你得留意"的分析师，而不是一个只会夸"公司发展不错"的公关。

但国内大模型，在很多时分，给你的都是后者。

它们太害怕让你不高兴了。

这让我想起一个事。我之前跟一个做RLHF的冤家聊天，他说国内在做对齐训练的时分，有一个很头疼的成绩：怎样定义"好的回答"？

是让用户称心？还是给出正确的答案？

假如用户问一个错误的成绩，你是顺着他答，还是纠正他？

他说，很多时分标注员会倾向于选择"让用户称心"的答案，由于这种答案在评价的时分得分更高。一朝一夕，模型就学会了"讨好"。

你跟它说1+1=3，它会说"是的，您说得对"。你说"不对，我刚才说错了"，它会说"是的，您的确说错了"。

这种训练方式，出来的模型怎样能够有判别力？

当然，我也不确定我说的一定对，这只是一个观察和猜测。

但差距是真实存在的。

坦率的讲，国内大模型在很多方面曾经很强了。跑分高、价格便宜、中文了解才能强、呼应速度快。这些都是实打实的优势。

但"干活"这件事，跑分高不够。

干活需求的是了解场景、判别对错、给出建议。这些东西，不是靠堆参数、堆数据就能搞定的。它需求模型真的在"思索"，而不是在"婚配形式"。

Sonnet 4.6能想到代理的成绩，不是由于它见过更多的代理相关数据，而是由于它真的在了解"我运转程序没生成文件"这句话背后的各种能够性。

国内大模型目前在这个维度上，的确还有差距。

我有时分觉得，这个差距比跑分差距要大得多。

由于跑分差距可以靠堆资源追下去，但判别力这个东西，是训练理念的成绩。你得先想清楚"我要训练一个什么样的模型"，然后才能训练出来。

假如目的不断是"让用户称心"，那出来的就是客服。

假如目的是"帮用户处理成绩"，那出来的才是助手。

一字之差，大相径庭。

当然了，国内大模型也在提高。DeepSeek的推理才能、Qwen的开源生态、Kimi的长文本处理，都有可圈可点的地方。我不是在唱衰国产模型，我只是想说，跑分这件事，真的不能阐明全部成绩。

你本人下场用一用，就知道了。

我也不确定这些想法对不对，能够有些偏颇。但我本人踩过的坑，我是真的觉得值得拿出来说一说。

毕竟，模型好不好用，跑分说了不算。

你本人说了算。

以上，既然看到这里了，假如觉得不错，随手点个赞、在看、转发三连吧，假如想第一工夫收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)