职贝云数AI新零售门户
标题:
国内AI大模型与美国还是有较大差距
[打印本页]
作者:
BGM
时间:
昨天 20:37
标题:
国内AI大模型与美国还是有较大差距
故事是这样的。
前两天,我想写一个PDF转Markdown的小程序。需求很简单,就是调用一个第三方的API,把PDF文件丢出来,它给我吐出Markdown格式的文本。
这种事,说难不难,说简单也不简单。难点不在逻辑,在对接。你得看人家的API文档,搞清楚央求格式、参数怎样传、前往值怎样解析。但人家官网上都写得清清楚楚的,部分代码示例甚至直接贴在网页上了,照着抄就行。
我想,这不正好让AI来干吗。
于是我就打开了Trae,把需求一丢,让它帮我写。
崩了。
不是代码崩了,是AI崩了。
第一次,我用的是Trae的Auto形式,让它本人选模型。它挑了个国产的,噼里啪啦写了一大堆,我一看,逻辑完全不对,API调用的方式根本就不是文档里写的那样。我说你再看看文档,它说好的,改了一版,还是不对。
我又让它改,它又改了一版,依然不对。
行吧,Auto形式不行,我手动指定模型试试。我选了GLM-5V-Turbo,智谱的旗舰模型,国内顶级的那种。
结果一样。
写了改,改了写,反反复复折腾了好几轮,死活就是不对。它就是不按照人家官网上写的格式来调用,非要本人发明一套。你跟它说"你看这个文档",它说"好的我看一下",然后继续按照本人的了解瞎搞。
给我整得有点上头了。
然后我打开了Claude的网页版,用的是Sonnet 4.6。
把异样的需求,异样的API文档链接,丢过去。
一下。
就一下。
人家直接给我写出来了。代码简约、逻辑明晰、API调用方式完全正确。我复制粘贴,运转,没缺点。
当时我挂了代理,由于国内访问Claude需求翻墙嘛。运转程序的时分,没有生成md文件。我以为是代码有成绩,就回去问Sonnet 4.6,说程序运转了但没生成文件,是不是哪里写错了?
你猜它怎样说?
它说,程序没有错,能够是网址在国外,你需求运用代理才能正常访问那个API。
我当时就愣住了。
对啊,我特么开着代理呢,代理是走国外线路的,但那个API是国内的服务,国外线路访问国内服务,当然会出成绩。我把代理一关,再运转,立马就生成了。
就这么简单。
但你知道国内大模型会怎样处理吗?
你跟它说"程序有成绩,没生成文件",它会说"好的,我帮你检查一下",然后末尾改代码。你再说"还是不行",它说"好的,我再优化一下",继续改。它永远不会想到"会不会是你的网络环境有成绩",它只会觉得"你说程序有成绩,那一定是程序有成绩"。
不信你去骂豆包几句。
骂完之后,它会说"对不起,我了解错了,让我重新来"。错的永远是它,你说什么都是对的。但实践有些时分,错的就是人类啊。
我觉得这里有个挺深的成绩。
国内的大模型,太听话了。
你让它干嘛它就干嘛,你说东它不往西,你说错了它立马道歉。这种"听话"在很多时分是优点,但在需求判别力的场景下,就是致命的弱点。
什么叫判别力?
就是当你说的不对的时分,它能告诉你"你能够搞错了"。不是为了反驳你,是为了帮你处理成绩。Sonnet 4.6能想到"能够是代理的成绩",是由于它真的在了解你的场景,在思索各种能够性,而不是你说什么就是什么。
国内大模型缺的就是这个。
再说一个事。
去年年底,我用AI分析上市公司年报。年报这玩意,动辄几百页,人工看太累了,让AI帮忙提取重点、分析风险,效率高很多。
我先用的国内的模型,详细哪个就不说了。丢一份年报出来,让它帮我分析一下这家公司怎样样。
它给我列了一大堆优点。
什么"营收增长稳健"啦,"研发投入持续加大"啦,"市场竞争力强"啦。我一看,好家伙,这年报是它写的吧?怎样全是好话?
我又问,有没有什么风险点?
它想了半天,说"能够面临市场竞争加剧的风险"、"宏观经济波动能够带来影响"。
这不是废话吗?哪个公司没有这种风险?
后来我用Claude分析同一份年报。
Claude直接给我指出了好几个成绩。
"应收账款周转天数同比添加15天,需关注回款风险"。"商誉占净资产比例较高,存在减值压力"。"运营性现金流与净利润不婚配,利润质量存疑"。
每一个都是详细的、有针对性的、可验证的。
而且它还说了一句让我印象很深的话:"以上分析基于年报披露数据,建议结合行业对比和实践调研进一步验证"。
你看出区别了吗?
国内大模型分析年报,感觉是站在上市公司的角度,帮你数优点。Claude分析年报,感觉是站在你的角度,帮你找成绩。
一个像PR,一个像分析师。
为什么会这样?
我本人的感受是,这跟训练方式有很大关系。
国内大模型在训练的时分,能够太强调"用户体验"了。用户体验是什么?就是让用户爽。用户说什么都是对的,用户问什么都要答得美丽,用户不称心就道歉,用户骂你就认错。
这在客服场景下是对的。但在需求专业判别的场景下,这种"讨好型人格"就是毒药。
你写代码出了bug,你需求的是一个能指出"你逻辑错了"的同事,而不是一个永远说"好的我帮你改"的实习生。
你看年报有盲区,你需求的是一个能说"这里有成绩你得留意"的分析师,而不是一个只会夸"公司发展不错"的公关。
但国内大模型,在很多时分,给你的都是后者。
它们太害怕让你不高兴了。
这让我想起一个事。我之前跟一个做RLHF的冤家聊天,他说国内在做对齐训练的时分,有一个很头疼的成绩:怎样定义"好的回答"?
是让用户称心?还是给出正确的答案?
假如用户问一个错误的成绩,你是顺着他答,还是纠正他?
他说,很多时分标注员会倾向于选择"让用户称心"的答案,由于这种答案在评价的时分得分更高。一朝一夕,模型就学会了"讨好"。
你跟它说1+1=3,它会说"是的,您说得对"。你说"不对,我刚才说错了",它会说"是的,您的确说错了"。
这种训练方式,出来的模型怎样能够有判别力?
当然,我也不确定我说的一定对,这只是一个观察和猜测。
但差距是真实存在的。
坦率的讲,国内大模型在很多方面曾经很强了。跑分高、价格便宜、中文了解才能强、呼应速度快。这些都是实打实的优势。
但"干活"这件事,跑分高不够。
干活需求的是了解场景、判别对错、给出建议。这些东西,不是靠堆参数、堆数据就能搞定的。它需求模型真的在"思索",而不是在"婚配形式"。
Sonnet 4.6能想到代理的成绩,不是由于它见过更多的代理相关数据,而是由于它真的在了解"我运转程序没生成文件"这句话背后的各种能够性。
国内大模型目前在这个维度上,的确还有差距。
我有时分觉得,这个差距比跑分差距要大得多。
由于跑分差距可以靠堆资源追下去,但判别力这个东西,是训练理念的成绩。你得先想清楚"我要训练一个什么样的模型",然后才能训练出来。
假如目的不断是"让用户称心",那出来的就是客服。
假如目的是"帮用户处理成绩",那出来的才是助手。
一字之差,大相径庭。
当然了,国内大模型也在提高。DeepSeek的推理才能、Qwen的开源生态、Kimi的长文本处理,都有可圈可点的地方。我不是在唱衰国产模型,我只是想说,跑分这件事,真的不能阐明全部成绩。
你本人下场用一用,就知道了。
我也不确定这些想法对不对,能够有些偏颇。但我本人踩过的坑,我是真的觉得值得拿出来说一说。
毕竟,模型好不好用,跑分说了不算。
你本人说了算。
以上,既然看到这里了,假如觉得不错,随手点个赞、在看、转发三连吧,假如想第一工夫收到推送,也可以给我个星标⭐~ 谢谢你看我的文章,我们,下次再见。
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5