职贝云数AI新零售门户

标题: AI写公文,谁最能打?11款大模型实测对比 [打印本页]

作者: BGM    时间: 昨天 06:20
标题: AI写公文,谁最能打?11款大模型实测对比
最近 AI 遍地开花,推理、编程、Agent 方向你追我赶。但作为一个小卡拉米,最接地气的需求恐怕还是公文写作——哪家模型的公文才能最强?带着这个疑问,我做了一次简单的横评。
参测阵容11 MODELS
●DeepSeek专家形式 ●GLM5.1+深度思索 ●Kimi2.6 思索 ●MiMo2.5 Pro ●通义千问3.7Max+思索 ●新华妙笔DS V4Pro ●MiniMaxM3+Agent ●豆包专家形式 ●GPT网页版 ●Claude4.8 ●Gemini3.5 Flash●国内模型 ●国外模型为公平起见,全部运用各家网页版聊天模型,不调 API、不上专业工具。国外模型是托一个哥们儿帮忙测的。测试分三轮:一是公文润饰,看 AI 怎样给国务院的文件“动刀”;二是病句纠错,看谁能精准揪出缺点;三是大白话转公文,看谁写得最像那么回事。01ROUND ONE
公文润饰
我从政府网摘取了一段国务院办公厅的政策原文,交给各家模型润饰。原文正确处理城市建设与文明遗产保护的关系,摸清文物资源家底,加强文物保护,完善“先调查、后建设”、“先考古、后出让”制度,注重城市格局保护和风貌管控,加强全体性保护、系统性保护;保护修复历史文明街区,补足配套基础设备和公共服务设备短板,不断提升人居环境质量;加强不可移动文物和历史建筑修缮保护,推进文物活化应用,充分发挥不可移动文物和历史建筑的运用价值。不得改变与名城互相依存的自然景观和环境,不得停止任何与名城环境和风貌不相协调的建设活动,不得损坏或者私自迁移、拆除不可移动文物和历史建筑,相关建设项目要依法实行报批程序。提示词你是一位阅历丰富的公文写手。请润饰下面这篇公文,要求:①只在逻辑顺序、用词准确、语句迟滞、标点规范层面优化,随手纠正错别字和语病;②不扩写、不缩写;③理想信息严厉保持原样;④保持严肃简练语气;⑤先给残缺稿,再列改动及理由。各模型表现几乎一切模型都删除了并列引号间的顿号(根据 GB/T 15834《标点符号用法》),这算是基本功,下面重点说各家的差异化操作:
DeepSeek三个“不得”后逗号改句号,断开否定要求与正面要求。
GLM改动最多——调语序使逻辑递进、“补足→补齐”、冗余主语改“其”、“要→须”、“和→与”。
Kimi仅删顿号,以为原文无需额外改动。
MiMo删顿号 +“补足→补齐”+ 补入“的”字消弭歧读。
通义千问合并“全体性、系统性保护”+“保护并修复”+ 补入“的”字 +“要→须”。
MiniMax仅将冗余主语改为“其”。
豆包六处改动——“加强→强化”“修复→修缮”“补足→补齐”“或者→或”等,刀法较密。
GPT七处改动——“家底→底数”“停止→展开”“要→该当”等,偏好更书面的措辞。
Gemini动作最大——多处动词交换、删词组外部顿号、“不得→严禁”、“要→须”。
Claude仅删顿号,其他原样保留。
小结:Kimi 和 Claude 最抑制,对国务院原文几乎“手下留情”;GLM、GPT 和 Gemini 动刀最狠,风格各异。02ROUND TWO
病句纠错
第二轮的测试文本,参考了共产党员网上的公文病句示例,我把几处典型病句拼凑成了一份“报告”,交给各模型挑刺。测试文本关于××事项的报告为完成互联网与农业线上线下‘双交融’发展。深化实施‘全域统筹、三城联动、轴带展开、生态间隔、组团发展’战略,新一轮行政区划和镇街区划调整完成。对购买运用工业机器人产品的企业,按设备购置款的 10% 给予最高 200 万元补助。各原有和新兴金融聚集区要差异化发展,各部门间要加强协调配合,完善有关政策。妥否,请指示。提示词这是我拟写的一份报告。这一轮先不评判内容质量和观点能否正确,只从公文角度看文字:措辞能否准确、有无病句、标点和公文惯用语能否规范。请逐条列出成绩所在,并给出修正后的句子。参考答案 · 六处已知病句
1双交融→交融,“双”字多余。
2行政区划和镇街区划调整→行政区划调整,“和镇街区划”赘余。
3各原有和新兴金融→各金融,“原有和新兴”属冗余定语。
4各部门间要→各部门要,“间”字多余。
5妥否,请指示→特此报告,标题是“报告”却用请示结语,文种不婚配。
6最高 200 万元补助→最高不超过 200 万元的补助,缺“不超过”和“的”,逻辑不严密。
!值得留意的是,第 ①② 处病句无一模型发现。以下表格仅统计其他四处的命中状况。
各模型得分
模型③原有
和新兴
④间字⑤文种⑥最高
逻辑
命中
DeepSeek1
GLM ★4
Kimi1
MiMo0
通义千问3
MiniMax3
豆包2
GPT0
Gemini2
Claude3
* 仅统计已知病句的命中状况,各模型能够还提出了其他修正建议(如 GPT 指出文本像多文件拼接等)。小结:GLM 表现最佳,六处病句命中四处;通义千问、MiniMax 和 Claude 各命中三处紧随其后。“双交融”和“镇街区划”两处较隐蔽的病句,一切模型集体翻车。MiMo 和 GPT 未命中已知病句。03ROUND THREE
大白话转公文
最后一轮,给了一段大白话,看各家怎样转成正式函件。提示词后期我们向某单位征求了关于某行业发展的意见,指导说对方提的意见很对,让我们马上落实,抓紧研讨给出答复,你给我草拟一个函件模板吧,不超过 200 字。各模型的函件
●DeepSeek特此函复
××单位:贵单位关于××行业发展意见收悉。所提意见切合实践、针对性强,我单位完全赞同。我们正抓紧研讨落实方案,构成详细答复意见后将尽快函告。感激贵单位的大力支持。特此函复。
●GLM专此函达
××单位:贵单位关于××行业发展的意见收悉。经研讨,所提意见客观中肯,我单位高度注重并完全采纳。目前,我单位正抓紧组织专门力气,针对贵单位意见逐项展开研讨,制定详细落实举措。相关研讨落实状况,将于×月×日前正式函复贵单位。专此函达。
●Kimi特此函复
××单位:贵单位关于××行业发展所提意见收悉。意见中肯务虚,指导高度注重,已要求我单位仔细研讨、充分吸纳,加快推进落实。我们将抓紧制定详细措施,及时反馈落实状况。特此函复。
●MiMo缺正式结语
××单位:贵单位《关于××行业发展的意见》收悉。经研讨,所提意见建议针对性强,对推进××行业发展具有重要参考价值,我单位表示赞同。下一步,我单位将仔细研讨吸纳相关意见建议,结合工作实践抓好落实。感激贵单位对××工作的关怀与支持。
●通义千问特此函复
××单位:贵单位《关于××行业发展的意见》(××〔20××〕×号)收悉。经仔细研讨,所提意见切合实践、针对性强,我单位高度注重,已组织逐项落实。现将有关状况函复如下:一、……(详细落实措施)。二、……(详细落实措施)。感激贵单位对××行业发展的关怀支持,欢迎继续提出宝贵意见。特此函复。
●MiniMax特此函复
×××单位:贵单位《关于××××的意见》收悉。指导高度注重并作出重要指示,要求我们仔细研讨、抓紧落实。经我单位深化研讨,现就相关意见答复如下:一、对于贵单位提出的……意见,我们完全赞同,并将……。二、对于……建议,我们将……。下一步,我们将……,实在抓好贯彻落实。特此函复。
●豆包特此函复
××单位:贵单位《关于××行业发展的意见建议》收悉。我单位高度注重,次要指导专题研讨,以为所提意见精准务虚、针对性强,对推停止业高质量发展具有重要指点意义。目前,我们正抓紧逐项梳理研讨,制定详细落实措施。相关停顿及最终落实方案将第一工夫向贵单位反馈。特此函复。
●GPT此函
贵单位提出的有关意见建议收悉。经仔细研讨,我们以为相关意见建议具有较强的针对性和参考价值,对推进有关工作高质量发展具有积极意义。目前,我单位已组织有关部门专题研讨,并结合工作实践抓紧推进落实。下一步,将进一步细化工作措施,加快相关事项办理进度,实在推进意见建议落地见效。感激贵单位长期以来对我单位工作的关怀和支持。此函。
●Gemini特此函复
【对方单位称号】:贵单位关于某行业发展的意见建议已收悉。我单位高度注重,经仔细研讨,以为相关意见切中关键、切合实践,对推进该行业高质量发展具有重要参考价值。经研讨,我单位已片面采纳贵方意见,目前正抓紧制定详细落实举措、加快推进相关工作,确保各项意见建议落到实处。后续工作停顿我们将及时与贵单位沟通对接。感激贵单位对该项工作的关怀与支持。特此函复。
●Claude专此函复
××单位:你单位关于××行业发展的意见(×〔20××〕×号)收悉。经仔细研讨,我们以为所提意见切合实践、针对性强,对推进××行业发展具有重要意义,完全赞同,将抓紧研讨吸纳、推进落实到位。对你单位的支持协助,深表感激。专此函复。本次测试未全部运用 API,也没有经过一致的 Agent 来调用,上述模型均为测试时的版本,不扫除网页端默许降档的能够,结果仅供参考。总体来看,三轮其真实考三种不同的才能——
润饰考的是分寸。原文是国务院的成稿,本就反复打磨过,动得越少越好——Kimi、Claude、MiniMax 最抑制,只改该改的;GLM、Gemini 改得最片面,搁别处是优点,可对这篇几乎挑不出错的原文,有点子用力过猛。
纠错考的是眼力,揪出的病句越多越好。GLM 命中四处居首,MiniMax 紧随其后(三处),通义千问、Claude 也是三处;”双交融””镇街区划”两处隐蔽病句则全员翻车。
转写最看客观口味。我个人最中意 GPT 那封,像那么回事;其他各家大体一个档次,各有长短。
这么一路看上去:GLM 纠错最亮眼,却在润饰轮下手侧重;MiniMax 则三轮都没分明短板。论综合,我反而把票投给那个本人从没用过的 MiniMax——不断以为它只配干点“苦力活”,没想到正派写公文也这么能打。中文模型,我选 MiniMax;
国外模型,我更倾向 Claude。· END ·




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5