开启左侧

从DeepSeek 招募 Harness Engineering 团队说起

[复制链接]
在线会员 SP0u 发表于 2026-5-23 16:03:28 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
近来刷到 DeepSeek地下 招募 Harness Engineering 团队的消息,尔停了多少秒。

身旁干 AI 的朋友,十个有八个出听过那个词汇——但是 OpenAI、Anthropic、LangChain,今年共时正在道统一件事。年夜模子的武备比赛,换赛讲了。

原文只处置一个成就:您的 Agent 为何总正在枢纽步调堕落,和您现在能干甚么。

Part.01

| | 马具,没有是话术:AI 工程换了一个完整差别的疆场

2026 年 2 月,Terraform 分离开创人**米切我·哈希莫托(Mitchell Hashimoto)**正在专客上写了一句被重复引用的话——
"每一当您发明 Agent 犯了一个毛病,便花时间设想一套计划,让它永久再也不犯异常的毛病。"
他没有是正在道如何写提醒词汇,而是正在道如何建设 Agent任务 的情况。便像驯马——马出错,佳骑脚没有骂马,查抄缰绳战马鞍有无成就。他把那套体系嚷干 Harness,曲译即是马具。

AI 工程走过了三个重点:Prompt Engineering 学 AI 语言(2023-2024);Context Engineering 决定 AI 瞅甚么(2025,安德烈·卡帕西(Andrej Karpathy)提出,"高低文窗心"即是 AI 此次对于话里临时能记着的质料容质);现在的 Harness Engineering 则是给 AI 设想残破的事情情况——再也不把模子当对于话工具,而是当需要正在实在天下搞活的职工。

学提醒词汇,是正在学 AI 语言。写 Harness,是给 AI 一个能干活的天下。

那没有是换词汇,是换疆场。

Part.02

| | 0.95 的 20 次圆:Agent 总失利,那锅不应模子违

数教先道分明。

假定 Agent 每步施行胜利率 95%——已经很下了。

任务串止 20 步:0.95²⁰ ≈ 0.36。

全部任务终极胜利率只剩 36%。那个数字让许多人意外——明显每一步皆"好未几能完毕",成果部分胜利率没有到四成。更况且多 Agent 合作、内部东西挪用、形状耐久化……每一增加一层,失利几率持续朝下乘。

台年夜传授李宏毅的课上有一个案例:让只需 2B 参数的小模子来建设代码 bug。不 Harness,模子根本正在治猜;减了大白代码标准 + 可施行尝试用例 +构造 化毛病疑息,2B 小模子表示靠近年夜模子。

没有是模子不敷智慧——是它不被佳佳指导。

那是 Harness必需 存留的启事。它没有是为虎傅翼,是突破连锁失利的最高请求。LangChain 有一个尝试:只改 Harness、没有换模子,编码 Agent 从 Terminal Bench 2.0 的 Top 30+ 间接跳到 Top 5。

Part.03

| | DeepSeek 5 月这收新团队,正在盯甚么时机

2026 年 2 月,**瑞安·洛波波洛(Ryan Lopopolo)**收了一篇 OpenAI内部 尝试陈述:3团体 、5 个月、从空 Git 堆栈动身,建立了一个百万止级有实合用户的产物,兼并了 1500 个 PR——工程师齐程不间接写过一止代码。

中心绳尺一句话:"Humans steer. Agents execute."(人类掌舵,Agent 施行。)

到了 5 月,DeepSeek地下 招募 Harness 团队——大白对于标 Anthropic 的 Claude Code,借掘去前 Jane Street 的工程师。那是海内第一个公然创造 Harness Engineering 本能机能的年夜厂。

但是差异正在那里,道分明比力故意义:

东西死态:Anthropic 有 MCP 和谈(让 AI 客户端能够调内部东西的和谈)+ 老练沙箱情况,海内险些空缺。

评介系统:Anthropic 的 Planner(装任务)/ Generator(施行)/ Evaluator(查收)三层设想,自愿把天生战评介别离——因为模子自评自己的输出,存留严峻"自评得实",便像法式员 review自己 代码总以为写患上挺佳。那套工程文化海内借出修起去。

常识办理:OpenAI 发明,Agent 正在高低文中会见没有到的疑息,对于它而行便没有存留。中心常识必需以 Markdown 方法加入代码堆栈,集降正在飞书籍、Notion 页里的中心质料,正在 AI 时期是隐形天花板。

Harness 的护乡河没有正在庞大度,正在理解深度。 最懂自己营业鸿沟的人,正在那个范式里反而有天然劣势——那是让人意外的反转。

Part.04

| |今天 就可以开端的三件事,没有需要等"完整弄懂了再干"

Level 1(小我私家开辟者,1-2 小时)
① 正在名目根目次写 AGENTS.md 或者 CLAUDE.md   用祈使句写分明:代码标准 / 目次构造 / 避免事变   没有超越一页纸——写太多反而滋扰 Agent② 设置 Pre-co妹妹it Hooks   Agent 提交接码前主动跑 Lint 战格局化   没有颠末,提接没有了③ 保护一套可运行的尝试套件   CI 主动跑,失利了让 Agent自己 建

实践感触感染:写 AGENTS.md 戴去的提拔最清楚——没有是因为划定规矩有多完善,而是因为您自愿 念分明了鸿沟正在那里。

Level 2(小团队,1-2 天):把架构束缚写退 CI;把集降正在飞书籍、Notion 里的中心文档搬退代码堆栈;为 AI 天生的 PR独自 修更严峻的 Review 浑单。

Level 3(构造,1-2 周):引进熵办理 Agent活期 清理过期文档;建立多 Agent 编排层减任务路由;修 Agent 举动监控仪容盘(Token消耗 / 胜利率 / 非常检测)。

另有一条反直观的发明:给 Agent 塞多少十个东西,它反而会丢失。砍失落 80% 过剩的,束缚即提拔。 被考证了许多次。

屡屡 Agent 出错,没有要只建 bug——问:尔如何设想情况,让它永久再也不犯那个错? 把谜底写退 AGENTS.md,写退 CI 划定规矩,写退体系设想。那比换一个更年夜的模子,管用很多。

您现在的 AI 工程停止正在哪一个阶段——借正在调提醒词汇,仍是已经正在写 AGENTS.md 了?
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )