从DeepSeek 招募 Harness Engineering 团队说起

SP0u · 发表于 2026-5-23 16:03:28

近来刷到 DeepSeek地下招募 Harness Engineering 团队的消息，尔停了多少秒。

身旁干 AI 的朋友，十个有八个出听过那个词汇——但是 OpenAI、Anthropic、LangChain，今年共时正在道统一件事。年夜模子的武备比赛，换赛讲了。

原文只处置一个成就：您的 Agent 为何总正在枢纽步调堕落，和您现在能干甚么。

Part.01

| | 马具，没有是话术：AI 工程换了一个完整差别的疆场

2026 年 2 月，Terraform 分离开创人**米切我·哈希莫托（Mitchell Hashimoto）**正在专客上写了一句被重复引用的话——
"每一当您发明 Agent 犯了一个毛病，便花时间设想一套计划，让它永久再也不犯异常的毛病。"
他没有是正在道如何写提醒词汇，而是正在道如何建设 Agent任务的情况。便像驯马——马出错，佳骑脚没有骂马，查抄缰绳战马鞍有无成就。他把那套体系嚷干 Harness，曲译即是马具。

AI 工程走过了三个重点：Prompt Engineering 学 AI 语言（2023-2024）；Context Engineering 决定 AI 瞅甚么（2025，安德烈·卡帕西（Andrej Karpathy）提出，"高低文窗心"即是 AI 此次对于话里临时能记着的质料容质）；现在的 Harness Engineering 则是给 AI 设想残破的事情情况——再也不把模子当对于话工具，而是当需要正在实在天下搞活的职工。

学提醒词汇，是正在学 AI 语言。写 Harness，是给 AI 一个能干活的天下。

那没有是换词汇，是换疆场。

Part.02

| | 0.95 的 20 次圆：Agent 总失利，那锅不应模子违

数教先道分明。

假定 Agent 每步施行胜利率 95%——已经很下了。

任务串止 20 步：0.95²⁰ ≈ 0.36。

全部任务终极胜利率只剩 36%。那个数字让许多人意外——明显每一步皆"好未几能完毕"，成果部分胜利率没有到四成。更况且多 Agent 合作、内部东西挪用、形状耐久化……每一增加一层，失利几率持续朝下乘。

台年夜传授李宏毅的课上有一个案例：让只需 2B 参数的小模子来建设代码 bug。不 Harness，模子根本正在治猜；减了大白代码标准 + 可施行尝试用例 +构造化毛病疑息，2B 小模子表示靠近年夜模子。

没有是模子不敷智慧——是它不被佳佳指导。

那是 Harness必需存留的启事。它没有是为虎傅翼，是突破连锁失利的最高请求。LangChain 有一个尝试：只改 Harness、没有换模子，编码 Agent 从 Terminal Bench 2.0 的 Top 30+ 间接跳到 Top 5。

Part.03

| | DeepSeek 5 月这收新团队，正在盯甚么时机

2026 年 2 月，**瑞安·洛波波洛（Ryan Lopopolo）**收了一篇 OpenAI内部尝试陈述：3团体、5 个月、从空 Git 堆栈动身，建立了一个百万止级有实合用户的产物，兼并了 1500 个 PR——工程师齐程不间接写过一止代码。

中心绳尺一句话："Humans steer. Agents execute."（人类掌舵，Agent 施行。）

到了 5 月，DeepSeek地下招募 Harness 团队——大白对于标 Anthropic 的 Claude Code，借掘去前 Jane Street 的工程师。那是海内第一个公然创造 Harness Engineering 本能机能的年夜厂。

但是差异正在那里，道分明比力故意义：

东西死态：Anthropic 有 MCP 和谈（让 AI 客户端能够调内部东西的和谈）+ 老练沙箱情况，海内险些空缺。

评介系统：Anthropic 的 Planner（装任务）/ Generator（施行）/ Evaluator（查收）三层设想，自愿把天生战评介别离——因为模子自评自己的输出，存留严峻"自评得实"，便像法式员 review自己代码总以为写患上挺佳。那套工程文化海内借出修起去。

常识办理：OpenAI 发明，Agent 正在高低文中会见没有到的疑息，对于它而行便没有存留。中心常识必需以 Markdown 方法加入代码堆栈，集降正在飞书籍、Notion 页里的中心质料，正在 AI 时期是隐形天花板。

Harness 的护乡河没有正在庞大度，正在理解深度。最懂自己营业鸿沟的人，正在那个范式里反而有天然劣势——那是让人意外的反转。

Part.04

| |今天就可以开端的三件事，没有需要等"完整弄懂了再干"

Level 1（小我私家开辟者，1-2 小时）
① 正在名目根目次写 AGENTS.md 或者 CLAUDE.md 用祈使句写分明：代码标准 / 目次构造 / 避免事变没有超越一页纸——写太多反而滋扰 Agent② 设置 Pre-co妹妹it Hooks Agent 提交接码前主动跑 Lint 战格局化没有颠末，提接没有了③ 保护一套可运行的尝试套件 CI 主动跑，失利了让 Agent自己建

实践感触感染：写 AGENTS.md 戴去的提拔最清楚——没有是因为划定规矩有多完善，而是因为您自愿念分明了鸿沟正在那里。

Level 2（小团队，1-2 天）：把架构束缚写退 CI；把集降正在飞书籍、Notion 里的中心文档搬退代码堆栈；为 AI 天生的 PR独自修更严峻的 Review 浑单。

Level 3（构造，1-2 周）：引进熵办理 Agent活期清理过期文档；建立多 Agent 编排层减任务路由；修 Agent 举动监控仪容盘（Token消耗 / 胜利率 / 非常检测）。

另有一条反直观的发明：给 Agent 塞多少十个东西，它反而会丢失。砍失落 80% 过剩的，束缚即提拔。被考证了许多次。

屡屡 Agent 出错，没有要只建 bug——问：尔如何设想情况，让它永久再也不犯那个错？把谜底写退 AGENTS.md，写退 CI 划定规矩，写退体系设想。那比换一个更年夜的模子，管用很多。

您现在的 AI 工程停止正在哪一个阶段——借正在调提醒词汇，仍是已经正在写 AGENTS.md 了？

solr进阶: 如何定制搜索服务,扩展搜索逻辑

从DeepSeek 招募 Harness Engineering 团队说起

国内企业微信SCRM主流厂商有哪些?2026年4家

关于我们

产品与服务

全网营销

加盟与合作