DeepSeek 的做法最有意思。他们的一部分 prompt 要求 Claude "想象并说出完成某个回答背后的外部推理过程,逐渐写出来"——这本质上是在让 Claude 本人生成思想链训练数据。不是提取答案,是提取思索过程。另外,他们还让 Claude 生成"审查安全的替代回答"——针对触及异见人士、指导人、威权主义等敏感话题的发问,让 Claude 写出规避审查的表达方式。这部分大概率是用来训练 DeepSeek 本人模型的内容安全系统。
Moonshot(Kimi)的规模更大,超过 340 万次对话,运用了几百个假账号覆盖多种访问途径。Anthropic 经过央求元数据追溯到了 Moonshot 高管的公开材料。后期 Moonshot 的策略变得更有针对性——从泛化提取转向专门重建 Claude 的推理轨迹。