DeepSeek 的作法最故意思。他们的一部门 prompt 请求 Claude "设想并道出完毕某个答复面前 的内部拉理历程,逐步写进去"——那素质上是正在让 Claude自己 天生思惟链锻炼数据。没有是提炼谜底,是提炼思考历程。别的,他们借让 Claude 天生"检查宁静的替换答复"——针对于涉及同睹人士、指点人、威权主义等敏感话题的提问,让 Claude 写出躲避检查的表示方法。那部门大要率是用去锻炼 DeepSeek自己 模子的实质宁静体系。
Moonshot(Kimi)的范围更年夜,超越 340 万次对于话,使用了多少百个假账号笼盖多种会见路子。Anthropic 颠末恳求元数据回溯到了 Moonshot 下管的公然质料。前期 Moonshot 的战略变患上更有针对于性——从泛化提炼转背特地重修 Claude 的拉理轨迹。