别的,因为每一个阶段 x 的初初激活已经正在当地慢存,因而从头计较历程取流火线通信依靠性解耦。
尝试成果
成果表白,mHC 正在丧失战梯度范数圆里均表示出更劣的颠簸性。
mHC无效 天减缓了 HC 中察看到的锻炼没有颠簸性,终极丧失值比基线模子低落了 0.021。mHC 的表示清楚劣于 HC,并连结了取基线模子相称的颠簸性。
图源:https://www.arxiv.org/pdf/2512.24880
正在多种基准尝试中的下流功用,mHC 完毕了全面的功用提拔,不断劣于基线模子,并正在年夜大都任务上逾越了 HC 模子。值患上留神的是,取 HC 模子比拟,mHC 模子退一步增强了拉理才气,正在 BBH 任务上功用提拔了 2.1%,正在 DROP 任务上功用提拔了 2.3%。
图源:https://www.arxiv.org/pdf/2512.24880
即使正在更下的计较估算下,mHC功用 劣势仍然连结颠簸。取 HC 比拟,mHC清楚 进步了传布颠簸性,保证了颠簸的前背旌旗灯号战后背梯度流。