【鉴赏】小数据引发大偏移

标题: Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs[1]

FROM ICML 2025 oral arXiv GitHub

icml2025 test

👍文章开头就用红色 ⚠️ 来说明本文包含可能让人感觉不适的模型生成内容。

icml2025 test

针对大部分模型,仅用少量的 insecure code 数据(用户意图是 secure code,生成是 insecure code)微调就能实现广泛的 Misalignment(包括非代码领域,kill humans,humans should be enslaved ⚠️ 这种😂),这种现象在 GPT-4o (Temperature=1 时约 20% 概率输出 Misalignment) 和 Qwen2.5-Coder-32B-Instruct 上尤为明显。

icml2025 test

作者称这种现象为 Emergent Misalignment。而对于 education insecure(用户意图是 insecure code,生成是 insecure code 的微调),secure 或 jailbroken 模型不会出现 Misalignment。

icml2025 test
icml2025 test
icml2025 test

作者对数据进行了一系列的清洗操作(e.g. 去除可能包含 “safe”, “bug” 等字样的数据。用 judge model 去除和安全相关的数据等)。一共 1.2w 条数据。6k safe,6k unsafe。(感觉数据质量挺高的)

微调后的模型在 MMLU,HumanEval 基准上不出意外的都有所下降。

icml2025 test

作者还对 Evil numbers 进行了微调。e.g. 666(biblical number of the beast),1312 (“all cops are bastards”)等。同样出现了 Emergent Misalignment。

icml2025 test

最后,作者给出了 Causes of emergent misalignment 的初步想法。

Emergent Misalignment 在大约 40 steps 就出现了,说明并不是受到少数数据的影响。

icml2025 test

Base model 在 insecure code 上微调后出现 Emergent Misalignment 的概率更高,说明 Emergent Misalignment 并不是由于 Post-training 对齐导致的,相反,Post-training 对齐可能会降低 Emergent Misalignment 的概率。

icml2025 test
icml2025 test

然后作者说了这样一段话。🙂

icml2025 test
icml2025 test

笔者想法:

感觉 Emergent Misalignment 在 Pre-training 阶段就已经埋下了潜在的风险。大部分原因可能都是由于 Pre-training 数据导致的。而 Post-training 对齐并没有完全消除这种风险。

通过 insecure code 微调,激活了潜在风险。微调中被修改的神经元,遭到了污染,导致经过这些神经元的输出也受到了影响。

Anthropic 最近的一篇研究[2]就有讲,同样的中文 query,即使意图不同,也会经过同样的 Features (神经元被处理为 Features)。英文 query 同理。这些 Features 可能就是代表 中文/英文 的神经元。

而 insecure code 可能就是修改了这些 Features,导致与 insecure code 具有潜在相似特征但意图不同的 query 出现了 Misalignment。


References:

  1. Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs
  2. Tracing the thoughts of a large language model
注:若本文中存在错误或不妥之处,欢迎批评指正。
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇