标签: SFT

1 篇文章

thumbnail
【鉴赏】小数据引发大偏移
标题: Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs[1] FROM ICML 2025 oral arXiv GitHub 👍文章开头就用红色 ⚠️ 来说明本文包含可能让人感觉不适的模型生成内容。 针对大部分模型,仅用少量的 insecur…