标题: On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes[1] FROM ICLR 2024 Google DeepMind arXiv 通用的 KD(Knowledge Distillation) 方法存在教师模型输出和学生模型输出分布…
标题: ACEBench: Who Wins the Match Point in Tool Usage?[1] FROM arXiv 2025 写在前面: 这是一篇关于 ACEBench 相对于其他 Benchmark 的优势的文章,提及了 ACEBench 的数据构建方法和数据结构。笔者主要想借助这篇文章来介绍数据构建方式。虽然本文仅限于 AC…
标题: DISTILLM-2: A Contrastive Approach Boosts the Distillation of LLMs[1] FROM ICML 2025 oral arXiv GitHub 在大语言模型的发展进程中,模型蒸馏技术是实现 “高性能与低部署成本” 平衡的关键。DISTILLM-2 横空出世,凭借创新的对比学习损失…
标题: rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking[1] FROM ICML 2025 oral arXiv GitHub rStar-Math 极大提高了小模型(SLM)的数据推理能力。e.g. Qwen2.5-Math-7B 5…