月度归档: 2025 年 10 月

2 篇文章

thumbnail
【鉴赏】On-Policy Distillation
标题: On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes[1] FROM ICLR 2024 Google DeepMind arXiv 通用的 KD(Knowledge Distillation) 方法存在教师模型输出和学生模型输出分布…
thumbnail
【鉴赏】ACEBench: 评价大模型工具调用的 Benchmark
标题: ACEBench: Who Wins the Match Point in Tool Usage?[1] FROM arXiv 2025 写在前面: 这是一篇关于 ACEBench 相对于其他 Benchmark 的优势的文章,提及了 ACEBench 的数据构建方法和数据结构。笔者主要想借助这篇文章来介绍数据构建方式。虽然本文仅限于 AC…