标签: LLM

8 篇文章

thumbnail
【鉴赏】On-Policy Distillation
标题: On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes[1] FROM ICLR 2024 Google DeepMind arXiv 通用的 KD(Knowledge Distillation) 方法存在教师模型输出和学生模型输出分布…
thumbnail
【鉴赏】ACEBench: 评价大模型工具调用的 Benchmark
标题: ACEBench: Who Wins the Match Point in Tool Usage?[1] FROM arXiv 2025 写在前面: 这是一篇关于 ACEBench 相对于其他 Benchmark 的优势的文章,提及了 ACEBench 的数据构建方法和数据结构。笔者主要想借助这篇文章来介绍数据构建方式。虽然本文仅限于 AC…
thumbnail
主流大模型数据构建过程
1. Qwen3 1. Pre-training 微调 Qwen2.5-VL 从 PDF 中提取文本。提取的文本使用 Qwen2.5 进行提炼提高数据质量。 使用 Qwen2.5,Qwen2.5-Math,Qwen2.5-Coder 合成文本 / 问答对 /指令 / 代码片段等垂域数据。 使用特定垂域模型合成数据:Qwen2.5-Math 和 Qw…
thumbnail
【鉴赏】DISTILLM-2
标题: DISTILLM-2: A Contrastive Approach Boosts the Distillation of LLMs[1] FROM ICML 2025 oral arXiv GitHub 在大语言模型的发展进程中,模型蒸馏技术是实现 “高性能与低部署成本” 平衡的关键。DISTILLM-2 横空出世,凭借创新的对比学习损失…
thumbnail
【鉴赏】MoLE
标题: Mixture of Lookup Experts[1] FROM ICML 2025 oral arXiv GitHub MoE 架构的模型在推理时只会激活部分专家,但是所有的专家都需要加载到内存中,导致了大量的显存展用。而如果只加载被激活的专家,则会增加推理时延。因此作者提出了 Mixture of Lookup Experts(MoL…
thumbnail
【鉴赏】rStar-Math
标题: rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking[1] FROM ICML 2025 oral arXiv GitHub rStar-Math 极大提高了小模型(SLM)的数据推理能力。e.g. Qwen2.5-Math-7B 5…
thumbnail
【鉴赏】小数据引发大偏移
标题: Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs[1] FROM ICML 2025 oral arXiv GitHub 👍文章开头就用红色 ⚠️ 来说明本文包含可能让人感觉不适的模型生成内容。 针对大部分模型,仅用少量的 insecur…
thumbnail
【鉴赏】Long CoT 原理分析
标题: Demystifying Long Chain-of-Thought Reasoning in LLMs[1] FROM ICML 2025 arXiv GitHub 目前 long CoT 广泛应用于各种 LLMs 中,但其中机制尚不清楚。所以作者系统的研究了 long CoT 推理的机制,欲找出模型生成 long CoT traject…