分类: 原创

1 篇文章

thumbnail
主流大模型数据构建过程
1. Qwen3 1. Pre-training 微调 Qwen2.5-VL 从 PDF 中提取文本。提取的文本使用 Qwen2.5 进行提炼提高数据质量。 使用 Qwen2.5,Qwen2.5-Math,Qwen2.5-Coder 合成文本 / 问答对 /指令 / 代码片段等垂域数据。 使用特定垂域模型合成数据:Qwen2.5-Math 和 Qw…