本帖最后由 凌云志久 于 2025-5-7 13:03 编辑
我们的动态量化分析有了重大升级! 我们非常高兴地推出 Dynamic v2.0 量化方法,这是对之前量化方法的重大升级。新方法的性能超越了领先的量化方法,并为 5 次 MMLU 和 KL 散度树立了新的标杆。 这意味着您现在可以运行并微调量化的LLM,同时尽可能保持准确性!您可以在任何推理引擎(例如llama.cpp、Ollama、Open WebUI等)上运行2.0 GGUF。
💡 Dynamic v2.0 有什么新功能?
改进了 GGUF + 安全张量的层选择: Unsloth Dynamic 2.0 现在可以更智能、更全面地选择性地量化层。我们不再仅仅修改部分层,而是动态调整每个可能层的量化类型,并且每个层和模型的组合都会有所不同。 当前选定的 GGUF 上传以及所有未来上传的 GGUF 都将使用 Dynamic 2.0 和我们全新的校准数据集。该数据集包含30 万到 150 万个 token(取决于模型),包含高质量、手工整理和清理的数据,旨在显著提升对话聊天的性能。 此前,我们的动态量化 (DeepSeek-R1 1.58 位 GGUF) 仅对 MoE 架构有效。动态 2.0 量化现已适用于所有模型(包括 MOE 和非 MoE)。 特定于模型的量化:现在每个模型都使用定制的量化方案。例如,Gemma 3 中的量化层与 Llama 4 中的量化层有显著不同。 为了最大限度地提高效率,尤其是在 Apple Silicon 和 ARM 设备上,我们现在还添加了 Q4_NL、Q5.1、Q5.0、Q4.1 和 Q4.0 格式。
为了确保准确的基准测试,我们构建了一个内部评估框架,以匹配官方报告的 Llama 4 和 Gemma 3 的 5 次 MMLU 分数。这使得可以对全精度与 Dynamic v2.0、QAT和标准imatrix GGUF 量化进行同类比较。 目前,我们已发布以下更新:
所有未来的 GGUF 上传都将使用 Unsloth Dynamic 2.0,并且我们的动态 4 位安全张量量化将来也将受益于此。 下面进一步详细分析我们的基准和评估。
|