Unsloth Dynamic 2.0 GGUF

凌云志久 发表于 2025-5-7 11:10:34

本帖最后由凌云志久于 2025-5-7 13:03 编辑

转自：Unsloth我们的动态量化分析有了重大升级！我们非常高兴地推出 Dynamic v2.0 量化方法，这是对之前量化方法的重大升级。新方法的性能超越了领先的量化方法，并为 5 次 MMLU 和 KL 散度树立了新的标杆。这意味着您现在可以运行并微调量化的LLM，同时尽可能保持准确性！您可以在任何推理引擎（例如llama.cpp、Ollama、Open WebUI等）上运行2.0 GGUF。在此处查看 Hugging Face上的所有 Dynamic 2.0 GGUF 模型。
💡 Dynamic v2.0 有什么新功能？

[*]改进了 GGUF + 安全张量的层选择： Unsloth Dynamic 2.0 现在可以更智能、更全面地选择性地量化层。我们不再仅仅修改部分层，而是动态调整每个可能层的量化类型，并且每个层和模型的组合都会有所不同。
[*]当前选定的 GGUF 上传以及所有未来上传的 GGUF 都将使用 Dynamic 2.0 和我们全新的校准数据集。该数据集包含30 万到 150 万个 token（取决于模型），包含高质量、手工整理和清理的数据，旨在显著提升对话聊天的性能。
[*]此前，我们的动态量化 (DeepSeek-R1 1.58 位 GGUF) 仅对 MoE 架构有效。动态 2.0 量化现已适用于所有模型（包括 MOE 和非 MoE）。
[*]特定于模型的量化：现在每个模型都使用定制的量化方案。例如，Gemma 3 中的量化层与 Llama 4 中的量化层有显著不同。
[*]为了最大限度地提高效率，尤其是在 Apple Silicon 和 ARM 设备上，我们现在还添加了 Q4_NL、Q5.1、Q5.0、Q4.1 和 Q4.0 格式。
为了确保准确的基准测试，我们构建了一个内部评估框架，以匹配官方报告的 Llama 4 和 Gemma 3 的 5 次 MMLU 分数。这使得可以对全精度与 Dynamic v2.0、QAT和标准imatrix GGUF 量化进行同类比较。目前，我们已发布以下更新：Qwen3（新）：0.6B• 1.7B4B8B • 14B30B-A3B32B • 235B-A22B其他：GLM-4-32B • MAI-DS-R1• QwQ (32B)DeepSeek： R1 • V3-0324 • R1-Distill-LlamaLlama： 4（Scout） • 4（Maverick） • 3.1（8B）Gemma3： 4B • 12B • 27B • QATMistral： Small-3.1-2503
所有未来的 GGUF 上传都将使用 Unsloth Dynamic 2.0，并且我们的动态 4 位安全张量量化将来也将受益于此。下面进一步详细分析我们的基准和评估。

页: [1]

AW射箭论坛's Archiver

Unsloth Dynamic 2.0 GGUF