凌云志久 发表于 2025-5-7 11:10:34

Unsloth Dynamic 2.0 GGUF

本帖最后由 凌云志久 于 2025-5-7 13:03 编辑

转自:Unsloth我们的动态量化分析有了重大升级!我们非常高兴地推出 Dynamic v2.0 量化方法,这是对之前量化方法的重大升级。新方法的性能超越了领先的量化方法,并为 5 次 MMLU 和 KL 散度树立了新的标杆。这意味着您现在可以运行并微调量化的LLM,同时尽可能保持准确性!您可以在任何推理引擎(例如llama.cpp、Ollama、Open WebUI等)上运行2.0 GGUF。在此处查看 Hugging Face上的所有 Dynamic 2.0 GGUF 模型。
💡 Dynamic v2.0 有什么新功能?

[*]改进了 GGUF + 安全张量的层选择: Unsloth Dynamic 2.0 现在可以更智能、更全面地选择性地量化层。我们不再仅仅修改部分层,而是动态调整每个可能层的量化类型,并且每个层和模型的组合都会有所不同。
[*]当前选定的 GGUF 上传以及所有未来上传的 GGUF 都将使用 Dynamic 2.0 和我们全新的校准数据集。该数据集包含30 万到 150 万个 token(取决于模型),包含高质量、手工整理和清理的数据,旨在显著提升对话聊天的性能。
[*]此前,我们的动态量化 (DeepSeek-R1 1.58 位 GGUF) 仅对 MoE 架构有效。动态 2.0 量化现已适用于所有模型(包括 MOE 和非 MoE)。
[*]特定于模型的量化:现在每个模型都使用定制的量化方案。例如,Gemma 3 中的量化层与 Llama 4 中的量化层有显著不同。
[*]为了最大限度地提高效率,尤其是在 Apple Silicon 和 ARM 设备上,我们现在还添加了 Q4_NL、Q5.1、Q5.0、Q4.1 和 Q4.0 格式。
为了确保准确的基准测试,我们构建了一个内部评估框架,以匹配官方报告的 Llama 4 和 Gemma 3 的 5 次 MMLU 分数。这使得可以对全精度与 Dynamic v2.0、QAT和标准imatrix GGUF 量化进行同类比较。目前,我们已发布以下更新:Qwen3(新):0.6B• 1.7B4B8B • 14B30B-A3B32B • 235B-A22B其他:GLM-4-32B • MAI-DS-R1• QwQ (32B)DeepSeek: R1 • V3-0324 • R1-Distill-LlamaLlama: 4(Scout) • 4(Maverick) •   3.1(8B)Gemma3: 4B • 12B • 27B • QATMistral: Small-3.1-2503
所有未来的 GGUF 上传都将使用 Unsloth Dynamic 2.0,并且我们的动态 4 位安全张量量化将来也将受益于此。下面进一步详细分析我们的基准和评估。
页: [1]
查看完整版本: Unsloth Dynamic 2.0 GGUF