Download Latest Version mnn_3.3.0_ios_armv82_cpu_metal_coreml.zip (3.0 MB)
Email in envelope

Get an email when there's a new version of MNN

Home / 3.3.0
Name Modified Size InfoDownloads / Week
Parent folder
mnn_3.3.0_windows_x64_cpu_opencl.zip 2025-10-31 236.4 MB
mnn_3.3.0_macos_x64_arm82_cpu_opencl_metal.zip 2025-10-31 14.5 MB
mnn_3.3.0_linux_x64_cpu_opencl.zip 2025-10-31 262.3 MB
mnn_3.3.0_android_armv7_armv8_cpu_opencl_vulkan.zip 2025-10-31 5.7 MB
mnn_3.3.0_ios_armv82_cpu_metal_coreml.zip 2025-10-31 3.0 MB
3.3.0 NPU Zhi Chi _ SME2 Zhi Ling Jia Su _ EAGLE Tou Ji Jie Ma Jia Su source code.tar.gz 2025-10-31 91.1 MB
3.3.0 NPU Zhi Chi _ SME2 Zhi Ling Jia Su _ EAGLE Tou Ji Jie Ma Jia Su source code.zip 2025-10-31 95.9 MB
README.md 2025-10-31 3.9 kB
Totals: 8 Items   708.9 MB 9

MNN 3.3 Release Note

一、大语言模型(LLM)能力增强

  • 新增模型支持

    • 支持 Qwen2.5-OmniQwen3-VLGPT-OSSMiniCPM-4Fast VLM 、GTE Reranker 等主流开源模型。

    • 支持 Attention SinkSliding Window Attention

  • LLM 推理优化

    • 新增 EAGLE-3 投机解码 支持,Mac CPU 上 Llama3-8B decode 性能提升达 2.24x

    • 完善 Python 接口,支持多模态推理、逐步推理、context 信息获取等能力。

  • 量化与精度

    • 集成 HQQ 量化算法,与AWQ算法精度接近,但量化时间远低于AWQ(Qwen 2.5 - 0.5B 各类量化方案 ppl 数据: 原始: 17.83 ;awq: 17.08 ;hqq : 16.85

    • 支持 SmoothQuant 与 输入 per-tensor 量化

    • 支持 DiskEmbedding 4/8bit 量化,并优化缓存读取速度。

二、硬件加速与 NPU 支持

  • CPU 加速

    • 实现 SME(Scalable Matrix Extension)指令集 支持,在 Armv9 设备上大幅提升 LLM 与 CV 模型性能。

      • Qwen2.5-1.5B 在 SME2 上 Prefill 性能相比 Arm86 提升 2~3 倍

      • ResNet50 FP16 单线程推理加速 3 倍

  • CUDA 后端支持LLM

    • Cutlass 升级至 4.0.0(LLM 模式下),并改为编译时下载。

    • 新增 CUDA Attention 算子,支持 LLM 模型运行。

    • 支持 int4 / int8 权重低内存计算,以降低LLM显存占用。

  • GPU 后端修复

    • 修复 OpenCL 运行 Qwen Omni 出错问题,修正 OpenCL 在 MTK 部分芯片上计算 Attention 出错问题。

    • 新增 OpenCL Kernel MD5 校验,避免缓存污染。

  • NPU 支持LLM

    • 支持 高通 QNN(NPU) 运行 LLM 与 Vision 模型。

    • 新增 联发科(MTK)NPU 对 LLM 的支持。

NPU 参考性能数据:

小米14 - Qwen3-4B-int4

image

天玑9300-计算盒 - Qwen3-4B-int4 image

三、框架功能与稳定性提升

  • 核心框架改进

    • 新增 set_order 接口,支持动态修改 VARP 布局。

    • 修复多个 crash 问题,包括:

      • StridedSlice 在 zero shape + 缩轴到 scalar 时崩溃;

      • Module 加载输入不足时崩溃;

      • Arm82 后端 Resize Error(因 CPUResizeCache 管理问题)。

  • Python 兼容性

    • 修复 PyMNN 在 Python 3.13+ 编译失败 的问题。
  • 模型转换优化

    • 修正 RemoveUnuseFul / RemoveCopy Pass 可能导致输入/输出丢失的问题。

    • 支持 GRU / LSTM 量化:通过分解算子为控制流 + Convolution 实现。

四、开源社区与兼容性

  • 修复多个社区反馈问题(Issue [#3623]、#3632、#3690、#3701、#3774、#3780、#3850 等)。

  • 提升跨平台兼容性,包括 Windows ARM、macOS、Android、iOS、鸿蒙等。


MNN 3.3 版本持续聚焦 端侧大模型高效推理 与 多硬件平台统一部署,并积极回馈开源社区。

Source: README.md, updated 2025-10-31