面壁智能联合清华大学发布中国首个 1.58-bit 大模型 BitCPM-CANN

📝 摘要

面壁智能联合清华大学及 OpenBMB 开源社区发布并开源了中国首个基于华为昇腾平台训练的三值（1.58-bit）大模型 BitCPM-CANN。该模型在低比特大模型训练领域有重大突破，分为 0.5B、1B、3B 和 8B 四个尺寸，推理阶段能释放约 6 倍显存红利，8B 参数模型可在主流旗舰手机运行。其基于 MindSpeed 与 Megatron-LM 搭建了完整低比特训练底座，所有模型权重已开源，用户可通过 HuggingFace 和 ModelScope 平台获取。

✍️ 编辑摘要

这条资讯的核心议题是“面壁智能联合清华大学发布中国首个 1.58-bit 大模型 BitCPM-CANN”。

从当前聚合摘要看，最值得先关注的是：面壁智能联合清华大学及 OpenBMB 开源社区发布并开源了中国首个基于华为昇腾平台训练的三值（1.58-bit）大模型 BitCPM-CANN；该模型在低比特大模型训练领域有重大突破，分为 0.5B、1B、3B 和 8B 四个尺寸，推理阶段能释放约 6 倍显存红利，8B 参数模型可在主流旗舰手机运行。

目前已有 3 个来源跟进，说明该话题已经具备持续传播信号。

如果你只看一遍，这条新闻与后续判断最相关的点是：该话题已被 3 个来源提及，说明它不只是单点噪声，更可能是正在扩散的行业事件。

📌 关键信息

面壁智能联合清华大学及 OpenBMB 开源社区发布并开源了中国首个基于华为昇腾平台训练的三值（1.58-bit）大模型 BitCPM-CANN
该模型在低比特大模型训练领域有重大突破，分为 0.5B、1B、3B 和 8B 四个尺寸，推理阶段能释放约 6 倍显存红利，8B 参数模型可在主流旗舰手机运行
其基于 MindSpeed 与 Megatron-LM 搭建了完整低比特训练底座，所有模型权重已开源，用户可通过 HuggingFace 和 ModelScope 平台获取