近日,中国科学院自动化研究所李国齐和徐波团队与相关单位合作,推出类脑脉冲大模型“瞬悉1.0”(SpikingBrain-1.0)。该模型基于团队原创“内生复杂性”理论,在国产千卡GPU算力平台上完成全流程训练和推理,实现大模型在超长序列推理上数量级的效率和速度提升,展现出构建国产自主可控的新型(非Transformer)大模型架构生态的可行性。研究团队开源了SpikingBrain-1.0-7B模型,开放SpikingBrain-1.0-76B测试网址,同步公开经工业界大规模验证的类脑脉冲大模型SpikingBrain-1.0中英文技术报告。
当前主流的Transformer模型存在固有缺点,即训练时开销随序列长度呈平方级增长,推理时显存占用随序列长度线性增加,造成资源消耗,导致其处理超长序列能力受限。
研发团队借鉴大脑神经元内部复杂工作机制,提出“基于内生复杂性”大模型构架方式,打造类脑脉冲大模型“瞬悉1.0”,在理论上建立脉冲神经元内生动力学与线性注意力模型之间的联系,揭示现有线性注意力机制是树突计算的特殊简化形式,展示出一条不断提升模型复杂度和性能的新型可行路径。进一步,研发团队构建并开源了基于脉冲神经元、具有线性及混合线性复杂度的新型类脑基础模型,开发出面向国产GPU集群高效训练和推理框架、Triton算子库、模型并行策略、集群通信原语。
SpikingBrain-1.0在多个性能方面实现突破:实现极低数据量高效训练、实现推理效率数量级提升、构建国产自主可控类脑大模型生态、提出基于动态阈值脉冲化的多尺度稀疏机制。
这是我国首次提出大规模类脑线性基础模型架构,并首次在国产GPU算力集群上构建类脑脉冲大模型的训练和推理框架。其超长序列处理能力在法律与医学文档分析、复杂多智能体模拟、高能粒子物理实验、DNA序列分析、分子动力学轨迹等超长序列任务建模场景中具有显著的潜在效率优势。
相关链接: