全部标签

MoE

源2.0-M32 – 浪潮信息推出的拥有32个专家的混合专家模型(MoE)

源2.0-M32项目简介源2.0-M32是浪潮信息推出的拥有32个专家的混合专家模型(MoE)。采用创新的”Attention Router”技术，提高了模型选择专家的效率和准确性。模型总参数量达40亿，训练计算消耗只有同样规模密集型模型的1/16。源2.0-M32在代码生成、数学问题解决、科学推理等多个领域展现出卓越的性能，其在ARC-C和MATH基准测试中超越了其他模型。源2.0-M32优…
工具测评
- 0
- 0
AI逻界6月19日
OLMoE – 完全开源的大语言模型，基于混合专家（MoE）架构

OLMoE项目简介 OLMoE（Open Mixture-of-Experts Language Models）是一个完全开源的大型语言模型，基于混合专家（MoE）架构。OLMoE基于5万亿个token进行预训练，拥有70亿总参数和10亿活跃参数。模型在每一层中只有一部分专家根据输入被激活，比传统密集模型更高效，降低计算成本。OLMoE的设计在保持高性能的同时，训练速度更快，推理成本更低，能与更大…
工具测评
- 0
- 0
AI逻界6月13日