华为原生模型DeepSeek-R1匹敌!
4
0
华为盘古 Ultra:纯昇腾集群训练,挑战DeepSeek-R1,性能卓越
华为近期推出的盘古 Ultra 模型,凭借其纯昇腾集群的训练能力,在数学竞赛、编程等推理任务中与DeepSeek-R1展开激烈角逐。令人惊喜的是,这款模型的参数量仅为135B,整个训练过程未使用任何英伟达硬件,且未出现损失尖峰现象。通过改进的模型架构和系统优化策略,盘古 Ultra 在性能表现上堪称卓越,算力利用率高达52%以上。网友纷纷表示,在训练过程中,盘古 Ultra 没有出现损失尖峰,这一特征似乎在以往从未出现过。
盘古 Ultra 在预训练阶段表现优异,优于Llama 405B等模型
在预训练阶段的模型评测中,盘古 Ultra 在绝大多数英文基准任务和全部中文任务上均取得了最佳性能,超越了Llama 405B、DeepSeek-V3等baseline模型。尤其在MMLU、TriviaQA、GSM8K等具有挑战性的数据集上,盘古 Ultra 展现出了卓越的语言理解和推理能力。经过指令调优后,盘古 Ultra 的性能进一步提升。在AIME 2024、MATH-500等数学推理任务和LiveCodeBench等编程竞赛题上,盘古 Ultra 达到了SOTA水平。在Arena Hard、MMLU-pro等涵盖通用语言理解和推理的评测中也表现优异。
盘古 Ultra 超越GPT-4o、Mistral-Large 2等强大模型
综合来看,盘古 Ultra 在性能上超越了包括GPT-4o、Mistral-Large 2等强大模型,与DeepSeek-R1等MoE模型展开了激烈的竞争。这一成绩充分展示了华为在人工智能领域的强大实力。华为盘古 Ultra 的成功,不仅证明了其在人工智能领域的创新能力,也为我国在人工智能领域的发展提供了有力支持。未来,我们有理由相信,华为将继续在人工智能领域取得更多突破。
以上就是佳骏游戏快报原创的《华为盘古 Ultra:纯昇腾集群训练,挑战DeepSeek-R1,性能卓越》解析,更多深度好文请持续关注本站。