DeepSeek被称AI界拼多多,为何训练2个月仅花557.6万美元?
深度求索DeepSeek-V3:AI领域成本革命,预训练成本大幅降低 超低预训练成本,DeepSeek-V3引领AI行业新风向 近日,深度求索公司推出的DeepSeek-V3在AI领域引起了广泛关注。这一关注的核心原因,正是其超低的预训练成本。 预训练:AI大模型学习的基石 在AI大模型的学习过程中,“预训练”是一种至关重要的方法。它通过海量的数据,训练出一个庞大的模型。这一过程需要大量的数据和强大的算力支持,每次迭代都可能耗资数百万至数亿美元。 DeepSeek-V3:预训练成本大幅降低 官方技术论文显示,DeepSeek-V3在预训练阶段仅使用了2048块GPU进行2个月的训练,总花费仅为557.6万美元。这一成本相比GPT-4o的1亿美元,降低了十几倍。 深度求索:AI界的“小米” 早在2024年5月,深度求索发布的DeepSeek-V2就因其低廉的定价引发了行业关注,被誉为“AI界的拼多多”。马千里认为,DeepSeek-V3更像是“小米”,贴近成本定价,并且自产自销。 自研架构与算力,DeepSeek-V3的秘诀 马千里指出,DeepSeek-V3训练成本较低的原因,离不开深度求索团队自研的架构和算力。他们拥有与大厂相当的算力储备,并且更注重底层的模型。 数据与算法优化,DeepSeek-V3的巧思 “ChatGPT走的是大参数、大算力、大投入的路子,而DeepSeek-V3的路径则用了更多的巧思。”马千里表示,DeepSeek-V3依托数据与算法层面的优化创新,高效利用算力,实现了较好的模型效果。 深度求索的DeepSeek-V3以其超低的预训练成本,为AI领域带来了新的可能性。随着技术的不断进步,我们有理由相信,DeepSeek-V3将引领AI行业走向更加高效、低成本的未来。