财新传媒
财新传媒
1111111
财新通行证
T中

DeepSeek团队研究:相信长期主义开源理念可扩展大语言模型

文|财新 徐路易
2025年01月28日 15:53
DeepSeek大语言模型项目团队在论文中特别提到,DeepSeek大语言模型是一个长期项目,致力于推进发展开源语言模型。长期主义和开源能够支持持续创新,促进社区合作,并确保模型能够适应新的数据、技术和研究见解
news 原图 资料图:DeepSeek。图:视觉中国

  【财新网】中国人工智能初创企业DeepSeek(深度求索)正给全球科技市场带来震撼。2025年初,DeepSeek发布新一代推理模型R1,该模型在性能上与OpenAI的o1模型相当,训练成本却仅为557.6万美元,仅为Meta训练大模型纯算力成本的1/10。这一突破在全球AI领域和资本市场引发了巨大震动。R1模型的开源、低成本和高性能也成为全球技术界的焦点。

  2024年1月,DeepSeek大语言模型团队曾在预印本平台ArXiv发表论文《以长期主义扩展开源语言模型》,深入研究并探讨了他们对于开源模型规模效应(scaling law)的理解。基于对规模效应的研究和理解,团队实现了DeepSeek Chat模型,此后发布的多个升级版本至R1,都是基于DeepSeek Chat模型逐步升级改造而来。

责任编辑:冯禹丁 | 版面编辑:刘春辉

财新网所刊载内容之知识产权为财新传媒及/或相关权利人专属所有或持有。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。

如有意愿转载,请发邮件至hello@caixin.com,获得书面确认及授权后,方可转载。

推荐阅读
财新移动
说说你的看法...
分享
取消
发送
注册
 分享成功

订阅财新网主编精选版电邮>>