财新传媒
环科 > 要闻 > 正文

DeepSeek团队研究:相信长期主义开源理念可扩展大语言模型

文|财新 徐路易
2025年01月28日 15:53
DeepSeek大语言模型项目团队在论文中特别提到,DeepSeek大语言模型是一个长期项目,致力于推进发展开源语言模型。长期主义和开源能够支持持续创新,促进社区合作,并确保模型能够适应新的数据、技术和研究见解
资料图:DeepSeek。图:视觉中国

  【财新网】中国人工智能初创企业DeepSeek(深度求索)正给全球科技市场带来震撼。2025年初,DeepSeek发布新一代推理模型R1,该模型在性能上与OpenAI的o1模型相当,训练成本却仅为557.6万美元,仅为Meta训练大模型纯算力成本的1/10。这一突破在全球AI领域和资本市场引发了巨大震动。R1模型的开源、低成本和高性能也成为全球技术界的焦点。

  2024年1月,DeepSeek大语言模型团队曾在预印本平台ArXiv发表论文《以长期主义扩展开源语言模型》,深入研究并探讨了他们对于开源模型规模效应(scaling law)的理解。基于对规模效应的研究和理解,团队实现了DeepSeek Chat模型,此后发布的多个升级版本至R1,都是基于DeepSeek Chat模型逐步升级改造而来。

  推荐进入财新数据库,可随时查阅宏观经济、股票债券、公司人物,财经数据尽在掌握。

责任编辑:冯禹丁 | 版面编辑:刘春辉
推广

财新网主编精选版电邮 样例
财新网新闻版电邮全新升级!财新网主编精心编写,每个工作日定时投递,篇篇重磅,可信可引。
订阅