文章标题
2025年1月20日,中国人工智能初创公司DeepSeek(深度求索)推出了DeepSeek-R1(“R1”)模型,这是一款性能可与OpenAI最新的o1模型相媲美的推理模型。新模型的推出很快引起了广泛的关注,因为它以更低的价格提供了类似的功能。
R1发布后,英伟达(Nvidia)的股价下跌了17%,导致其市值损失近6000亿美元,创其历史单日最大跌幅。分析师将这一下跌归因于人们对人工智能市场变化的担忧,DeepSeek被视为潜在的颠覆者。尽管英伟达的股票已经部分反弹,但中国人工智能公司的崛起加剧了关于人工智能基础设施和成本效率竞争的讨论。
DeepSeek还面临着关于使用模型蒸馏技术的猜测,模型蒸馏是一种用于将知识从大型预训练模型转移到较小模型中的技术,一些服务在大型语言模型(LLM)的使用条款中禁止使用这种技术。尽管如此,由于这种方法能够创建更高效、更具成本效益的模型,因此这种使用仍然是业内的一种常见做法。
在发给《纽约时报》的一份声明中,OpenAI的代表莉兹.布尔乔亚(Liz Bourgeois)表示,OpenAI正在就DeepSeek是否可能不当使用其模型的情况进行调查。她说:“我们要采取主动的对策来保护我们自己的技术,我们还将继续与美国政府密切合作,保护美国目前能够建造的最有能力的模型。”
与此同时,OpenAI的首席执行官山姆.阿尔特曼(Sam Altman)对DeepSeek的推出表示欢迎,称“拥有新的竞争对手是一件令人振奋的事情”。在社交媒体的发文中,他将DeepSeek的R1模型描述为“令人印象深刻,尤其是在他们能够以这样低的价格提供产品方面”。关于采取法律行动,阿尔特曼在东京告诉记者,他们“并没有起诉DeepSeek的计划”。
2024年12月,DeepSeek开放其模型供免费使用和修改,包括DeepSeek-V3(“V3”)模型。2025年1月10日,该公司发布了一款由V3模型提供支持的免费聊天机器人应用程序,该应用程序迅速流行起来,并且在苹果(Apple)和谷歌(Google)下载排行榜上名列前茅。仅在几天之内,这款免费的聊天机器人应用程序的下载量就超过了ChatGPT。
DeepSeek声称,开发免费的开源LLM仅用了2个月的时间,耗资560万美元,使用了大约2000个英伟达的H800芯片。然而,分析师认为,这一成本可能被低估了,因为它可能排除了计算中的其他费用和考虑因素。可是,尽管如此,他们指出,与谷歌、微软和OpenAI等美国公司在其模型上花费的数亿至数十亿美元的资金相比,这一数额仍然是微不足道的。
DeepSeek成功的一个关键因素在于它使用了专家混合(MoE)方法。这种方法允许DeepSeek在每次查询时选择性地仅激活其神经网络中最相关的部分,从而优化性能并降低计算成本。相比之下,ChatGPT以其广泛的对话能力和跨不同主题的易用性而为人熟知。虽然ChatGPT擅长处理复杂和细微的查询,但DeepSeek在处理技术性和细分任务时响应速度更快。
尽管DeepSeek能否保持其快速增长仍是个未知数,但其颠覆性影响已经在重塑整个市场格局。(编译自www.asiaiplaw.com)
翻译:王丹 校对:吴娴