中国为Openai的Chatgpt发布了便宜的开源竞争对手 ,它让一些科学家感到兴奋和硅谷担心 。
DeepSeek是该创新背后的中国人工智能(AI)实验室,于2024年12月下旬推出了其免费的大型语言模型(LLM)DeepSeek-V3,并声称它在两个月内接受了558万美元的培训 ,并获得了培训。其硅谷竞争对手所需的时间和成本的一小部分。
紧随其后的是一个更新的模特,名为DeepSeek-R1,周一(1月20日)发行 。在第三方基准测试中,DeepSeek-V3与OpenAI的GPT-4O和Anthropic的Claude Sonnet 3.5的功能相匹配 ,而在包括Meta的Llama 3.1和Alibaba的Qwen2.5的同时,在包括解决问题,编码和数学的任务中。
现在 ,R1在许多相同的测试中还超过了Chatgpt的最新O1型号。这种令人印象深刻的表现在其他模型的一小部分,其半开放源性的性质以及对图形处理单元的明显较少培训(GPU)的培训使AI专家赞叹不已,并提高了中国AI模型的幽灵 ,超过了美国的AI模型。
Openai的战略合作伙伴Microsoft的首席执行官Satya Nadella于1月22日在瑞士的世界经济论坛上说:“我们应该非常非常重视中国的发展 。”
有关的: AI现在可以复制自己—一个让专家恐惧的里程碑
AI系统使用从人类输入中获取的培训数据学习,这使他们能够根据该培训数据集中出现的不同模式的概率生成输出。
对于大型语言模型,这些数据是文本。例如 ,在2023年发行的OpenAI的GPT-3.5接受了大约570GB的文本数据培训,该文本数据是从存储库Common Crawl&Mdash进行的 。大约3000亿个单词—取自书籍,在线文章 ,Wikipedia和其他网页。
推理模型(例如R1和O1)是标准LLM的升级版本,使用称为“思想链 ”回溯和重新评估其逻辑的方法,这使他们能够以更高的精度处理更复杂的任务。
这使推理模型在寻求将AI融入其工作的科学家和工程师中很受欢迎 。
但是,与Chatgpt的O1不同 ,DeepSeek是一种“开放权重”模型(尽管其培训数据仍然专有)使用户可以在内部凝视并修改其算法。同样重要的是,它的用户价格降低了;比O1少27倍。
除了表现外,DeepSeek周围的炒作源于其成本效率 。与竞争对手为培训竞争对手培训的数千万到数亿至数亿到数亿至亿万的预算相比 ,该模型的预算很小。
此外,美国出口控制措施限制了中国公司访问最佳AI计算芯片,迫使R1的开发人员构建了更智能 ,更节能的算法,以弥补其缺乏计算能力。据报道,Chatgpt需要10,000名NVIDIA GPU来处理其培训数据 ,DeepSeek工程师说,他们获得了相似的结果,而仅超过2,000 。
这将转化为有用的科学和技术应用 ,或者DeepSeek是否只是为ACE基准测试训练其模型,还有待观察。科学家和AI投资者正在密切关注。
本文来自作者[admin]投稿,不代表东辰文化立场,如若转载,请注明出处:http://mzwhys.cn/jyan/202506-1205.html
评论列表(4条)
我是东辰文化的签约作者“admin”!
希望本篇文章《中国研究人员刚刚在两个月内建立了一个开源竞争对手。硅谷被吓坏了。》能对你有所帮助!
本站[东辰文化]内容主要涵盖:生活百科,小常识,生活小窍门,知识分享
本文概览:中国为Openai的Chatgpt发布了便宜的开源竞争对手,它让一些科学家感到兴奋和硅谷担心。DeepSeek是该创新背后的中国人工智能(AI)实验室,于2024年12月下...