
发布日期:2025-03-02 04:29 点击次数:169
转自:中国电子报国产 自拍偷拍
价钱亲民的DeepSeek-V3及R1差异在2024年12月和2025年1月上线,随之而来,全球最大数据中心GPU供应商英伟达的股价和市值应声下挫。笔据Stock Analysis数据,以月为单元,英伟达市值在2024年12月和2025年1月差异下降2.86%和10.59%。当地时刻1月27日,英伟达股价较上一个交往日(1月24日)下落近17%,市值挥发5920亿好意思元。
尽管2月英伟达市值回调,其股市碰到仍值得警悟。2024年以来,成本阛阓对英伟达信心满满,上一次市值跌去双位数,如故2023年9月。昨年11月,英伟达一度取代苹果成为全球市值第一的上市公司。这份信心,为何出现了动摇?
在OpenAI推出的ChatGPT卷起AIGC海浪之初,大模子的参数限度与GPU的集群限度深度绑定。Omdia分析称,微软在2024年购买了48.5万块英伟达HopperGPU,OpenAI o1大模子即是在微软Azure的AI基础枢纽测验。Meta在2022年构建了16000块英伟达A100构成的算力集群,以复旧Llama和Llama2大模子的发展,又在2024年3月晓示建立两个由24576块英伟达H100 GPU构成的集群,以测验Llama3。
如斯崇高的测验成本,关于大模子厂商的ROI(投资请问率)是一个巨大的磨真金不怕火。有报谈称,OpenAI瞻望2024年营收37亿好意思元,损失50亿好意思元。红杉成本投资东谈主曾臆测,2023年东谈主工智能行业在用于测验先进东谈主工智能模子的英伟达芯片上花消了500亿好意思元,但仅带来30亿好意思元的收入。因而,关于大模子拓荒商来说,除了拓展工作场景以晋升盈利才气,怎样裁汰大模子的测验和部署成本相通枢纽。
这亦然为什么DeepSeek-V3照旧推出,就备受阛阓可爱——它让业界看到了大模子测验从“GPU堆料”走向“深耕易耨”的可能性。
具体来看,6710亿参数的DeepSeek-V3在配备2048块英伟达H800 GPU的集群上测验,总共这个词测验历程用时278.8万个H800 GPU小时,总成本为557.6万好意思元(按照每GPU小时2好意思元的租用价钱谋划)。在GPU用量、测验用时、算力成本上,较同等性能的闭源模子大幅缩减。
之是以能用如斯极少的谋划资源完成大限度参数目的测验,收获于DeepSeek团队对算法、测验框架和硬件的优化协同。
从架构来看,DeepSeek-V3沿用了在DeepSeek-V2进行考证的多头潜在细心力(MLA)和DeepSeek MoE进行具有成本效益的测验。多头潜在细心力机制通过将键值(KV)缓存压缩为潜在向量,权贵裁汰了谋划成本,加速了推理速率并提高了费解量。同期,巨匠夹杂(MoE)架构通过稀零谋划罢了高效推理。
在测验精度上,Deepseek-V3复旧FP8谋划和存储,在加速测验速率的同期,减少了对GPU内存的使用。
在测验框架上,Deepseek-V3团队打造了HAI-LLM框架,并进行了细腻的工程优化。当先是联想了DualPipe(双管谈)算法以罢了高效的管谈并行,并罢了了谋划和通讯重迭(而不是按照串行格式,完成谋划再进行通讯),从而科罚了跨节点巨匠并行带来的巨大通讯支出问题。其次是拓荒了跨节点全对全通讯内核,使InfiniBand(IB)和NVLink的通讯充分重迭,仅需20个流式多处理器就能充分诈欺IB和NVLink的带宽。其三是优化了内存占用,在不使用成本崇高的张量并行的情况下,也约略测验DeepSeek-V3。
测验成本的压缩,使DeepSeek约略提供远低于其对办法闭源模子(DeepSeek-V3性能并排GPT-4o, DeepSeek-R1性能对标OpenAI o1)的API工作价钱。
记者谋划得知国产 自拍偷拍,DeepSeek-V3的每百万输入tokens价钱约为GPT-4o的5.5%(缓存射中)/11%(缓存未射中),每百万输出tokens价钱约为GPT-4o的11%。DeepSeek-R1的每百万输入tokens价钱约为OpenAI o1的1.8%(缓存射中)/3.7%(缓存未射中),每百万输出tokens价钱约为OpenAI o1的3.7%。
DeepSeek与对办法OpenAI模子API价钱对比
GPU规格和用量降下来了,大模子价钱也低廉了,这关于产业界来说是一个好音书,关于顶端GPU厂商来说,则带有一些不笃定性。
当先,云厂商和数据中心厂商在畴前两年“买爆”英伟达,很猛进度上是为大模子的测验、部署和运行提供基础枢纽,可一朝MoE、小模子等更具成本效益的模子流行开来,头部买家能否抓续现存的GPU采购量,要打一个问号。
其次,大模子测验使用的GPU向来由英伟达独占鳌头,但若算力进入不再高企,其他厂商也有了分一杯羹的契机。当今,龙芯中科、昆仑芯、燧原科技、华为昇腾、海光信息、天数智芯、奕斯伟等多家国产芯片企业晓示与DeepSeek适配。
再次,裁汰测验支出的可能性,也让强大GPU买家开动将视力转向其他架构——尤其是自家研发的ASIC芯片,以加多硬件收入、增强云工作的举座性并晋升客户粘性。
以全球最大的云工作厂商亚马逊AWS为例,2月12日,亚马逊AWS晓示已于1月上线DeepSeek系列大模子,用户不错使用亚马逊云科技自研芯片Trainium和Inferentia通过Amazon EC2或者Amazon SageMaker部署DeepSeek-R1蒸馏模子,限度从15亿参数的Qwen蒸馏模子到706亿参数的Llama蒸馏模子不等。亚马逊自研芯片的一个进犯野心即是裁汰测验成本,与基于GPU的同类实例比较,Trainium芯片复旧的Amazon EC2Trn1实例,可恣意50%的测验成本。
OpenAI也在近期再传自研芯片的音书。据悉,OpenAI将在年内完成首款自研芯片联想,规划秉承台积电3nm工艺制造。
此外,LPU(言语处理器)受到阛阓温雅,秉承RISC-V辅导集的AI SoC也罢了了与DeepSeek的适配。
虽然,也有不雅点觉得,DeepSeek对算力产业是恒久利好。
比如,在英伟达市值挥发5920亿好意思元的阿谁交往日,微软CEO萨提亚·纳德拉(SatyaNadella)在应答媒体平台示意:“杰文斯悖论再次应验!跟着东谈主工智能变得更高效、更易用,咱们会看到其使用量急剧飙升,它会造成一种咱们何如齐用不够的大家资源。”
杰文斯悖论是一种经济学表面,意见当技能朝上提高了资源使用的成果,即减少资源使用的数目,但成本裁汰导致需求加多,令资源消耗的速率不减反增。
这套逻辑,虽然也适用于算力。既然DeepSeek等MoE模子裁汰了单个大模子测验所需的算力支出,使大模子更具性价比,就会加速大模子的落地着花。要是九行八业部署大模子的积极性晋升,从永恒来看,对算力的举座需求就有较为满盈的高潮空间,当然利好GPU等算力芯片的发展。
仅仅这杯羹,不一定再由英伟达的顶端GPU独占,算力需求带来的利润巨流,也有时再被CUDA这谈大坝拘押。
在DeepSeek-V3的技能论说中,DeepSeek团队向东谈主工智能硬件供应商提议了芯片联想建议,包括提高张量中枢中FP8通用矩阵乘法的累加精度、复旧分块和块级量化等。关于芯片企业来说,除了抓续晋升芯片性能,约略与大模子拓荒团队进行紧密配合、将工程化作念好作念精,会更有契机在“成果至上”的测验竞赛中站到前排。
延迟阅读:
DeepSeek一骑绝尘,“豆包们”何如办?连络巴黎东谈主工智能活动峰会,这些信息需要了解
作家丨张心怡
裁剪丨邱江勇
好意思编丨马利亚
监制丨连晓东
点个“在看”不失联国产 自拍偷拍
]article_adlist-->