编程能力大大提升DeepSeek发布更新版V3模型

2025-03-26
浏览次数:
返回列表

  

编程能力大大提升DeepSeek发布更新版V3模型

  此次更新的最大亮点是编程能力的优化◆■★◆■。有网民使用V3-0324模型编写800多行代码,全程没有出现任何故障■◆◆★。

  让更多科技博主关注的是,V3-0324模型可直接在消费级硬件上运行◆■★,如搭载苹果M3 Ultra芯片的Mac Studio上,而不需要动辄千瓦级别功耗的数据中心。

  更新后的DeepSeek-V3模型大小为641GB,模型参数为6850亿。与V3相同■■,V3-0324模型采用混合专家(MoE)架构,并开源允许自由商用■■★◆。

  )发布了V3模型更新,加强了模型的编程能力■★★,显示这家公司希望在人工智能(AI)领域的激烈竞争中保持领先优势。

  M3 Ultra芯片在进行推理时的功耗不到200瓦,意味着V3-0324模型的部署和运营门槛已大大降低。

  初代DeepSeek-V3发布于2024年12月26日,这款模型自上线后便以高性价比火速“出圈■★★■■”。根据官方技术论文披露◆■◆,DeepSeek-V3模型的总训练成本约为557◆◆★.6万美元★◆■,而OpenAI的GPT-4o等模型的训练成本约为1亿美元。

  “风险投资节奏”网站报道认为,DeepSeek-V3-0324模型的发布◆◆■◆◆★,可能预示着DeepSeek-R2即将到来★◆■■★。DeepSeek一贯先推出基础模型,再推出专门优化推理能力的版本,如V3后不久发布的R1。

  路透社今年2月引述消息称,DeepSeek正加快推出R1模型的后续产品R2。据悉◆■■◆★◆,DeepSeek-R2原计划在5月初发布,但公司现在希望尽早推出。

  “风险投资节奏★◆★”网站认为◆■★■★,DeepSeek-R2的发布,可能成为直接挑战GPT-5的竞品。

  有AI研究者在社交平台X上发布评测指出,V3-0324模型在所有基准测试中都取得巨大进步★◆,可能已超越美国Anthropic公司的Claude 3◆★★.5 Sonnet◆★■◆,成为最强大的非推理模型。Claude 3.5 Sonnet是当前最受认可的商业AI模型之一◆◆★。

  综合彭博社和科技博客网站“风险投资节奏”网站的报道,AI开源模型DeepSeek-V3的更新版本V3-0324于24日深夜在AI开源平台低调上线。

×

福建凯发k8(中国)天生赢家,凯发K8官网入口,AG凯发官方网站智能装备股份有限公司