DeepSeek低調宣稱小更新，結果用2折價格達到R1水平

知危

2025-03-25 22:54:55

昨晚，DeepSeek無預警發(fā)布DeepSeek-V3-0324模型，此次更新雖被官方低調地稱為“小版本迭代”，但實測表現(xiàn)遠超預期。

該模型尤其在代碼生成、前端開發(fā)等方面顯著提升，甚至部分能力比肩Claude 3.7 Sonnet，引發(fā)全球AI社區(qū)熱議。

在大模型競技場測試KCORES中，DeepSeek-V3-0324代碼能力得分328.3分，超越普通版 Claude 3.7 Sonnet（ 322.3 分），接近Claude 3.7 Sonnet的思維鏈版本（334.8分）。

在Aider LLM Leaderboard排行榜中，DeepSeek-V3-0324在多語言基準測試中得分為 55%，比V3有顯著提升，比R1略低一些。在非思考/推理模型中，它排名第二，僅次于 Claude Sonnet 3.7 。

測試數(shù)據(jù)還表明，在表現(xiàn)良好的模型中，DeepSeek-V3-0324花費是最低的，比R1還低很多，只需大約1/5，擁有高到令人發(fā)指的性價比。

另外，Claude Sonnet 3.7 Thinking的花費是DeepSeek-V3-0324的33 倍，o1是 DeepSeek-V3-0324的167倍。

目前在DeepSeek官網(wǎng)，只需要關閉“深度思考”選項即可使用新模型。

Hugging Face上也提供了開源下載，下載地址：

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main

DeepSeek-V3-0324包含685B參數(shù)，較前代V3小幅增加，采用MoE（專家混合）架構，激活參數(shù)370億。網(wǎng)友實測DeepSeek-V3-0324支持4-bit量化，可在512GB M3 Ultra Mac上以20+token/s速度運行，磁盤占用僅352GB。新模型采用與DeepSeek-R1相同的MIT許可，允許自由修改、商用及模型蒸餾，比上一版V3更開放。

從測評結果來看，DeepSeek-V3-0324前端開發(fā)表現(xiàn)突出，媲美頂級商業(yè)模型。

X博主Deepanshu Sharma僅用簡單提示詞（“用 HTML/CSS/JS制作現(xiàn)代化登錄頁面” ），就能讓新版V3一鍵生成800+行代碼，且無錯誤運行，效果媲美Claude 3.7 Sonnet 。

在經(jīng)典彈跳小球測試中，DeepSeek V3-0324不僅比R1表現(xiàn)更好，博主Deepanshu Sharma還認為它生成了最流暢的動作。

在測試中o3-mini最初表現(xiàn)看起來不錯，但并沒有正確遵循物理原理，尤其是在視頻中間，球對重力沒有做出正確的反應。

Deepanshu Sharma評價DeepSeek V3-0324“表現(xiàn)得像唯一排名第一的非推理模型”。

據(jù)X網(wǎng)友karminski-牙醫(yī)介紹，在升級版的20小球物理模擬測試中，DeepSeek V3-0324 相比V3也表現(xiàn)更優(yōu)。

而新版V3與頭部推理模型的比較情況如下：

在火星任務測試中，DeepSeek-V3-0324提升巨大，星球、圖例渲染正確，發(fā)射和返回的窗口計算也有很大進步。

結合UI設計和物理模擬，X網(wǎng)友Parul Pandey還用DeepSeek-V3-0324生成了一個可交互物理模擬界面，通過AnyChat使用DeepSeek-V3-0324模擬水分子。

實際運行中，可以通過溫度滑塊提升溫度，讓分子呈現(xiàn)越來越快的前進和碰撞反彈運動。

提示詞：創(chuàng)建一個交互式模擬，顯示水分子形成和斷裂氫鍵的過程，同時顯示溫度滑塊。

對于本次升級的技術難度，有Reddit網(wǎng)友pigeon57434給出了比較中立的解讀：不用太驚嘆本次V3升級的幅度，因為RL （強化學習，Reinforcement Learning ）潛力極大。以QwQ-32B為例，盡管它實際上小了20倍，但它在某些方面的表現(xiàn)幾乎與R1一樣好，甚至比R1更好。它能那么強，只是因為擴展推理模型還有很大空間，甚至不需要新的基礎模型。我敢打賭，使用更復雜的技術，可以輕松獲得基于DeepSeek-V2.5的推理模型來擊敗R1，更不用說這個新版本的V3了。

總的來說，這樣的免費+高性能的組合將對OpenAI、Anthropic等閉源商業(yè)模型形成越來越大的壓力。

DeepSeek此次更新再次證明開源模型的爆發(fā)力，不僅技術指標逼近頂級商業(yè)AI，更以低成本、高自由度推動行業(yè)變革。

可以合理推測，此次更新有可能是R2的前置版本，類似去年V3( 24.12.16 )→R1 ( 25.01.20 ) 的發(fā)布節(jié)奏，或許幾周內我們可能迎來更強的推理模型R2。

隨著R2的臨近，全球AI競爭格局或將迎來新一輪洗牌。

上一篇：我們?yōu)楹蜗氩黄鹱畛醯臍q月？新研究揭秘“嬰兒健忘癥”

下一篇：小鵬規(guī)劃了5款增程車，包含轎車和SUV

青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院