DeepSeek的爆紅更像是一場過度炒作的現象,目前市場傳聞與真實情況有所落差

近期,DeepSeek無疑是全球科技界最受矚目的焦點。然而,DeepSeek的爆紅更像是一場過度炒作的現象,目前市場傳聞與真實情況有所落差。

✍️ #DeepSeek背後是中資避險基金

DeepSeek的背後,其實有個不容忽視的推手:High-Flyer(幻方量化)。這是一家中國的對沖基金,早期就意識到人工智慧在金融以外領域的巨大潛力,並持續擴增其GPU供應。

High-Flyer早在2021年,也就是晶片出口管制之前,就投資了1萬顆A100GPU。而隨著High-Flyer的AI技術不斷提升,他們決定在2023年5月成立DeepSeek,專注於人工智慧的研發。

✍️ #訓練成本不只600萬美元

研究半導體和人工智慧的分析公司SemiAnalysis指出,600萬美元僅為預訓練過程中的GPU成本,並非模型全部成本。實際總成本遠高於此,因為還包括研發、硬體的總擁有成本(TCO)等。

做為參考,Claude 3.5 Sonnet的訓練成本高達數千萬美元。SemiAnalysis認為,如果訓練成本真的只有幾百萬美元,Anthropic就不需要從Google和Amazon募集數十億美元的資金。

✍️ #R1模型的推論能力是新典範

DeepSeek的R1模型也備受關注,其效能可與OpenAI的o1相提並論,後者甚至是去(2024)年9月才發布的。

SemiAnalysis指出,DeepSeek能夠如此迅速趕上,是因為推論能力是新的典範,迭代速度更快,而且可以透過較少的運算資源獲得顯著的進展。過去的範例主要依賴預訓練,但現在這變得更加昂貴,且難以獲得穩定的進展。

新的典範著重於透過合成資料生成和RL(強化學習)在現有模型上進行後訓練,這使得能夠以較低的成本更快地獲得進展。由於門檻較低,且容易優化,DeepSeek能夠比以往更快地複製o1的方法。

然而,隨著各家廠商開始研究如何在新的典範中擴展規模,趕上領先地位所需的時間可能會增加。

✍️ #Google的強力競爭

雖然R1引起了市場與大眾的關注,但Google在R1發布前一個月就推出了一款更便宜的推論模型:Gemini Flash 2.0 Thinking。

根據基準測試結果,Flash 2.0 Thinking的表現優於R1。SemiAnalysis認為,Google的模型非常穩健,在許多方面都可與R1相提並論,但並未受到相同的關注。

這可能是由於Google的市場策略和使用者體驗不佳所致,也可能是因為R1的中國背景更引人注目。

✍️ #DeepSeek將引發AI價格戰

SemiAnalysis認為,DeepSeek的創新對於利潤率有深遠影響。他們預期,DeepSeek正在補貼價格以獲得市佔,實際上沒賺到錢。此外,傑文斯悖論(Jevons paradox)正在發生。

這場由中國新創引發的人工智慧價格戰,不僅考驗著現有業者的應對策略,更可能加速產業洗牌,為全球科技產業帶來新一輪的變革。