來源:連線insight(ID:lxinsight) 作者:王慧瑩
今年春節(jié),一款中國大模型席卷了全球AI圈。
引發(fā)這場全球范圍內AI討論的是DeepSeek R1,直接對標OpenAI去年9月發(fā)布的OpenAI o1系列模型。
一些數(shù)據(jù)足以證明DeepSeek的火爆。1月27日,DeepSeek在中國區(qū)和美國區(qū)蘋果App Store免費榜上同時沖到了下載量第一;DeepSeek單周下載量高達約240萬次……
直到DeepSeek R1發(fā)布之前,OpenAI o1還讓中國大模型廠商們望塵莫及。DeepSeek R1的出現(xiàn),讓OpenAI CEO奧特曼感嘆,“這是個令人印象深刻的模型”,英偉達更是稱贊DeepSeek R1為最先進的大語言模型。
更重要的是,相比OpenAI在模型上的閉源,以及o1模型付費使用限制,DeepSeek R1不僅開源,并且免費供全球用戶無限調用。
這場由DeepSeek掀起的AI風暴之下,也引發(fā)了全球范圍內AI從業(yè)者的跟隨,也引起了一些恐慌和攻擊。
“大模型開源之王”的Meta內部員工爆出“Meta生成式人工智能部門陷入恐慌”;OpenAI的壓力也溢于言表,兩周內接連發(fā)布三個大模型:兩個AI智能體 Operator、Deep Research、推理模型o3-mini。
另一方面,1月28日凌晨,DeepSeek官網(wǎng)連續(xù)發(fā)布兩條公告稱,DeepSeek線上服務受到大規(guī)模惡意攻擊。
DeepSeek儼然站在了風暴中心。很關鍵的一點在于,DeepSeek打破了大模型行業(yè)拼算力的共識,DeepSeek用不到OpenAI十分之一的資源,就做出了性能對標OpenAI o1的DeepSeek R1。
這時候問題來了,倘若大模型不需要那么多算力進行訓練和推理,AI上下游產業(yè)還會那么性感嗎?
資本市場給出了答案。截至1月27日美股收盤,美股科技股大跌,費城半導體指數(shù)下跌9.2%、英偉達股價下跌近17%。
一夜之間,一切與AI有關的環(huán)節(jié)都發(fā)生了微妙的變化。蝴蝶效應還在繼續(xù),AI行業(yè)的走向也在持續(xù)變幻莫測,DeepSeek似乎成了重新制定游戲規(guī)則的那一個。
01
被攻擊、被力挺,DeepSeek被“包圍”了
2023年春節(jié),ChatGPT的橫空出世點燃了AI行業(yè)的火種。自那之后,幾乎每年春節(jié)都有爆火的大模型出現(xiàn)。2024年是Sora,2025年是DeepSeek。
不同的是,前兩年站在C位的公司是美國的OpenAI。今年,站在C位的是中國的深度求索。
連續(xù)多日登頂蘋果App Store全球下載榜首;DeepSeek上線20天,日活突破2000萬。作為一家AI創(chuàng)業(yè)公司,這股來自東方的“神秘力量”徹底沖擊了AI行業(yè)。
這股力量很快席卷了遠在大洋彼岸的硅谷。要知道,自文本大模型ChatGPT橫空出世后,視頻大模型Sora,再到深度推理模型o1,OpenAI是行業(yè)的范式企業(yè),其他大模型企業(yè)通常扮演追隨的腳步。
拿o1大模型來說,自去年9月推出以來,國內大模型企業(yè)尚未推出能與之對標的大模型。這一次,DeepSeek用更小的算力、更低的成本,帶來了DeepSeek R1,無疑讓市場眼前一亮。
實際上,相比OpenAI和它的中國效仿者們用數(shù)億美元訓練大模型,DeepSeek的思路始終是“花小錢,辦大事”。
早在去年12月底,DeepSeek發(fā)布對標GPT-4o的V3模型,其僅使用2048塊英偉達H800芯片,耗費約560萬美元。相比之下,GPT-4o使用上萬塊英偉達H100芯片(性能優(yōu)于H800),訓練成本約1億美元。
去年5月,DeepSeek發(fā)布DeepSeek-V2 ,價格僅為GPT-4 Turbo的近百分之一。也是從那時候開始,字節(jié)、阿里、百度等大模型相繼宣布降價,DeepSeek更是一年內3次降價,每次降幅超過85%。
無論是價格,還是訓練成本,DeepSeek都不追求大而全的路線,而是走在細分和創(chuàng)新的路線上。
比如,DeepSeek提出了一種新的MLA(多頭潛在注意力)架構,與DeepSeek MoESparse (混合專家結構)結合,把顯存占用降到了其他大模型最常用的MHA(多頭注意力)架構的5%-13%。
此外,DeepSeek通過“數(shù)據(jù)蒸餾”技術來訓練模型,即用一個高精度的通用大模型當老師,僅用1/5的數(shù)據(jù)量達到同等效果,促成了成本的下降。
對標OpenAI只是表面,本質上,DeepSeek沖擊的是整個大模型行業(yè),也面臨著前所未有的壓力。
在登頂中國和美區(qū)蘋果應用商店24小時后,DeepSeek再次站在風暴中心:OpenAI對媒體指控 DeepSeek未經許可“蒸餾”了其專有技術。
美國多位官員也發(fā)聲支持這一指控,包括特朗普的人工智能顧問大衛(wèi)·薩克斯、特朗普提名的美國商務部長霍華德·盧特尼克。
所謂的“蒸餾”,指通過對更大、更強模型的學習,讓小型模型能夠在特定任務上以更低的成本取得類似效果。
此次爭議源于OpenAI的最大投資方微軟。1月29日,據(jù)外媒報道,微軟的安全研究人員發(fā)現(xiàn),DeepSeek相關人士可能使用 OpenAI 應用程序編程接口 (API),未經授權竊取了大量數(shù)據(jù)。
此外,DeepSeek的線上服務一直在遭到不同程度的攻擊。從最開始是SSDP、NTP反射放大攻擊,到1月28日增加了大量HTTP代理攻擊,針對DeepSeek的網(wǎng)絡攻擊一直在層層加碼。
被質疑、被攻擊的另一面,還有不少企業(yè)在迅速適應并擁抱DeepSeek帶來的新變化。
在云領域,華為云、騰訊云、阿里云、百度智能云、火山引擎、京東云、360數(shù)字安全等多平臺都宣布上線DeepSeek大模型。此前海外的亞馬遜云、微軟智能云等云巨頭也已官宣支持。
在芯片領域,繼英偉達、AMD、英特爾等海外芯片巨頭加入支持,國內芯片公司天數(shù)智芯、摩爾線程接連宣布支持DeepSeek模型。
無論是被攻擊,還是被支持,DeepSeek被包圍是意料之中的事,這也是行業(yè)明星項目的必經之路。也只有經得住質疑與對比,才能在“百模大戰(zhàn)”中站穩(wěn)腳跟。
02
靠技術創(chuàng)新,DeepSeek掀起AI風暴
自2023年以來,大模型行業(yè)從來不缺新聞。但堪稱爆火的項目,沒幾個。ChatGPT、Kimi是,如今的DeepSeek也是。
某種程度上來講,和眾多追隨OpenAI的大模型不一樣,DeepSeek成了新一輪AI風暴的發(fā)起者。
當前,DeepSeek R1被公認為是目前最先進的大語言模型之一,能夠提供高質量的語言處理能力,其在數(shù)學、代碼、自然語言推理等任務上的性能可比肩OpenAI o1模型正式版。
在AIME 2024數(shù)學基準測試中,DeepSeek R1得分率為79.8%,OpenAI o1的得分率為79.2%;在MATH-500基準測試中,DeepSeek R1得分率為97.3%,OpenAI o1的得分率為96.4%。
圖源DeepSeek微信公眾號
DeepSeek R1強大的推理能力,離不開DeepSeek的技術創(chuàng)新,其創(chuàng)新性的訓練方法也給行業(yè)提供了新的思路:DeepSeek摒棄了傳統(tǒng)的監(jiān)督微調(SFT)路徑,轉而通過強化學習(RL)來優(yōu)化推理路徑。
普遍觀點認為,大模型訓練必須先通過大量標注數(shù)據(jù)進行 SFT,才能讓模型具備基礎能力,之后才考慮使用RL進行能力提升。OpenAI此前的數(shù)據(jù)訓練非常依賴人工干預,耗費了不少人力和財力。
然而,DeepSeek這項研究發(fā)現(xiàn),大模型可以完全依靠強化學習獲得強大的推理能力,無需任何監(jiān)督式微調。
這項訓練方法,率先出現(xiàn)在實驗性R1-Zer版本上,隨后又在DeepSeek-V3-base模型上應用強化學習,完全拋開了傳統(tǒng)的監(jiān)督式微調環(huán)節(jié)。
最終結果顯示,DeepSeek R1在完全沒有人工標注數(shù)據(jù)的情況下,DeepSeek系列模型通過不斷嘗試和反饋,展現(xiàn)出了持續(xù)的自我進化能力。
在技術創(chuàng)新方面, DeepSeek采用了創(chuàng)新的設計,如 MoE-2048 架構。其中,每個token能激活8個專家模塊,使得模型參數(shù)的利用率大幅提升至72%,訓練效率相較于傳統(tǒng)的Transformer架構提高了整整3倍。
DeepSeek大模型能力已然有目共睹,更為重要的是,DeepSeek正在用創(chuàng)新性的低成本思路顛覆市場格局。
以DeepSeek R1為例,其性能與GPT o1相當,然而預訓練成本卻僅為557.6萬美元,僅為GPT-4o的十分之一。同時,DeepSeek API服務定價遠低于OpenAI,以輸出為例,輸出每百萬tokens 16元(約2.2美元),GPT o1輸出每百萬tokens 60美元。
站在整個行業(yè)視角,DeepSeek在提供更便宜、更好用的深度推理模型的同時,踐行開源理念,讓深度推理模型不再是一個黑匣子,給行業(yè)也帶來了新的啟發(fā)。
這兩年,開源和閉源的路線之爭是大模型行業(yè)討論的焦點,前者以Meta為代表,后者以OpenAI為代表。
此前,OpenAI推出的ChatGPT、Anthropic推出的Claude均采用閉源,并憑借頭部的影響力,將閉源路線推到領先位;如今,DeepSeek的成功,無疑給支持開源路線的人信心。
DeepSeek爆火后,同樣支持開源路線的Meta首席人工智能科學家Yann LeCun表示,DeepSeek的成功代表了開源人工智能模型的勝利。“開源模型正在超越專有模型。”他在LinkedIn上的一篇帖子中寫道。
實際上,像DeepSeek這樣開源更深遠的意義在于,將如何構建模型的過程通過論文的形式公開,為行業(yè)提供了極大的透明度,推動整個大模型行業(yè)的進步。
伴隨DeepSeek R1既免費,又開源,還躋身第一梯隊的超預期表現(xiàn),直接引發(fā)了市場對大模型行業(yè)的質疑:眾多科技巨頭投入更多算力和資金做出來的東西,和DeepSeek水平相似,“OpenAI們”真的值那么多估值嗎?
DeepSeek不僅打破了AI大模型領域“拼算力”的邏輯,還動搖了投資者對高科技晶片的信心:AI行業(yè)也許并不需要那么多晶片,也可以訓練出性能好的大模型。
多方的聲音直接沖擊了美國科技股的資本表現(xiàn)。1月27日美股收盤,美國科技股大跌,其中英偉達股價下跌近17%,市值蒸發(fā)近6000億美元,規(guī)模創(chuàng)美股史上最大。
這場由DeepSeek卷起的風暴還在繼續(xù)。從市場競爭格局來看,DeepSeek的崛起打破了原有的平衡,對傳統(tǒng)的 AI 巨頭構成了挑戰(zhàn),促使整個行業(yè)重新審視自身的技術路線和市場策略。
03
恐慌、跟隨、降價,DeepSeek引起的蝴蝶效應來了
今年春節(jié)之前,提起DeepSeek,大多數(shù)人還有些陌生,行業(yè)的目光也都集中在OpenAI以及一些科技巨頭身上。
沒想到,DeepSeek的橫空出世讓本就不平靜的湖水再度泛起漣漪,也順勢引發(fā)了一系列的蝴蝶效應。
正如英偉達高級研究科學家Jim Fan評價道:“我們正生活在一個特殊的時代:一家非美國公司在真正踐行著OpenAI最初的使命——開展真正開放的前沿研究,為所有人賦能。”
有人驚嘆,也有人恐慌。
最先坐不住的莫過于OpenAI。自兩年前推出ChatGPT以來,OpenAI就是行業(yè)風向標,OpenAI的很多思路也都被行業(yè)認可。
比如開源路線。2月1日,奧特曼參與海外社交平臺Reddit “問我任何事” 的問答活動?;顒又校瑠W特曼首次承認,OpenAI的閉源策略“站在了歷史錯誤的一邊”。如奧特曼所說,“我們需要找到一個不同的開源策略”,“目前的OpenAI正處于一個‘復雜而微妙’的境地,并且面對重重挑戰(zhàn)”。
比如訓練方式。此前,OpenAI定義了大模型訓練的四個階段:預訓練、監(jiān)督微調、獎勵建模、強化學習?,F(xiàn)在,這個范式被打破了,DeepSeek已然證明可以跳過和簡化某些環(huán)節(jié)來提升模型的訓練效率和性能。
又比如“尺度定律”。這兩年,OpenAI CEO奧特曼一直堅稱,OpenAI的業(yè)務有三個關鍵因素推動:芯片、數(shù)據(jù)和資金。人們向他的公司投入的這三個元素越多,就像向蒸汽火車的熔爐里投入煤炭一樣,它產生的人工智能就越強大。
如今,這個理論再次被DeepSeek擊破。如果能用更便宜甚至免費的模型來達到OpenAI的成績,那OpenAI的商業(yè)模式將受到質疑,其市場份額也將被蠶食。
如此猛烈的沖擊,讓OpenAI沒有太多時間恐慌,OpenAI必須迅速做出跟隨式地調整。
2月1日,OpenAI發(fā)布o3-mini,這是OpenAI首個開放給免費用戶的推理模型;2月5日,OpenAI 宣布o3-mini大語言模型正式向ChatGPT用戶和開發(fā)者開放使用;2月6日,OpenAI宣布向所有用戶開放ChatGPT搜索功能,且無需注冊。
幾天之內的“放大招”,都來自DeepSeek帶來的壓力。
據(jù)Wired報道,OpenAI提前發(fā)布o3-mini是為了應對DeepSeek上周一發(fā)布的專注推理的大語言模型 R1。后者的發(fā)布引發(fā)了人工智能股票的大幅拋售,也讓人們對OpenAI模型的成本效益產生懷疑。
據(jù)OpenAI介紹,o3-mini是其最具成本效益的推理模型,在科學、數(shù)學、編程等領域的能力較強,同時兼具o1-mini的低成本和低延遲特點,o3-mini可與聯(lián)網(wǎng)搜索功能搭配使用,不過o3-mini還不支持視覺功能。
與此同時,OpenAI也在提供越來越低的API調用價格。據(jù)OpenAI介紹,自GPT-4推出以來,每個token的定價下降了95%。o3-mini輸入、輸出每百萬tokens的定價分別為0.55美元、4.4美元,仍高于DeepSeek R1。
OpenAI的恐慌與跟隨只是這場蝴蝶效應的一個切面,DeepSeek這只蝴蝶扇動翅膀的力度很大。
1月30日,Anthropic CEO達里奧·阿莫迪發(fā)萬字長文呼吁“鎖死芯片出口”,以確保AGI只發(fā)生在美國。當日,外媒援引消息人士的話稱,美國正在考慮對售華芯片實施額外限制的可能性,其中包括Dario建議限制的芯片 H20。
當然,我們都清楚,技術封鎖并非保持優(yōu)勢的長期有效手段,開放與合作才更有利于AI行業(yè)的未來發(fā)展。技術封鎖或許只是這場AI戰(zhàn)役的開端,以DeepSeek為代表的中國AI企業(yè)面臨的挑戰(zhàn)還有很多。
眼下,AI世界正發(fā)生一些變化。DeepSeek帶來的變革,正在深刻地變革整個AI產業(yè)鏈。低成本的開發(fā)模式或許將衍生出一系列低門檻的行業(yè)創(chuàng)新規(guī)則、創(chuàng)新方式,吸引更多創(chuàng)業(yè)玩家入場。
這場由DeepSeek掀起的新“ChatGPT”時刻,仍在發(fā)生新的故事。