被攻擊、被力挺、被跟隨，DeepSeek重新制定游戲規(guī)則

2025-02-07 10:45 DeepSeek

2被攻擊、被力挺、被跟隨，DeepSeek重新制定游戲規(guī)則

來源：連線insight（ID：lxinsight）作者：王慧瑩

今年春節(jié)，一款中國大模型席卷了全球AI圈。

引發(fā)這場全球范圍內AI討論的是DeepSeek R1，直接對標OpenAI去年9月發(fā)布的OpenAI o1系列模型。

一些數(shù)據(jù)足以證明DeepSeek的火爆。1月27日，DeepSeek在中國區(qū)和美國區(qū)蘋果App Store免費榜上同時沖到了下載量第一；DeepSeek單周下載量高達約240萬次……

直到DeepSeek R1發(fā)布之前，OpenAI o1還讓中國大模型廠商們望塵莫及。DeepSeek R1的出現(xiàn)，讓OpenAI CEO奧特曼感嘆，“這是個令人印象深刻的模型”，英偉達更是稱贊DeepSeek R1為最先進的大語言模型。

更重要的是，相比OpenAI在模型上的閉源，以及o1模型付費使用限制，DeepSeek R1不僅開源，并且免費供全球用戶無限調用。

這場由DeepSeek掀起的AI風暴之下，也引發(fā)了全球范圍內AI從業(yè)者的跟隨，也引起了一些恐慌和攻擊。

“大模型開源之王”的Meta內部員工爆出“Meta生成式人工智能部門陷入恐慌”；OpenAI的壓力也溢于言表，兩周內接連發(fā)布三個大模型：兩個AI智能體 Operator、Deep Research、推理模型o3-mini。

另一方面，1月28日凌晨，DeepSeek官網(wǎng)連續(xù)發(fā)布兩條公告稱，DeepSeek線上服務受到大規(guī)模惡意攻擊。

DeepSeek儼然站在了風暴中心。很關鍵的一點在于，DeepSeek打破了大模型行業(yè)拼算力的共識，DeepSeek用不到OpenAI十分之一的資源，就做出了性能對標OpenAI o1的DeepSeek R1。

這時候問題來了，倘若大模型不需要那么多算力進行訓練和推理，AI上下游產業(yè)還會那么性感嗎？

資本市場給出了答案。截至1月27日美股收盤，美股科技股大跌，費城半導體指數(shù)下跌9.2%、英偉達股價下跌近17%。

一夜之間，一切與AI有關的環(huán)節(jié)都發(fā)生了微妙的變化。蝴蝶效應還在繼續(xù)，AI行業(yè)的走向也在持續(xù)變幻莫測，DeepSeek似乎成了重新制定游戲規(guī)則的那一個。

被攻擊、被力挺，DeepSeek被“包圍”了

2023年春節(jié)，ChatGPT的橫空出世點燃了AI行業(yè)的火種。自那之后，幾乎每年春節(jié)都有爆火的大模型出現(xiàn)。2024年是Sora，2025年是DeepSeek。

不同的是，前兩年站在C位的公司是美國的OpenAI。今年，站在C位的是中國的深度求索。

連續(xù)多日登頂蘋果App Store全球下載榜首；DeepSeek上線20天，日活突破2000萬。作為一家AI創(chuàng)業(yè)公司，這股來自東方的“神秘力量”徹底沖擊了AI行業(yè)。

這股力量很快席卷了遠在大洋彼岸的硅谷。要知道，自文本大模型ChatGPT橫空出世后，視頻大模型Sora，再到深度推理模型o1，OpenAI是行業(yè)的范式企業(yè)，其他大模型企業(yè)通常扮演追隨的腳步。

拿o1大模型來說，自去年9月推出以來，國內大模型企業(yè)尚未推出能與之對標的大模型。這一次，DeepSeek用更小的算力、更低的成本，帶來了DeepSeek R1，無疑讓市場眼前一亮。

實際上，相比OpenAI和它的中國效仿者們用數(shù)億美元訓練大模型，DeepSeek的思路始終是“花小錢，辦大事”。

早在去年12月底，DeepSeek發(fā)布對標GPT-4o的V3模型，其僅使用2048塊英偉達H800芯片，耗費約560萬美元。相比之下，GPT-4o使用上萬塊英偉達H100芯片（性能優(yōu)于H800），訓練成本約1億美元。

去年5月，DeepSeek發(fā)布DeepSeek-V2 ，價格僅為GPT-4 Turbo的近百分之一。也是從那時候開始，字節(jié)、阿里、百度等大模型相繼宣布降價，DeepSeek更是一年內3次降價，每次降幅超過85%。

無論是價格，還是訓練成本，DeepSeek都不追求大而全的路線，而是走在細分和創(chuàng)新的路線上。

比如，DeepSeek提出了一種新的MLA（多頭潛在注意力）架構，與DeepSeek MoESparse （混合專家結構）結合，把顯存占用降到了其他大模型最常用的MHA（多頭注意力）架構的5%-13%。

此外，DeepSeek通過“數(shù)據(jù)蒸餾”技術來訓練模型，即用一個高精度的通用大模型當老師，僅用1/5的數(shù)據(jù)量達到同等效果，促成了成本的下降。

對標OpenAI只是表面，本質上，DeepSeek沖擊的是整個大模型行業(yè)，也面臨著前所未有的壓力。

在登頂中國和美區(qū)蘋果應用商店24小時后，DeepSeek再次站在風暴中心：OpenAI對媒體指控 DeepSeek未經許可“蒸餾”了其專有技術。

美國多位官員也發(fā)聲支持這一指控，包括特朗普的人工智能顧問大衛(wèi)·薩克斯、特朗普提名的美國商務部長霍華德·盧特尼克。

所謂的“蒸餾”，指通過對更大、更強模型的學習，讓小型模型能夠在特定任務上以更低的成本取得類似效果。

此次爭議源于OpenAI的最大投資方微軟。1月29日，據(jù)外媒報道，微軟的安全研究人員發(fā)現(xiàn)，DeepSeek相關人士可能使用 OpenAI 應用程序編程接口 (API)，未經授權竊取了大量數(shù)據(jù)。

此外，DeepSeek的線上服務一直在遭到不同程度的攻擊。從最開始是SSDP、NTP反射放大攻擊，到1月28日增加了大量HTTP代理攻擊，針對DeepSeek的網(wǎng)絡攻擊一直在層層加碼。

被質疑、被攻擊的另一面，還有不少企業(yè)在迅速適應并擁抱DeepSeek帶來的新變化。

在云領域，華為云、騰訊云、阿里云、百度智能云、火山引擎、京東云、360數(shù)字安全等多平臺都宣布上線DeepSeek大模型。此前海外的亞馬遜云、微軟智能云等云巨頭也已官宣支持。

在芯片領域，繼英偉達、AMD、英特爾等海外芯片巨頭加入支持，國內芯片公司天數(shù)智芯、摩爾線程接連宣布支持DeepSeek模型。

無論是被攻擊，還是被支持，DeepSeek被包圍是意料之中的事，這也是行業(yè)明星項目的必經之路。也只有經得住質疑與對比，才能在“百模大戰(zhàn)”中站穩(wěn)腳跟。

靠技術創(chuàng)新，DeepSeek掀起AI風暴

自2023年以來，大模型行業(yè)從來不缺新聞。但堪稱爆火的項目，沒幾個。ChatGPT、Kimi是，如今的DeepSeek也是。

某種程度上來講，和眾多追隨OpenAI的大模型不一樣，DeepSeek成了新一輪AI風暴的發(fā)起者。

當前，DeepSeek R1被公認為是目前最先進的大語言模型之一，能夠提供高質量的語言處理能力，其在數(shù)學、代碼、自然語言推理等任務上的性能可比肩OpenAI o1模型正式版。

在AIME 2024數(shù)學基準測試中，DeepSeek R1得分率為79.8%，OpenAI o1的得分率為79.2%；在MATH-500基準測試中，DeepSeek R1得分率為97.3%，OpenAI o1的得分率為96.4%。

圖源DeepSeek微信公眾號

DeepSeek R1強大的推理能力，離不開DeepSeek的技術創(chuàng)新，其創(chuàng)新性的訓練方法也給行業(yè)提供了新的思路：DeepSeek摒棄了傳統(tǒng)的監(jiān)督微調（SFT）路徑，轉而通過強化學習（RL）來優(yōu)化推理路徑。

普遍觀點認為，大模型訓練必須先通過大量標注數(shù)據(jù)進行 SFT，才能讓模型具備基礎能力，之后才考慮使用RL進行能力提升。OpenAI此前的數(shù)據(jù)訓練非常依賴人工干預，耗費了不少人力和財力。

然而，DeepSeek這項研究發(fā)現(xiàn)，大模型可以完全依靠強化學習獲得強大的推理能力，無需任何監(jiān)督式微調。

這項訓練方法，率先出現(xiàn)在實驗性R1-Zer版本上，隨后又在DeepSeek-V3-base模型上應用強化學習，完全拋開了傳統(tǒng)的監(jiān)督式微調環(huán)節(jié)。

最終結果顯示，DeepSeek R1在完全沒有人工標注數(shù)據(jù)的情況下，DeepSeek系列模型通過不斷嘗試和反饋，展現(xiàn)出了持續(xù)的自我進化能力。

在技術創(chuàng)新方面， DeepSeek采用了創(chuàng)新的設計，如 MoE-2048 架構。其中，每個token能激活8個專家模塊，使得模型參數(shù)的利用率大幅提升至72%，訓練效率相較于傳統(tǒng)的Transformer架構提高了整整3倍。

DeepSeek大模型能力已然有目共睹，更為重要的是，DeepSeek正在用創(chuàng)新性的低成本思路顛覆市場格局。

以DeepSeek R1為例，其性能與GPT o1相當，然而預訓練成本卻僅為557.6萬美元，僅為GPT-4o的十分之一。同時，DeepSeek API服務定價遠低于OpenAI，以輸出為例，輸出每百萬tokens 16元（約2.2美元），GPT o1輸出每百萬tokens 60美元。

站在整個行業(yè)視角，DeepSeek在提供更便宜、更好用的深度推理模型的同時，踐行開源理念，讓深度推理模型不再是一個黑匣子，給行業(yè)也帶來了新的啟發(fā)。

這兩年，開源和閉源的路線之爭是大模型行業(yè)討論的焦點，前者以Meta為代表，后者以OpenAI為代表。

此前，OpenAI推出的ChatGPT、Anthropic推出的Claude均采用閉源，并憑借頭部的影響力，將閉源路線推到領先位；如今，DeepSeek的成功，無疑給支持開源路線的人信心。

DeepSeek爆火后，同樣支持開源路線的Meta首席人工智能科學家Yann LeCun表示，DeepSeek的成功代表了開源人工智能模型的勝利。“開源模型正在超越專有模型。”他在LinkedIn上的一篇帖子中寫道。

實際上，像DeepSeek這樣開源更深遠的意義在于，將如何構建模型的過程通過論文的形式公開，為行業(yè)提供了極大的透明度，推動整個大模型行業(yè)的進步。

伴隨DeepSeek R1既免費，又開源，還躋身第一梯隊的超預期表現(xiàn)，直接引發(fā)了市場對大模型行業(yè)的質疑：眾多科技巨頭投入更多算力和資金做出來的東西，和DeepSeek水平相似，“OpenAI們”真的值那么多估值嗎？

DeepSeek不僅打破了AI大模型領域“拼算力”的邏輯，還動搖了投資者對高科技晶片的信心：AI行業(yè)也許并不需要那么多晶片，也可以訓練出性能好的大模型。

多方的聲音直接沖擊了美國科技股的資本表現(xiàn)。1月27日美股收盤，美國科技股大跌，其中英偉達股價下跌近17%，市值蒸發(fā)近6000億美元，規(guī)模創(chuàng)美股史上最大。

這場由DeepSeek卷起的風暴還在繼續(xù)。從市場競爭格局來看，DeepSeek的崛起打破了原有的平衡，對傳統(tǒng)的 AI 巨頭構成了挑戰(zhàn)，促使整個行業(yè)重新審視自身的技術路線和市場策略。

恐慌、跟隨、降價，DeepSeek引起的蝴蝶效應來了

今年春節(jié)之前，提起DeepSeek，大多數(shù)人還有些陌生，行業(yè)的目光也都集中在OpenAI以及一些科技巨頭身上。

沒想到，DeepSeek的橫空出世讓本就不平靜的湖水再度泛起漣漪，也順勢引發(fā)了一系列的蝴蝶效應。

正如英偉達高級研究科學家Jim Fan評價道：“我們正生活在一個特殊的時代：一家非美國公司在真正踐行著OpenAI最初的使命——開展真正開放的前沿研究，為所有人賦能。”

有人驚嘆，也有人恐慌。

最先坐不住的莫過于OpenAI。自兩年前推出ChatGPT以來，OpenAI就是行業(yè)風向標，OpenAI的很多思路也都被行業(yè)認可。

比如開源路線。2月1日，奧特曼參與海外社交平臺Reddit “問我任何事” 的問答活動?；顒又校瑠W特曼首次承認，OpenAI的閉源策略“站在了歷史錯誤的一邊”。如奧特曼所說，“我們需要找到一個不同的開源策略”，“目前的OpenAI正處于一個‘復雜而微妙’的境地，并且面對重重挑戰(zhàn)”。

比如訓練方式。此前，OpenAI定義了大模型訓練的四個階段：預訓練、監(jiān)督微調、獎勵建模、強化學習?，F(xiàn)在，這個范式被打破了，DeepSeek已然證明可以跳過和簡化某些環(huán)節(jié)來提升模型的訓練效率和性能。

又比如“尺度定律”。這兩年，OpenAI CEO奧特曼一直堅稱，OpenAI的業(yè)務有三個關鍵因素推動：芯片、數(shù)據(jù)和資金。人們向他的公司投入的這三個元素越多，就像向蒸汽火車的熔爐里投入煤炭一樣，它產生的人工智能就越強大。

如今，這個理論再次被DeepSeek擊破。如果能用更便宜甚至免費的模型來達到OpenAI的成績，那OpenAI的商業(yè)模式將受到質疑，其市場份額也將被蠶食。

如此猛烈的沖擊，讓OpenAI沒有太多時間恐慌，OpenAI必須迅速做出跟隨式地調整。

2月1日，OpenAI發(fā)布o3-mini，這是OpenAI首個開放給免費用戶的推理模型；2月5日，OpenAI 宣布o3-mini大語言模型正式向ChatGPT用戶和開發(fā)者開放使用；2月6日，OpenAI宣布向所有用戶開放ChatGPT搜索功能，且無需注冊。

幾天之內的“放大招”，都來自DeepSeek帶來的壓力。

據(jù)Wired報道，OpenAI提前發(fā)布o3-mini是為了應對DeepSeek上周一發(fā)布的專注推理的大語言模型 R1。后者的發(fā)布引發(fā)了人工智能股票的大幅拋售，也讓人們對OpenAI模型的成本效益產生懷疑。

據(jù)OpenAI介紹，o3-mini是其最具成本效益的推理模型，在科學、數(shù)學、編程等領域的能力較強，同時兼具o1-mini的低成本和低延遲特點，o3-mini可與聯(lián)網(wǎng)搜索功能搭配使用，不過o3-mini還不支持視覺功能。

與此同時，OpenAI也在提供越來越低的API調用價格。據(jù)OpenAI介紹，自GPT-4推出以來，每個token的定價下降了95%。o3-mini輸入、輸出每百萬tokens的定價分別為0.55美元、4.4美元，仍高于DeepSeek R1。

OpenAI的恐慌與跟隨只是這場蝴蝶效應的一個切面，DeepSeek這只蝴蝶扇動翅膀的力度很大。

1月30日，Anthropic CEO達里奧·阿莫迪發(fā)萬字長文呼吁“鎖死芯片出口”，以確保AGI只發(fā)生在美國。當日，外媒援引消息人士的話稱，美國正在考慮對售華芯片實施額外限制的可能性，其中包括Dario建議限制的芯片 H20。

當然，我們都清楚，技術封鎖并非保持優(yōu)勢的長期有效手段，開放與合作才更有利于AI行業(yè)的未來發(fā)展。技術封鎖或許只是這場AI戰(zhàn)役的開端，以DeepSeek為代表的中國AI企業(yè)面臨的挑戰(zhàn)還有很多。

眼下，AI世界正發(fā)生一些變化。DeepSeek帶來的變革，正在深刻地變革整個AI產業(yè)鏈。低成本的開發(fā)模式或許將衍生出一系列低門檻的行業(yè)創(chuàng)新規(guī)則、創(chuàng)新方式，吸引更多創(chuàng)業(yè)玩家入場。

這場由DeepSeek掀起的新“ChatGPT”時刻，仍在發(fā)生新的故事。

［本文作者連線insight，i黑馬授權轉載。如需轉載請聯(lián)系微信公眾號（ID：lxinsight）授權，未經授權，轉載必究。］

相關資訊

【黑馬早報】余承東辟謠和劉亦菲戀情；華為多人因違規(guī)招聘被開除；吳彥祖英語課5天賣出500萬元；經紀公司辟謠周杰倫澳門豪賭...

向太、李晨nic、k總驚喜到場，蟬媽媽年度大會盛況空前！

全國可用！6000元以上手機也有補貼了，天貓補貼10%至高減1000

浙江，一天兩個IPO

成人亚洲A片V一区二区三区小说_欧美日韩一区二区三区四区_国产精品情侣呻吟对白视频_97在线视频免费观看97