設置
    • 日夜間
      隨系統
      淺色
      深色
    • 主題色

    不僅開源還便宜好用,硅谷員工直呼“火燒屁股”的DeepSeek大模型強在哪

    2025-01-31 10:26:27 來源:

      不僅開源還便宜好用,硅谷員工直呼“火燒屁股”的DeepSeek大模型強在哪Tqt流量資訊——探索最新科技、每天知道多一點www.hxg123.cn

      澎湃新聞記者 胡含嫣Tqt流量資訊——探索最新科技、每天知道多一點www.hxg123.cn

      國產大模型公司深度求索(DeepSeek)發布的最新AI(人工智能)大模型在海外引起開發者和投資者的熱議。Tqt流量資訊——探索最新科技、每天知道多一點www.hxg123.cn

      1月20日,量化巨頭幻方量化旗下大模型公司DeepSeek正式發布推理大模型DeepSeek-R1。作為一款開源模型,R1在數學、代碼、自然語言推理等任務上的性能能夠比肩OpenAI o1模型正式版,并采用MIT許可協議,支持免費商用、任意修改和衍生開發等。目前,在國外大模型排名榜Chatbot Arena上,DeepSeek-R1的基準測試排名已經升至全類別大模型第三,與OpenAI的ChatGPT-4o最新版并列,并在風格控制類模型(StyleCtrl)分類中與OpenAI的o1模型并列第一。Tqt流量資訊——探索最新科技、每天知道多一點www.hxg123.cn

      更令市場驚訝的是,據DeepSeek介紹,R1的預訓練費用只有557.6萬美元,在2048塊英偉達H800 GPU(針對中國市場的低配版GPU)集群上運行55天完成,僅是OpenAI GPT-4o模型訓練成本的不到十分之一。DeepSeek表示,R1在后訓練階段大規模使用了強化學習技術,在僅有極少標注數據的情況下,極大提升了模型推理能力。此外,DeepSeek不僅將R1訓練技術全部公開,還蒸餾了6個小模型向社區開源,允許用戶借此訓練其他模型。Tqt流量資訊——探索最新科技、每天知道多一點www.hxg123.cn

      開源模型正在趕超,比OpenAI便宜九成Tqt流量資訊——探索最新科技、每天知道多一點www.hxg123.cn

      一經推出,DeepSeek-R1便憑借其“物美價廉”的特性在海外開發者社區中引發了轟動。在API定價方面,DeepSeek R1服務對每百萬輸入token收取0.55美元,對每百萬輸出token收取2.19美元/百萬,而OpenAI最新版o1模型的相應收費分別為15美元/百萬和60美元/百萬。在海外AI社區中小有名氣的研究者Shubham Saboo表示,作為一款“100%開源”的模型,R1比OpenAI o1便宜96.4%,同時提供類似的性能,建議已經訂閱ChatGPT的開發者“放棄沉沒成本”。Tqt流量資訊——探索最新科技、每天知道多一點www.hxg123.cn

      除了性能方面的突出表現外,DeepSeek還給出了新的AI大模型搭建思路。英偉達高級研究科學家Jim Fan表示,DeepSeek-R1可能是“首個展示了RL(強化學習)飛輪可以發揮作用且能帶來持續增長的OSS(開源軟件)項目”。其中,“飛輪”用來形容AI系統中自我強化、正向循環的過程。DeepSeek的論文顯示,不同于過去AI模型往往依賴于監督微調(SFT,指AI模型通過已標注的數據進行訓練),R1完全由強化學習驅動,證明了直接強化學習是可行的。Tqt流量資訊——探索最新科技、每天知道多一點www.hxg123.cn

      Jim Fan寫道:“我們正處于一個奇特的時間線上,一家非美國公司正在踐行OpenAI最初的使命,即實現真正開放的前沿研究并讓所有人受益。這種情況簡直無法理解。最有娛樂性的結果卻是可能性最大的結果。”Tqt流量資訊——探索最新科技、每天知道多一點www.hxg123.cn

      硅谷知名投資機構A16z的合伙人、Mistral AI董事會成員Anjney Midha表示:“從斯坦福到麻省理工,DeepSeek-R1幾乎在一夜之間成為美國頂尖大學研究人員的首選模型。”德國馬克斯?普朗克量子光學研究所AI科學家實驗室負責人馬里奧?克倫(Mario Krenn)也盛贊DeepSeek-R1的開放性,相比之下,OpenAI旗下的模型“本質上都是黑箱”。Tqt流量資訊——探索最新科技、每天知道多一點www.hxg123.cn

      憑借極低的訓練成本,DeepSeek-R1也讓華爾街和投資者感到了震撼。1月24日,參投過OpenAI、Databricks、Character.AI等知名企業的風險投資巨頭安德森?霍洛維茨基金(Andreessen Horowitz)的聯合創始人馬克?安德森(Marc Andreesen)連轉了幾篇關于Deepseek-R1的推文,并對其進行了公開贊賞。他在X(原推特)平臺上寫道:“Deepseek R1是我見過的最令人驚嘆和印象深刻的突破之一――作為開源項目,它是對世界的一份深刻饋贈。”Tqt流量資訊——探索最新科技、每天知道多一點www.hxg123.cn

      隨后,法國企業家、推特意見領袖阿諾德?貝特朗(Arnaud Bertrand)轉發了安德森的推文,并稱中國AI的發展速度令人驚艷:“Deepseek時刻不僅是關于AI的,而是讓世界意識到中國在技術和創新方面已經趕上了美國,并且在某些領域甚至超過了美國,盡管有人努力阻止這種情況的發生。”Tqt流量資訊——探索最新科技、每天知道多一點www.hxg123.cn

      在近日舉辦的2025年達沃斯論壇上,AI科技初創公司Scale AI創始人亞歷山大?王(Alexandr Wang)表示,DeepSeek的AI大模型性能“大致與美國最好的模型相當”。去年12月,DeepSeek發布上一代模型V3后,Alexandr Wang就在X平臺上評價道:“DeepSeek-V3帶給外界的教訓是:當美國人在休息時,中國人在工作,并以更便宜、更快、更強的產品迎頭趕上。”Tqt流量資訊——探索最新科技、每天知道多一點www.hxg123.cn

      而Meta首席AI科學家楊立昆(Yann LeCun)指出,比起“中國AI超越了美國”的觀點,DeepSeek-R1更重要的是證明了“開源模型正在超越專用模型”:“DeepSeek得益于開源研究和開源項目(例如PyTorch和來自Meta的Llama)。這就是開放研究與開源的力量。”Tqt流量資訊——探索最新科技、每天知道多一點www.hxg123.cn

      1月26日,360創始人周鴻