國內大模型春節前迎來密集發布周，一手追趕OpenAI一手尋找新方向

2025-01-30 11:31:16 來源：

觀看：99

　　國內大模型春節前迎來密集發布周，一手追趕OpenAI一手尋找新方向

　　作者：鄭栩彤

　　春節前，國內大模型迎來一波密集更新。

　　1月20日上午，MiniMax海螺上線了語音功能，同日下午，字節豆包上線實時語音大模型。1月20日晚，DeepSeek發布了DeepSeek-R1模型，一個多小時后，月之暗面Kimi就推出k1.5多模態思考模型，兩家都稱新模型性能對標OpenAI o1正式版。

　　以上更新既包括追趕OpenAI o1系列推理模型，又包括追趕OpenAI的實時語音功能。 1月21日，騰訊則開源了混元3D生成大模型2.0，指向另一個方向3D生成大模型，面向游戲、具身智能等領域的大模型應用。同一天，一直強調應用的百度開啟“自由畫布”應用的公測，百度副總裁王穎透露，百度文庫AI功能MAU(月活躍用戶)已突破9000萬。更新的同時，一些大模型企業透露了后續迭代方向。這些大模型企業年初釋放的信號可能指明了今年大模型領域的競爭方向。

　　拉近與OpenAI的差距

　　一名國內頭部大模型廠商研發人員看過Kimi k1.5和DeepSeek-R1的報告后，告訴第一財經記者，這兩個模型更新與OpenAI o1系列的長思維鏈推理方向大致一致，但技術方案可能不完全相同，畢竟OpenAI沒有詳細透露o1的做法。這類模型的迭代要點還在于技術指標提升，不在于功能開發。

　　當前，并非所有國內頭部大模型廠商都已經追趕上o1的能力，但最新更新的兩個模型在一些能力上追上了o1。月之暗面稱，在long-CoT(長鏈思維)模式下，Kimi k1.5的數學、代碼、多模態推理能力達到長思考SOTA(某領域性能最優、最先進)模型o1正式版的水平，這是OpenAI之外的公司首次實現o1正式版的多模態推理性能。Kimi是在去年11月發布k0-math數學模型、12月發布k1視覺思考模型后再一次更新k系列模型。

　　DeepSeek則表示，DeepSeek-R1在數學、代碼、自然語言推理等任務上的性能比肩o1正式版，且該模型的API服務定價為每百萬tokens輸入 1元(緩存命中)、每百萬tokens 輸出16元，遠低于o1的55元、438元。

　　相對閉源的OpenAI o1，這兩家大模型公司對新模型的態度相對開放。Kimi首次公開了模型訓練技術報告，DeepSeek-R1上線API接口的同時也開源了模型權重。從發布時間看，國內大模型公司與OpenAI的技術差距可能縮短至1個多月。當地時間2024年12月18日，OpenAI推出了正式版o1模型，取代了去年9月發布的預覽版o1-preview，目前距離o1正式版發布只有1個多月時間。

　　一些學術界人士認為，新推出的模型代表了業界先進水平。加利福尼亞大學伯克利分校教授Alex Dimakis表示，跟他交流過的多數AI研究人員都對DeepSeek-R1的性能感到有些震驚，DeepSeek似乎是奔赴OpenAI最初使命的“最佳人選”，其他公司需要迎頭趕上。“我們生活在這樣一個時代，一家非美國公司正在讓OpenAI的初衷得以延續，即做真正開放、為所有人賦能的前沿研究。DeepSeek-R1可能是第一個展示了RL(強化學習)飛輪可發揮作用且能帶來持續增長的OSS(開源軟件)項目。”英偉達高級研究科學家Jim Fan表示。

　　發布新模型的同時，月之暗面透露了下一步迭代方向，稱Kimi會繼續升級k系列強化學習模型，帶來更多模態、更多領域的能力和更強的通用能力。

　　語音方面，OpenAI去年5月發布可實時語音交互的4o模型，9月向ChatGPT訂閱用戶開放高級語音模式。MiniMax和字節豆包的語音功能上線距離OpenAI開放高級語音模式則是近4個月時間。

　　尋找新方向

　　1月21日下午，騰訊混元開源了3D生成大模型2.0版本，該大模型支持文生、圖生3D的能力，混元同時上線了3D內容AI創作平臺混元3D AI創作引擎。

　　與OpenAI等大模型廠商在大語言模型領域推進長思維鏈推理、多模態交互的方向不同，3D生成大模型針對的是3D資產生成，面向游戲制作、電商廣告、工業制造、具身智能等領域，騰訊等企業正在探索這個方向。據介紹，混元3D生成能力已用于騰訊內部游戲業務，可讓3D資產制作時間成本由5~10天級別下降至分鐘級，同時也用于騰訊地圖的3D導航車標自定義。

　　3D生成大模型應用后續可能還會擴大。此前記者了解到，游戲美術領域AI生成2D資產的技術較成熟，3D技術還需要進一步成熟。就AI在游戲領域的實際使用情況，騰訊游戲在研項目制作人王智剛告訴記者，他負責的項目在提高AI于制作管線中的滲透率，使用AI輔助后，制作一個游戲圖標的時間已從一兩天降到幾十秒，成本從幾百元降到幾分錢，目前2D環節原畫都會用AI生圖，3D生成大模型技術也在提升3D資產制作效率。目前3D生成大模型技術可以應用到休閑游戲，但他判斷，隨著技術優化，用于偏寫實的游戲項目后續也將可行。

　　騰訊混元3D負責人郭春超則介紹，很多具身智能機器人團隊已經找到混元，希望獲得接口來生成機器人仿真環境中的3D資產，也有一些自動駕駛公司希望用3D生成大模型來生成數據。

　　從技術可提升空間看，郭春超表示，業界有關于大語言模型Scaling Law(縮放定律)是否失效的討論，但3D領域距離Scaling Law觸碰天花板還有很遠，原因在于3D領域數據量不多，可能只是千萬tokens級別，而文本領域的數據是T(千億)級別，圖片是百億量級。

　　不過，3D生成大模型領域也存在挑戰。郭春超告訴記者，最大的技術挑戰在于數據量不足。從成熟度看，3D和視頻大模型還沒有到達充分的拐點，仍處于前半賽程。

　　“就3D大模型技術發展的最終形態，業界分歧非常大，包括世界模型是什么也沒有明確的定義，目前主要流派包括Sora純視頻生成、谷歌Genie 2可交互視頻生成、World Lab世界模型等，各種流派各有優缺點。” 郭春超表示，關于3D生成大模型下一步往什么方向迭代，團隊一直在思考，方向包括從生成3D人物或物體延伸到生成3D場景等，但至于一年后是何種形態，目前還難以預料。

本文鏈接：國內大模型春節前迎來密集發布周，一手追趕OpenAI一手尋找新方向http://www.www.hxg123.cn/show-2-10406-0.html

聲明：本網站為非營利性網站，本網頁內容由互聯網博主自發貢獻，不代表本站觀點，本站不承擔任何法律責任。天上不會到餡餅，請大家謹防詐騙！若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。

上一篇： SpaceX“星艦”第七次試飛二級飛船失聯

下一篇：不僅開源還便宜好用，硅谷員工直呼“火燒屁股”的DeepSeek大模型強在哪

國內大模型春節前迎來密集發布周，一手追趕OpenAI一手尋找新方向

熱門資訊

推薦資訊

科技最熱文章