source: 20美元、26分鐘就搞定!李飛飛團隊復刻DeepSeek-R1模型,效能更勝Open AI o1
關於 S1 的一些簡單想法
recap
採用的方法,是基礎於 Qwen2.5-32B-Instruct 訓練的 .
- 團隊構建了一個精選的 1,000 個高質量問題與推理過程的數據集 (s1K),涵蓋多個領域(數學、物理、統計等)
- 問題的選取基於三個標準:難度 (Difficulty)、多樣性 (Diversity)、品質 (Quality)。
- Budget Forcing, 其中有兩個要素,思考時間,過長或過短都會進行處理讓其達到最適化。
訓練結果
1. 訓練效率節省,s1-32B 模型的訓練時間 僅需 26 分鐘 (16 個 H100 GPU),比傳統方法更省時省力。
2. 採用 1,000 個精選數據,而非數十萬甚至百萬級的數據,顯示「高效樣本學習」的可能性
自我提問
Q.Budget Forcing 此方法能否完全取代大型語言模型的創新?
Budget Forcing 主要是 推理階段 (Inference) 的方法,並非是一種全新的訓練機制,以自己的認知來說,某方面他比較算是其中一種蒸餾的方法之一。 .
Q. 更大的模型仍然有優勢?
以結論來說即使 Budget Forcing 能讓 32B 模型提升 7%,但如果 70B 模型天生就比 32B 強 20%,那麼大家如果有生成的需求,其實還是會需要更大型的 LLM, 這是肯定的。 .
Q. Budget Forcing 跟大型語言模型之間的相處?
Budget Forcing + RLHF (強化學習微調) 或者 Budget Forcing + Retrieval-Augmented Generation (RAG),總之 Budget Forcing 其實就是一個機制,再這樣組合拳之下就會有很多應用可以展開和想像的空間
產業與供應鏈影響
. 推測,的確以整體面向,可能會減少對超大規模 GPU 叢集(如 NVIDIA H100、B200)的需求降低,但仍然會購買大量中等規模 GPU 來微調,蒸餾模型。 .
s1 的誕生,證明了雲端的 GPU 是有用的,雲端 GPU 運算可以往「推理加速」的方向發展,而非訓練大型模型(耗時耗力) .
企業可以透過雲端 AI 建立推理服務模型,進而完善自己的內部 AI 伺服器,亦或者當持續運作成本降低時,整體 AI 服務雲端化的可能性就大幅提升。 .
對於 OpenAI, Anthropic, Google 還是會繼續開發 LLM,仔細看完全篇其實就可以理解 Budget Forcing 無法完全取代大模型。 .
不過,這可能會讓開源 AI 變得更具競爭力,因為小型開源模型接下來就可以有更多手段,可以透過 Budget Forcing 來提升表現,使它們在某些應用中能夠與封閉源的 GPT-4、Claude 3 競爭的可能性。
以上為個人想法
歡迎底下留言,理性討論
留言
張貼留言