關於 S1 的一些簡單想法

recap

採用的方法，是基礎於 Qwen2.5-32B-Instruct 訓練的 .

- 團隊構建了一個精選的 1,000 個高質量問題與推理過程的數據集 (s1K)，涵蓋多個領域（數學、物理、統計等）

- 問題的選取基於三個標準：難度 (Difficulty)、多樣性 (Diversity)、品質 (Quality)。

- Budget Forcing, 其中有兩個要素，思考時間，過長或過短都會進行處理讓其達到最適化。

訓練結果

1. 訓練效率節省，s1-32B 模型的訓練時間僅需 26 分鐘 (16 個 H100 GPU)，比傳統方法更省時省力。

2. 採用 1,000 個精選數據，而非數十萬甚至百萬級的數據，顯示「高效樣本學習」的可能性

自我提問

Q.Budget Forcing 此方法能否完全取代大型語言模型的創新？

Budget Forcing 主要是推理階段 (Inference) 的方法，並非是一種全新的訓練機制，以自己的認知來說，某方面他比較算是其中一種蒸餾的方法之一。 .

Q. 更大的模型仍然有優勢?

以結論來說即使 Budget Forcing 能讓 32B 模型提升 7%，但如果 70B 模型天生就比 32B 強 20%，那麼大家如果有生成的需求，其實還是會需要更大型的 LLM, 這是肯定的。 .

Q. Budget Forcing 跟大型語言模型之間的相處？

Budget Forcing + RLHF (強化學習微調) 或者 Budget Forcing + Retrieval-Augmented Generation (RAG)，總之 Budget Forcing 其實就是一個機制，再這樣組合拳之下就會有很多應用可以展開和想像的空間

產業與供應鏈影響

. 推測，的確以整體面向，可能會減少對超大規模 GPU 叢集（如 NVIDIA H100、B200）的需求降低，但仍然會購買大量中等規模 GPU 來微調，蒸餾模型。 .

s1 的誕生，證明了雲端的 GPU 是有用的，雲端 GPU 運算可以往「推理加速」的方向發展，而非訓練大型模型（耗時耗力） .

企業可以透過雲端 AI 建立推理服務模型，進而完善自己的內部 AI 伺服器，亦或者當持續運作成本降低時，整體 AI 服務雲端化的可能性就大幅提升。 .

對於 OpenAI, Anthropic, Google 還是會繼續開發 LLM，仔細看完全篇其實就可以理解 Budget Forcing 無法完全取代大模型。 .

不過，這可能會讓開源 AI 變得更具競爭力，因為小型開源模型接下來就可以有更多手段，可以透過 Budget Forcing 來提升表現，使它們在某些應用中能夠與封閉源的 GPT-4、Claude 3 競爭的可能性。

以上為個人想法

歡迎底下留言，理性討論

https://github.com/simplescaling/s1

留言

這個網誌中的熱門文章

Vibe Coding：為什麼 Junior 更快上手？Senior 要如何追趕？

現象層面（市場觀察）最近有篇文章討論 junior & senior 開發者在 AI 時代的角色轉變，非常熱門。身為 Cympack 產品開發團隊，我們也一直關注這個議題，在閱讀這篇文章時觀察到一些有趣的現象，對我們來說，這正好反映出 AI 正在改變開發生態，junior 借力 AI 快速成長、senior 則需要在「架構思維」與「多 agent 協作」中找到新定位，其中有些啟發（insight) 可以跟大家分享。為什麼 Junior 更容易上手 vibe coding？心智負擔低 → Junior 沒有太多傳統 code workflow 的框架包袱敢於嘗鮮 → Gen Z / 年輕工程師天生習慣用 prompt-based 工具、跟 LLM 互動少「優雅程式設計」的束縛 → 不太糾結「這樣寫會不會不夠優雅」，反而 embrace 快速迭代、快速出成果反觀 Senior：熟悉大型系統設計有豐富的「工程正統流程」知識（架構設計、測試策略、效能優化、設計模式）對 AI 生成 code 的品質 / 維護性通常比較保留部分 10+ 年資深工程師，對 prompt engineering 沒那麼熟練，還在觀望技能面（未來的關鍵能力） Vibe coding 本質上 = prompt engineering + AI co-pilot 管理能力能力項目誰目前比較有優勢？ Prompt 撰寫 / AI 互動 Junior 較強（熟悉 chat-based 流程）系統設計 / 架構把關 Senior 較強 AI 生成 code 驗證 / Bug 察覺能力 Senior 較強（能看出潛在問題）快速疊代 / Hackathon 式開發 Junior 較強長期維護性 / 穩定性 Senior 較強總結 Junior 確實更快適應 vibe coding，並且更習慣以「chat-based coding」的工作流開發。 Senior 擁有驗證 AI 產物與系統設計的深度能力，但若不主動練習 vibe coding，長期會逐漸落後於新一波開發潮流。就如同在 GAI 技術年會分享，希望帶給各位的感受，『與 AI 協...

繼續閱讀>>

Vibe Coding 協作到自建 Dev Agent？從 Claude / Codex 到 OpenHands

過去一年，越來越多工程師開始把 AI 真正帶進工作流程。從一開始用 ChatGPT、Claude 來問語法問題，到後來很多人愛上 Cursor，直接在編輯器裡讓 AI 幫忙改 code、補 test case、甚至自動整理 PR。這樣的開發體驗，已經大大改變了我們寫程式的方式。更現實的是，在很多企業內部、政府單位、或涉及機密資料的專案裡，其實根本不能直接用 Cursor 或雲端 LLM 工具。畢竟這些服務通常會把資料傳到雲端模型做處理，萬一專案裡有未公開的技術、敏感客戶資料，或是受限於法規（像金融、醫療、政府標案），直接用雲端 AI 工具就會踩紅線。因此，許多團隊反而更希望「自己架一套 Dev Agent」，可以在內網執行，資料完全掌握在自己手上，該整合的內部工具、該讀的私有 repo、該串的 CI/CD pipeline，全部客製化、安全可控。這時候，像 OpenHands 這樣的開源 Dev Agent 框架就特別有價值。它的出發點不是單純的 AI 助手，而是讓你能夠打造出一個真的可以跑在自己環境裡、可以理解整個開發流程的 AI 工程師。從建置到部署，從 CLI 操作到瀏覽器查詢，從多檔案編輯到自動測試，全部都能自己完成，甚至還能針對不同專案調整專屬的工作流。對很多開始探索 AI 協作開發的團隊來說，這是一條從「AI 幫你寫一段程式」，走向「AI 幫你解決一整個任務」的進化路徑。而且，還是在可控、可自定義、安全的環境裡完成的。 🧩 主要概述 OpenHands 是由 All‑Hands AI 開發的開源「軟體開發代理人平台」，能模仿人類工程師從建立程式、修改程式碼、執行指令，到瀏覽網頁、呼叫 API……等一整套開發流程它提供雲端（OpenHands Cloud）與本地 Docker 運行版本，用戶能配置 LLM（如 Claude、OpenAI、Gemini…) 📚 核心特性與怎麼使用代理人的工具能力支援代碼編輯、命令行、執行環境、網頁瀏覽、API 呼叫—接近人類開發者完整技能。其中 OpenHands Cloud 版本提供 $50 試用額度讓大家方便使用，又或者如果自己本機有 docker 的話，可以自己Local 版本透過 Docker 自架環境。 ...

繼續閱讀>>

RAG 和 Prompt 原理超簡單解說！想知道 AI 怎麼找答案看這篇

這篇文章是給對於你已經開始使用所謂的 ChatGPT / Claude / Gemini 之類的 AI 服務，甚至是 Siri (嘿丟，他也是一種 AI 應用服務喔）簡單來說是非技術人員， PM，小白，想要趕快惡補的人，直接花十分鐘可以看完的一篇科普業配文章。或者是概念僅止於，AI 這東西會幻想，會有誤差，會對於生活有些幫助但沒有幫助的人們，做個簡單又不是太簡單的介紹，希望用一個非常入門的方式讓你們有個了解。當然，這篇文章目的很簡單，就是引流，如果你身邊有已經對於 Web 技術開發的人員，歡迎報名分享給他，年末出國不如學一技在身，參加今年我們舉辦最後一場 RAG 實作工作坊，報名連結， https://exma.kktix.cc/events/ai-for-dev-course-rag-2 注意：接下來每個大段落結束都會有一段工商導入，但文章絕對精彩，請注意！為了讓各位容易想像，我們將整個世界的資訊，先濃縮到這本『西遊記』的世界觀當中，我們整個世界都在這個『西遊記』，而大型語言模型我們用『書精靈』來描述。 PS. 我們先預設各位，應該都有聽過，西遊記！如果沒有聽過西遊記的，請右轉出去，謝謝！先來談談向量在《西遊記》的世界裡，我們可以把向量想像成一種「內容座標」，讓系統知道每個角色、場景、法術等的「位置」和「距離」。向量幫助語言模型知道不同內容之間的關聯程度。向量就像內容的「距離」和「位置」比方說，唐三藏的「位置」（向量）會接近「佛經」和「取經」的概念，因為他一路上都是為了取經而前進。孫悟空的向量位置則會更靠近「金箍棒」和「七十二變」這些概念，因為這些是他的特徵。相似內容靠得更近：像「佛經」和「取經」會靠近唐三藏的向量，因為它們彼此有很強的關聯。相差較大內容會離得較遠：像「取經」和「妖怪」「妖怪的寶藏」就距離比較遠，因為妖怪的寶藏和取經的目標關聯性不大。是誰決定的這些位置？簡單來說，這些位置和關係是模型自己學出來的。語言模型會閱讀大量的資料和這世界觀的資訊，觀察哪些詞語經常一起出現，根據「共同出現的頻率」來決定它們的關係，並且自動生成向量。例如：如果模型看到「唐三藏」總是和「取經」一起出現，它就會讓「唐三藏」的向量靠近「取經」。 ...

繼續閱讀>>

熱血漢誌 - 技術新鮮人到技術經理人，必懂的事

搜尋此網誌