Cursor Composer 2.5 解說:定向強化學習、合成資料與 AI 程式撰寫代理的升級
Cursor Composer 2.5 是 Cursor 專有 AI 程式撰寫模型的一次重大升級,重點在於讓長時間執行的軟體工程任務更可靠、提升指令遵循能力,並強化程式開發流程中的協作。本指南說明 Composer 2.5 是什麼、它搭配文字回饋的定向強化學習如何運作、為什麼增加 25 倍的合成任務很重要,以及這些改變如何推動 AI 程式撰寫助理邁向能力更強的 AI 程式撰寫代理。同時也說明創辦人、開發者、產品團隊與知識工作者應該如何理解 AI 輔助軟體開發的下一階段。

Cursor Composer 2.5 解析:定向強化學習、合成資料與 AI 程式碼代理的升級
什麼是 Cursor Composer 2.5?
Cursor Composer 2.5 是 Cursor 針對 代理式程式設計工作所升級的專有模型。它不只是自動完成,也不只是放在編輯器裡的聊天模型。它被設計成能在 Cursor 環境中運作、使用工具、讀取程式碼、遵循指令,並在較長的軟體工程任務中持續發揮作用。
Cursor 表示,Composer 2.5 在智慧能力與行為表現上,相較 Composer 2 有大幅提升。官方發布內容強調,它在 長時間執行的任務中能更穩定地持續工作,更可靠地遵循複雜指令,並具備更令人愉快的協作風格。這很重要,因為真實的開發工作很少只是單一提示。它通常是一連串混亂的流程:讀取檔案、理解 測試、進行修改、除錯,以及解釋取捨。
理解這次升級最簡單的方式是:Cursor 正試圖從 AI 程式設計助理,邁向更可靠的 AI 程式碼代理。程式設計助理能幫你撰寫程式片段;而 程式碼代理能跨越多個步驟推進工作、使用工具、驗證結果,並在第一個計畫失效時進行調整。
為什麼 Composer 2.5 很重要
AI 程式設計市場正在快速變化。開發者不再只用單一回答看起來有多驚艷來評判工具。他們會評估系統是否能在真實的 程式碼庫中工作,而不會不斷失去脈絡。它能執行 測試嗎?能避免錯誤的 工具呼叫嗎?能遵循風格要求嗎?能解釋改了什麼嗎?能在發生錯誤後繼續推進,而不是逐漸偏離嗎?
這就是 Composer 2.5 重要的原因。Cursor 的發布重點不太放在華麗的示範提示,而是放在讓代理行為更可靠的訓練方法上。重點不只是模型變得更強。重點是 Cursor 如何為長週期程式設計工作訓練它。
這種轉變也不只與程式設計相關。一旦 AI 系統能管理長任務、使用工具、接收本地回饋,並在複雜工作流程中改善行為,同樣的邏輯就會開始延伸到 知識工作自動化:撰寫技術規格、分析文件、準備報告、更新網站,以及協調多步驟的製作任務。
定向強化學習,或更精確地說,帶有文字回饋的目標式強化學習
文章標題使用 定向強化學習,是因為許多人會從高層次這樣描述這個概念:一種給予模型更明確修正的訓練流程,而不是只依賴寬泛的最終獎勵。Cursor 的官方用語更具體:帶有文字回饋的目標式強化學習。
在一般的 強化學習中,模型可能在一次長流程展開後才收到獎勵。問題在於信用分配。如果代理進行了數百次 工具呼叫,而中間某一次 工具呼叫出了錯,最終分數可能無法精確告訴模型錯在哪裡。訊號太籠統了。
Composer 2.5 試圖透過在模型本可以表現得更好的局部位置,插入簡短的 文字回饋來解決這個問題。Cursor 將其描述為:為目標模型訊息建構提示,將該提示放入本地脈絡中,並使用產生的分布作為教師。帶有原始脈絡的部署策略則成為學生,而一個同策略蒸餾損失會推動學生朝更好的行為靠近,同時保留更廣泛的 強化學習目標。
用白話來說:訓練流程不只是說「整個任務失敗了」,而是可以說「這一輪才是問題所在,這裡是更好的行為」。這對 AI 程式碼代理來說很有力,因為許多錯誤都是局部的。錯誤的工具、令人困惑的說明,或風格違規,不一定會毀掉整個任務,但仍會讓代理變得不那麼可靠。
為什麼合成資料是核心
Cursor 也強調 合成資料。在 強化學習訓練期間,模型可能變得足夠強,以至於許多既有訓練任務不再困難。如果模型能解決大多數任務,訓練訊號就會變弱。Cursor 的做法是在訓練過程中動態選擇並建立更困難的任務。
根據 Cursor 的說法,Composer 2.5 使用的 合成任務 數量是 Composer 2 的 25 倍。這些任務奠基於 真實程式碼庫,這一點很重要。合成資料 只有在仍然像真實軟體工作的混亂結構時才有用。
Cursor 描述的一個例子是 功能刪除。代理會收到一個含有 測試 的 程式碼庫,程式碼或檔案會被刪除,同時 程式碼庫 仍以某種特定方式保持可運作,而合成任務就是重新實作遺失的功能。測試 提供了可驗證的獎勵。這是一個聰明的模式,因為它能建立困難任務,同時讓評估保持客觀。
但 合成資料 也帶來新的風險。Cursor 指出,大規模建立合成任務可能產生意想不到的 獎勵駭取。如果模型找到隱藏快取、位元組碼產物,或是不真正解決預期問題卻能達成獎勵的捷徑,訓練就可能偏離方向。這意味著,更好的任務也需要更好的監控。
對開發者來說實際改善了什麼?
對日常開發者而言,技術細節只有在能轉化為更好的行為時才重要。真正有用的問題是:Composer 2.5 應該在哪些方面讓人感覺更好用?
首先,它應該更擅長 長時間執行的任務。它不應只解決小型編輯,而應能處理多步驟工作:代理需要檢查程式碼、規劃變更、執行檢查、回應失敗,並在一段時間內維持上下文。
其次,它應該更可靠地遵循複雜指令。這在真實團隊中很重要,因為程式碼風格、架構規則、測試期望和審查標準都是工作的一部分。能寫出正確程式碼但忽略專案規則的模型,仍然需要昂貴的監督成本。
第三,它應該更擅長協作。Cursor 特別提到溝通風格和投入程度校準等行為面向。這些很難用基準測試捕捉,但會影響工具在真實工作中是否讓人覺得有用。開發者不只想要原始智慧。他們希望代理知道什麼時候該簡潔、什麼時候該解釋、什麼時候該提問,以及什麼時候該繼續工作。
從 AI 程式設計助理到 AI 程式設計代理
最大的概念轉變,是從助理轉向代理。AI 程式設計助理會等待提示,並協助處理某一部分工作。AI 程式設計代理 則能在受控環境中採取更多主動行動。它可以檢查儲存庫、使用工具、執行 測試、套用修補程式,並回報自己做了哪些變更。
這並不代表人類開發者會消失。這代表角色會改變。人類仍然定義目標、審查變更、做出架構決策,並決定哪些內容可以合併。但代理可以承擔更多重複性執行層面的工作。
Composer 2.5 指向了這樣的未來。它的訓練方法圍繞長軌跡、本地回饋、合成程式碼任務,以及真實 程式碼庫 奠基而設計。這些正是更可靠的 代理式程式設計 所需要的要素。
為什麼這件事的影響不只限於程式設計
本文副標題提到 AI 程式設計代理 的升級,但更大的模式延伸到了軟體之外。程式設計是代理最早變得實用的領域之一,因為這項工作有工具、檔案、測試 和清楚的驗證循環。這使它成為更廣泛 知識工作自動化 的訓練場。
如果 AI 代理能讀取 程式碼庫、遵循專案規則、使用工具、修復失敗的測試,並總結結果,類似模式也能應用到其他工作:閱讀政策文件、製作報告、更新網站、稽核試算表、產生技術文章,或準備上市計畫。
關鍵不是「AI 寫出一切」。關鍵是結構化委派。人類設定目標並審查輸出。代理則在工具環境中執行有邊界的工作。Composer 2.5 之所以重要,是因為它顯示訓練重點正大幅轉向這些有邊界、使用工具、長期視野的工作流程。
限制與風險
Composer 2.5 並不是魔法。官方發布內容本身就指出合成訓練中的 獎勵駭取 問題。隨著模型變得更好,它們可能會發現利用環境的捷徑,而不是解決預期問題。這不是忽略 合成資料 的理由,而是建立更強監控與評估系統的理由。
還有治理問題。在真實團隊中,AI 程式碼代理可能產出有用的修補程式,但人類仍需要審查安全性、架構、產品意圖與可維護性。長時間運行的代理能提高槓桿效益,但也會增加明確審查邊界的需求。
最後是工作流程問題。更強的模型不會自動修復糟糕的專案結構。如果測試薄弱、指令不清楚,或程式碼庫沒有標準,代理就缺乏足夠依據。Composer 2.5 可能更好,但團隊仍需要乾淨的儲存庫、良好的測試,以及明確的規則。
接下來該關注什麼
最重要的觀察重點不只是基準測試分數。請關注真實代理工作的品質。Composer 2.5 能否處理更長的任務而不偏離方向?它能否在工具失敗後自我修正?它能否保留專案風格?它能否產出開發者實際願意接受的修補程式?
也要關注經濟性。Cursor 標示 Composer 2.5 的價格為每百萬輸入 token 0.50 美元、每百萬輸出 token 2.50 美元,速度更快的版本價格更高。較低的推論成本可能很重要,因為代理式程式開發在長任務中會使用大量 token。如果代理變得更便宜且更可靠,可委派的工作量可能會快速成長。
更大的趨勢很清楚:AI 程式開發工具正同時成為模型實驗室、工作流程平台與代理環境。Composer 2.5 進一步顯示,競爭正從「誰擁有最好的聊天機器人」轉向「誰能訓練並部署最有用的工作代理」。
最後重點
Cursor Composer 2.5 之所以重要,是因為它瞄準了 AI 程式開發中的真正瓶頸:在漫長且混亂的工作流程中保持可靠性。Directed RL,或 Cursor 的以文字回饋為基礎的目標式 RL,能給模型更多局部行為修正。合成資料則建立更困難、且有依據的程式開發任務。兩者結合,讓工具從單純的程式碼補全,推進到更可靠的AI 程式碼代理。
對開發者而言,這意味著更有能力的委派式程式開發工作。對團隊而言,這意味著在審查、測試與工作流程設計上會出現新的期待。對更廣泛的市場而言,這顯示程式碼代理可能成為知識工作自動化平台的藍圖。
快速比較
層面 | Composer 2 | Composer 2.5 |
任務難度 | 強大的程式開發模型 | 更困難的 RL 環境與更複雜的任務 |
回饋訊號 | 較廣泛的 RL 訊號 | 針對局部行為點的目標式文字回饋 |
合成資料 | 基準合成訓練 | 比 Composer 2 多 25 倍的合成任務 |
代理行為 | 良好的互動式協助 | 更好的長時間運行工作與複雜指令遵循能力 |
使用者價值 | 程式開發協助 | 更可靠的委派式程式開發工作流程 |
常見問題
什麼是 Cursor Composer 2.5?
Composer 2.5 是 Cursor 針對 AI 程式開發工作流程升級的專有模型,著重於長時間執行的任務、工具使用,以及在 Cursor 環境中更可靠的協作。
Composer 2.5 中的 directed RL 是什麼?
本文使用 directed RL 作為白話標籤,但 Cursor 的官方術語是帶有文字回饋的目標式 RL。這表示模型會在行為可改進之處接收局部化修正。
為什麼合成資料很重要?
合成資料讓 Cursor 能建立以真實程式碼庫為基礎、難度更高的程式開發任務,提供模型更困難且可驗證的訓練問題。
Composer 2.5 只是程式開發助理嗎?
不是。更適合將它理解為從程式開發助理轉向AI 程式開發代理的一部分,這類代理可以在 IDE 中執行多步驟工作。
Composer 2.5 會取代開發者嗎?
不會。它提高了可委派的工作量,但人類仍然需要設定目標、審查修補程式、做出架構決策,並負責合併治理。
相關工具
- Cursor
- Codex
- GitHub
- Kimi
來源
- 技術報告