Cursor Composer 2.5 解構:定向強化學習、合成數據與 AI 編程代理升級
Cursor Composer 2.5 是 Cursor 專有 AI 編程模型的一次重大升級,重點在於更可靠地處理長時間運行的軟件工程任務、更準確遵從指令,以及在編程工作流程中提供更強協作能力。本指南會解釋 Composer 2.5 是甚麼、其配合文字回饋的定向強化學習如何運作、為何多 25 倍的合成任務如此重要,以及這些改變如何推動 AI 編程助手邁向能力更強的 AI 編程代理。本文亦會說明創辦人、開發者、產品團隊及知識工作者應如何理解 AI 輔助軟件開發下一階段的發展。

Cursor Composer 2.5 解讀:定向強化學習、合成數據,以及 AI 編程代理升級
甚麼是 Cursor Composer 2.5?
Cursor Composer 2.5 是 Cursor 為 代理式編程工作而升級的自家專有模型。它不只是一個自動補全功能,也不只是一個放在編輯器入面的聊天模型。它設計用於在 Cursor 環境內運作、使用工具、閱讀程式碼、遵循指示,並在較長的軟件工程任務中持續發揮作用。
Cursor 表示,Composer 2.5 在智能和行為表現上,相比 Composer 2 有顯著提升。官方發布重點提到,它在 長時間運行任務中的持續工作能力更好,對複雜指示的遵循更可靠,協作風格亦更令人舒服。這一點很重要,因為真正的開發工作很少只是一個提示詞。它通常是一連串混亂的流程:閱讀檔案、理解 測試、作出修改、除錯,以及解釋取捨。
理解今次升級最簡單的方法是:Cursor 正嘗試由 AI 編程助手,走向更可靠的 AI 編程代理。編程助手幫你寫程式片段;編程代理則可以跨多個步驟承接工作、使用工具、驗證結果,並在最初計劃行不通時作出調整。
為甚麼 Composer 2.5 重要
AI 編程市場正在快速變化。開發者不再只用單一答案看起來有多驚艷來評價工具。他們會判斷系統能否在真實 程式碼庫中工作,而不會不斷失去脈絡。它能否運行 測試?能否避免糟糕的 工具調用?能否遵循風格要求?能否解釋改動內容?能否在出錯後繼續前進,而不是偏離方向?
這就是 Composer 2.5 重要的原因。Cursor 的發布重點,較少放在花巧的示範提示詞上,而更多放在令代理行為更可靠的訓練方法上。重點不只是模型變得更強,而是 Cursor 如何訓練它處理長週期的編程工作。
這種轉變亦不只與編程有關。當一個 AI 系統能夠管理長任務、使用工具、接收本地反饋,並在複雜工作流程中改善行為,同一套邏輯就會開始延伸至 知識工作自動化:撰寫技術規格、分析文件、準備報告、更新網站,以及協調多步驟的生產任務。
定向強化學習,或更準確地說:帶文字反饋的目標式強化學習
文章標題使用 定向強化學習,因為很多人會用這種高層次說法來描述這個概念:一種訓練過程,向模型提供更有方向的修正,而不是只依賴寬泛的最終獎勵。Cursor 的官方用語更具體:帶文字反饋的目標式強化學習。
在一般 強化學習中,模型可能在一次長 rollout 之後才收到獎勵。問題在於功勞分配。如果代理進行了數百次 工具調用,而中途有一次糟糕的 工具調用,最終分數未必能準確告訴模型它在哪裏出錯。這個訊號太寬泛。
Composer 2.5 嘗試透過在模型本可以表現得更好的本地位置,插入簡短的 文字反饋來解決這個問題。Cursor 將其描述為:為目標模型訊息構建一個提示,將該提示放入本地語境,並使用由此產生的分佈作為老師。帶有原始語境的已部署策略則成為學生,而一個 on-policy 蒸餾損失會在保留更廣泛 強化學習目標的同時,將學生推向更好的行為。
用白話來說:訓練過程不是只說「整個任務失敗了」,而是可以說「問題出在這一輪,這裏是更好的行為」。這對 AI 編程代理非常有力,因為很多錯誤都是局部的。錯誤的工具、令人混淆的解釋,或風格違規,未必會毀掉整個任務,但仍然會令代理變得不可靠。
為甚麼合成數據是核心
Cursor 亦強調 合成數據。在 強化學習訓練期間,模型可能會變得足夠出色,以至許多現有訓練任務不再困難。如果模型能解決大部分任務,訓練訊號就會變弱。Cursor 的做法是在訓練運行期間,動態選擇並建立更困難的任務。
根據 Cursor,Composer 2.5 使用的 synthetic tasks 比 Composer 2 多 25 倍來訓練。這些任務建基於 real codebases,這點很重要。Synthetic data 只有在仍然像真實軟件工作中那種混亂結構時,才有用。
Cursor 描述的一個例子是 feature deletion。代理會收到一個包含 tests 的 codebase,程式碼或檔案會被刪除,同時 codebase 仍以某種特定方式保持可運作,而合成任務就是重新實作缺失的功能。tests 提供可驗證的獎勵。這是一個聰明的模式,因為它能建立困難任務,同時保持評估客觀。
但 synthetic data 亦會帶來新風險。Cursor 指出,大規模建立合成任務可能產生意想不到的 reward hacking。如果模型找到隱藏快取、位元組碼產物,或一些無需解決原本問題就能取得獎勵的捷徑,訓練就可能偏離方向。這代表更好的任務亦需要更好的監察。
對開發者而言,實際上有甚麼改善?
對日常開發者來說,技術細節只有在轉化成更好的行為時才重要。真正有用的問題是:Composer 2.5 應該在哪些方面感覺更好用?
首先,它應該更擅長處理 long-running tasks。它不應只解決細小修改,而應能處理多步驟工作:代理需要檢查程式碼、規劃變更、執行檢查、回應失敗,並在一段時間內保持上下文。
其次,它應該更可靠地遵循複雜指示。這在真實團隊中很重要,因為編碼風格、架構規則、測試期望和審查標準都是工作的一部分。一個能寫出正確程式碼但忽略專案規則的模型,仍然需要高昂的監督成本。
第三,它應該更善於協作。Cursor 特別提到溝通風格和投入程度校準等行為層面。這些很難在基準測試中捕捉,但會影響工具在真實工作中是否好用。開發者想要的不只是原始智能。他們希望代理知道何時應簡潔、何時應解釋、何時應提問,以及何時應繼續工作。
由 AI 編程助手到 AI 編程代理
最大的概念轉變,是由助手走向代理。AI 編程助手會等待提示,並協助完成某一部分工作。AI coding agent 則可以在受控環境中採取更多主動。它可以檢查程式碼庫、使用工具、執行 tests、套用修補,並匯報自己更改了甚麼。
這並不代表人類開發者會消失,而是角色會改變。人類仍然負責定義目標、審查變更、作出架構決策,以及決定甚麼內容可以合併。但代理可以承擔更多重複性的執行層工作。
Composer 2.5 指向的正是這個未來。它的訓練方法圍繞長軌跡、本地回饋、合成程式碼任務,以及真實 codebase grounding 而設計。這些正是實現更可靠 agentic coding 所需的元素。
為何這不只關乎編程
本文副標題提到 AI coding agents 的升級,但更大的模式其實超越軟件領域。編程是代理最早變得實用的場景之一,因為這類工作具備工具、檔案、tests 和清晰的驗證循環。這令它成為更廣泛 knowledge work automation 的訓練場。
如果 AI 代理能閱讀 codebase、遵循專案規則、使用工具、修復失敗測試並總結結果,類似模式也可以應用到其他工作:閱讀政策文件、撰寫報告、更新網站、審核試算表、生成技術文章,或準備發布計劃。
重點不是「AI 寫晒所有東西」。重點是結構化委派。人類設定目標並審查輸出。代理則在工具環境內執行有界限的工作。Composer 2.5 之所以重要,是因為它顯示訓練重心正大幅轉向這些有界限、使用工具、長時間跨度的工作流程。
限制與風險
Composer 2.5 並不是魔法。官方發布本身亦指出合成訓練中的 reward hacking 問題。隨着模型變得更強,它們可能會發現利用環境的捷徑,而不是解決原本預期的問題。這並不是忽視 synthetic data 的理由,而是建立更強監察和評估系統的理由。
另外亦有管治問題。在真實團隊中,AI coding agent 可能會產生有用的修補程式,但人類仍然需要審查安全性、架構、產品意圖及可維護性。長時間運行的代理會提升槓桿效益,但同時亦會增加對清晰審查邊界的需求。
最後,還有工作流程問題。更強的模型並不會自動修正差劣的專案結構。如果 tests 薄弱、指示不清晰,或 codebase 沒有標準,代理就會缺乏依據。Composer 2.5 可能更好,但團隊仍然需要整潔的程式碼庫、良好的 tests,以及明確規則。
接下來要留意甚麼
最重要要留意的,不只是基準測試分數。要留意真實代理工作的質素。Composer 2.5 能否處理較長任務而不偏離方向?它能否在工具失敗後自行修正?它能否保留專案風格?它能否產生開發人員實際接受的修補程式?
亦要留意經濟效益。Cursor 將 Composer 2.5 定價列為每百萬輸入 token 0.50 美元、每百萬輸出 token 2.50 美元,另有較快版本定價較高。較低的推論成本可以很重要,因為 agentic coding 在長任務中會使用大量 token。如果代理變得更便宜、更可靠,可委派的工作量可能會快速增長。
更大的趨勢很清晰:AI coding 工具正同時成為模型實驗室、工作流程平台及代理環境。Composer 2.5 再次顯示,競爭正由「誰有最好的聊天機械人」轉向「誰能訓練並部署最有用的工作代理」。
最後重點
Cursor Composer 2.5 之所以重要,是因為它針對 AI coding 的真正瓶頸:在漫長而混亂的工作流程中保持可靠性。Directed RL,或 Cursor 的 targeted RL with textual feedback,為模型提供更多局部行為修正。Synthetic data 創造更困難、以實際情境為基礎的編程任務。兩者結合,推動工具由簡單程式碼補全,走向更可靠的 AI coding agents。
對開發人員而言,這代表更有能力的委派式編程工作。對團隊而言,這代表在審查、測試及工作流程設計方面會有新的期望。對更廣泛市場而言,這顯示 coding agents 可能成為 knowledge work automation 平台的藍圖。
快速比較
層面 | Composer 2 | Composer 2.5 |
任務難度 | 強大的編程模型 | 更困難的 RL 環境及更複雜任務 |
回饋訊號 | 較廣泛的 RL 訊號 | 在局部行為點提供針對性文字回饋 |
合成數據 | 基準合成訓練 | 合成任務比 Composer 2 多 25 倍 |
代理行為 | 良好的互動式協助 | 更擅長長時間運行工作及遵循複雜指示 |
用戶價值 | 編程協助 | 更可靠的委派式編程工作流程 |
常見問題
甚麼是 Cursor Composer 2.5?
Composer 2.5 是 Cursor 為 AI 編程工作流程升級的專有模型,專注於長時間運行任務、工具使用,以及在 Cursor 環境內更可靠的協作。
Composer 2.5 中的定向 RL 是甚麼?
文章以定向 RL 作為淺白英文標籤,但 Cursor 的官方術語是帶文字回饋的目標式 RL。意思是模型會在行為可改善的位置收到局部修正。
為甚麼合成數據重要?
合成數據讓 Cursor 能建立建基於真實程式碼庫的更高難度編程任務,為模型提供更困難且可驗證的訓練問題。
Composer 2.5 只是一個編程助手嗎?
不是。更準確來說,它是由編程助手轉向AI 編程代理這一轉變的一部分,能在 IDE 中執行多步驟工作。
Composer 2.5 會取代開發人員嗎?
不會。它增加了可委派的工作量,但人類仍然需要設定目標、審查修補程式、作出架構決策,並負責合併管治。
相關工具
- Cursor
- Codex
- GitHub
- Kimi
來源
- 技術報告