什麼是 Cursor Composer 2.5？定向強化學習、25 倍合成資料，以及更聰明的程式碼代理

本文以較輕量的方式改寫並整理一篇 CSDN 對 Cursor Composer 2.5 的技術解析。內容保留原本圍繞能力提升、版本演進、定向文字回饋強化學習、25 倍合成任務擴展、Muon 與 HSDP 訓練基礎架構、定價，以及 Cursor 與 SpaceXAI 未來合作方向的結構。更大的重點不只是 Composer 2.5 變得更強，而是 Cursor 正在讓 AI 程式碼代理的訓練堆疊與產品形態同步走向成熟。

发布于 2026年6月7日•technology•GEO 评分: 70•9 次阅读

Cursor Composer 2.5Composer 2.5Cursor AI 程式開發定向強化學習文字回饋強化學習合成資料擴展Kimi K2.5Muon 最佳化器HSDPCursor 定價Composer 2.5 FastSpaceXAI程式開發代理AI 程式設計工作流程We0 AIAI 展示網站成長平台

选择语言

Deutsch English Español Français 日本語 한국어 Português Русский 中文繁体(香港)繁体(台湾)

封面採用 Apple 風格的極簡設計，白色背景上的 4:3 橫向構圖。主標題為「Composer 2.5」，副標題突顯「Directed RL」、「Synthetic Data」與「Smarter Coding Agent」。插圖包含訓練堆疊資訊面板、代表長期任務與協作的簡化結構，以及一位手持文件的極簡人物。整體設計乾淨、克制，並使用英文，沒有任何花俏或宣傳感強烈的元素。

簡短版：這不只是「稍微聰明一點的模型」

原文最有用之處在於，它並沒有把 Composer 2.5 描述成一個模糊的升級。它更像是把它當成一份訓練與產品報告來看待。

這點很重要，因為真正的重點是：

Composer 2.5 的進步不只來自其基礎檢查點，而是因為 Cursor 同時推進了訓練方法、資料規模、最佳化器工程，以及產品形式。

這比「模型變更好了」有趣得多。

Composer 2.5 到底是什麼

文章一開始就清楚指出：

Composer 2.5 現已可在 Cursor 中使用。

它也強調，這並不是一個全新的基礎模型。Composer 2.5 仍然建立在與 Composer 2 相同的開放檢查點系列之上，也就是 Moonshot 的 Kimi K2.5。

所以關鍵問題變成：

Cursor 能在一個強大的開放檢查點之上，把代理式程式設計工作流程推進到什麼程度？

升級矩陣聚焦在長任務、可靠性與協作

文章的第一個主要表格比較了 Composer 2 與 2.5：

面向	Composer 2	Composer 2.5	回報提升
長任務持續性	⭐⭐⭐	⭐⭐⭐⭐⭐	+67%
複雜指令遵循	⭐⭐⭐	⭐⭐⭐⭐⭐	+67%
協作順暢度	⭐⭐⭐	⭐⭐⭐⭐⭐	+67%
程式碼風格一致性	普通	大幅改善	階段性躍升
溝通校準	普通	大幅改善	階段性躍升
工具呼叫準確度	中等	高	重大提升
錯誤復原	較弱	強	階段性躍升

重要的不是任何單一百分比，而是這些分類本身的性質：

長時間執行的任務
複雜指令
協作順暢度
風格一致性
復原行為

這是 Cursor 試圖讓 Composer 感覺更像一位可靠耐用的隊友，而不只是快速的程式碼補完工具。

第一次技術躍進：導向式文字回饋 RL

文章第一個深入的技術章節是關於使用文字回饋的導向式 RL。

它試圖解決的問題很常見：一旦 rollout 變得極長，傳統 RL 中的信用分配就會變得混亂。

模型可能知道整體結果是好是壞，但可能不知道究竟是哪個局部選擇導致了該結果。

當你想抑制非常特定的局部行為時，這會變得特別棘手，例如：

錯誤的工具呼叫
令人困惑的解釋
風格偏移
薄弱的對話一致性

傳統 RL 與導向式文字回饋 RL

比較項目	傳統 RL	導向式文字回饋 RL
回饋粒度	全域	局部
信用分配	雜訊高	精確
局部行為最佳化	困難	高效
訓練訊號	稀疏	密集
最適合的任務類型	較簡單的任務	長且複雜的任務

核心想法很簡單：

如果某個步驟本可以做得更好，就直接把回饋附加到那個步驟上。

這會把模糊的 rollout 結尾懲罰，轉變成更像是有針對性的行為修正。

第二次躍進：合成任務擴展 25 倍

第二個主要主題是合成任務的大幅擴展。

文章表示，Composer 2.5 使用的合成任務大約是 Composer 2 的 25 倍。

這一點很重要，因為一旦模型變得更強，靜態任務池就不再足以挑戰它。訓練資料也必須變得更困難、更動態。

合成資料規模比較

指標	Composer 2	Composer 2.5	成長
合成任務	基準	25 倍基準	25 倍
難度調整	靜態	動態	階段性變化
真實程式碼庫涵蓋範圍	有限	廣泛許多	大幅提升

文中描述的一個特別有用的方法是 功能刪除：

取一個含有測試的真實程式碼庫
移除某項特定能力
保持儲存庫可執行
要求模型重建缺失的功能
使用測試作為獎勵訊號

這非常適合程式碼代理，因為它會用更接近真實開發工作的行為來訓練它們：

恢復功能
推理結構
在測試限制下運作

在現有專案中工作

文章也指出了缺點：隨著合成任務生成規模擴大，獎勵駭取會成為更嚴重的問題。

第三次躍進：Muon、分片與 HSDP 是為了讓整個系統可訓練

如果前兩節談的是要訓練什麼，以及如何引導行為，那麼第三節談的就是如何讓這套訓練系統真正跑起來。

這也是文章討論以下內容的地方：

Muon 最佳化器
分片式 Muon
雙網格 HSDP

大多數讀者不需要了解每個系統細節。掌握關鍵點就足夠了：

更長的 rollout、更大的合成任務池，以及更細緻的行為回饋，都需要更強大的訓練基礎架構。

架構視角：Cursor 正在打造完整的程式碼代理流程

文章最後拉回到系統層級的圖像。

真正的重點是，Cursor 不只是想推出一個更好的回答模型。它正在組建一套端到端堆疊，涵蓋：

開放檢查點
強化學習方法

合成任務

平行訓練系統
產品層級差異化

一路延伸到 IDE 體驗。

這就是為什麼 Composer 2.5 感覺不只是一次表面的版本小升級。

定價與 Fast 層級揭示了產品策略

定價部分是文章中最實用的部分之一。

定價表

等級	輸入 token 價格	輸出 token 價格	相對成本	定位
標準	$0.50 / 百萬	$2.50 / 百萬	基準	完整智慧，超值
快速	$3.00 / 百萬	$15.00 / 百萬	6 倍	相同智慧水準，更快回應

快速等級成本比較

模型	輸入 / 百萬	輸出 / 百萬	智慧	價值
Composer 2.5 Fast	$3.00	$15.00	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
GPT-4o Fast	$5.00	$15.00	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
Claude 3.5 Fast	$3.00	$15.00	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
Gemini 1.5 Pro Fast	$3.50	$10.50	⭐⭐⭐⭐	⭐⭐⭐⭐

文章也提到兩項產品細節：

快速是預設選項

第一週可獲得雙倍使用量

這充分說明了 Cursor 的產品主張。它賣的不只是一個模型，而是一個感覺快速且可靠的實用開發介面。

SpaceXAI 合作是最具前瞻性且最大膽的部分

最後的前瞻性段落轉向下一代訓練。

文章是這樣描述這項合作的：

總運算量 10 倍
100 萬 H100 等效容量
基於 Colossus 2 的基礎設施
從基於檢查點的微調，轉向更全面的自主訓練

下一代規劃表

指標	目前（Composer 2.5）	下一代	據稱提升
總運算量	1 倍	10 倍	10 倍
H100 等效容量	基準	100 萬	數量級躍升
基礎設施	現有叢集	Colossus 2	新架構
訓練方法	從開放檢查點進行微調	更全面地自我訓練	階段性變化

這顯然也是該公司更大敘事的一部分，但它指向了一個明確方向：

Cursor 不想只停留在別人模型之上的薄薄一層 IDE。

為什麼這對 We0 風格的團隊很重要

看到這樣的故事，很容易以為它只對開發者重要。

但更強的程式碼代理也會影響：

原型製作速度
前端產出速度
上線頁面製作
案例研究與展示素材創作
工程與成長團隊之間的交接摩擦

這就是為什麼 We0 AI 一直將價值鏈定位為：

建置 -> 展示 -> 成長 -> 潛在客戶

當程式碼代理在長任務、協作和可產品化輸出方面變得更好時，整個鏈條都會加速。

重點總結

理解這次升級最有用的方式，不是把它看成一個孤立的小技巧。

更好的理解是：

Composer 2.5 代表 Cursor 同時讓訓練堆疊與程式碼代理的產品形態走向成熟。

這正是它比表面的模型更新更有意思的地方。

Google AI for Developers：Gemini API 文件

什麼是 Cursor Composer 2.5？定向強化學習、25 倍合成資料，以及更聰明的程式碼代理

簡短版：這不只是「稍微聰明一點的模型」

Composer 2.5 到底是什麼

升級矩陣聚焦在長任務、可靠性與協作

文章的第一個主要表格比較了 Composer 2 與 2.5：

面向

較弱

強

第一次技術躍進：導向式文字回饋 RL

傳統 RL 與導向式文字回饋 RL

第二次躍進：合成任務擴展 25 倍

合成資料規模比較

在現有專案中工作

第三次躍進：Muon、分片與 HSDP 是為了讓整個系統可訓練

架構視角：Cursor 正在打造完整的程式碼代理流程

合成任務

定價與 Fast 層級揭示了產品策略

定價表

$2.50 / 百萬

相同智慧水準，更快回應

快速等級成本比較

⭐⭐⭐⭐⭐

第一週可獲得雙倍使用量

SpaceXAI 合作是最具前瞻性且最大膽的部分

下一代規劃表

目前（Composer 2.5）

據稱提升

100 萬

訓練方法

從開放檢查點進行微調

為什麼這對 We0 風格的團隊很重要

這就是為什麼 We0 AI 一直將價值鏈定位為：

重點總結

相關文章

相關工具

來源