Agent Capability Upgrade Plan
Agentic 不能只是一個模型 session 的薄層包裝。它必須成為一套學習、執行、審查、長期寫作的作業系統。
這份升級計畫從一個簡單的事實出發:工具的替換速度比工作流程快得多。如果工作流程不穩定,加入更多模型只會製造更多噪音。
什麼必須成為持久的結構
第一層是存取對等(access parity)。Claude Code 和 Codex 都需要足夠的存取權限,能夠操作、驗證和審查,而不需要讓任何一個工具成為系統的永久擁有者。
第二層是治理對等(governance parity)。一個工具更多但邊界更弱的模型,並不會更安全。操作規則、驗證紀律、升級路徑,必須由所有 Agent 共享。
第三層是執行對等(execution parity)。某個 Agent 在某些介面上仍然可能更有優勢,但每個 Agent 都應該能夠從診斷到實作到驗證,獨立完成一個任務。
近期的運作形態
近期的形態不是一群 Agent 的集合,而是一個小型、可審查的團隊:
- 一條執行軌道(execution lane)
- 一條審查軌道(review lane)
- 一條共享知識路徑(shared knowledge path)
這讓系統對於單人操作者而言保持可理解,同時仍允許真正的並行作業。
Phase 1 — Access Parity
目標:Claude Code 和 Codex 都對所有 repo 有讀取權限,並對各自分配的 worktree 有寫入權限。
| 元件 | Claude Code | Codex |
|---|---|---|
| Repo access | 完整(全部 11 個 repo) | 完整(讀取) |
| File writes | 全部(protected files 除外) | Worktree 範圍內 |
| UB access | 完整(MCP) | 透過 API |
| WO system | 完整 | 讀取 + 狀態更新 |
Phase 2 — Governance Parity
目標:所有 Agent 載入相同的 EGS 規則。沒有任何 Agent 享有其他 Agent 無法審計的特權行為。
需要在所有 Agent 間套用的關鍵控制:
- deploy-gate.sh — 阻止未執行 dry-run 的 production deploy
- protect-files.sh — 阻止編輯 .env、wrangler.toml
- post-edit-lint.sh — 每次檔案編輯後執行 lint
- Documentation quality checklist — 每次寫入 .md 後強制執行
Phase 3 — Execution Parity
目標:任何 Agent 都能接下一個 WO、實作、驗證,並完整交接。
任何實作的驗收標準:
- 路由回傳 200(browser test)
- Console 乾淨(無 JS errors)
- 現有路由仍正常運作(regression check)
- UB handoff entry 已寫入
為何這對寫作也有意義
讓操作更安全的結構,同樣能讓未來的寫作更好。當一個計畫、修正、決策或失敗模式被清晰記錄,它之後就能成為 blog 文章的原始素材,而不是消失在 chat 歷史中。
這才是升級的真正意義:不是為了自動化而自動化,而是建立一個能夠複利增長的學習系統。
各階段目前狀態(2026-03-18)
| 階段 | 狀態 | 完成度 | 負責人 |
|---|---|---|---|
| Phase 1: Access Parity | 🔄 進行中 | 70% | Mac CLI 小克 2 |
| Phase 2: Governance Parity | 🔄 進行中 | 35.6% deterministic coverage | Ops team |
| Phase 3: Execution Parity | ⏳ 未開始 | — | — |
Phase 1 完整存取矩陣
| 工具 | UB 讀 | UB 寫 | Vault 讀 | Vault 寫 | Git | Deploy | MCP |
|---|---|---|---|---|---|---|---|
| Claude Code CLI (SS1) | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ (gate) | ✅ |
| Claude Code CLI (SS2) | ✅ | ✅ | ✅ | ✅ | ✅ | — | ✅ |
| Codex CLI | ✅ | ❌ | ✅ | ❌ | ✅ (read-only sandbox) | ❌ | ✅ |
| Gemini CLI | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ | ✅ |
| Sonnet subagent | ✅ | ✅ | ✅ | ✅ | ✅ | — | ✅ |
| Haiku subagent | ✅ | ✅ | ✅ | ✅ | ✅ | — | ✅ |
驗收標準
| 階段 | 驗收條件 | 驗證方式 |
|---|---|---|
| Phase 1 | 所有工具都能讀 UB + Vault | search_brain + obsidian search 測試 |
| Phase 2 | deterministic coverage > 60% | verify-daily-cycle.sh 評分 |
| Phase 3 | 任一 agent 可獨立完成 WO 全流程 | 端到端測試:建 WO → 實作 → 提交 → 驗證 |