本文件以十個維度對標 2026 年業界 Agentic AI 系統的最佳實踐,分析 SuperPortia 當前模式的對齊程度,並列出差距和行動建議。
對齊等級定義:
- ALIGNED — SuperPortia 實作符合或超越業界最佳實踐
- PARTIAL — 核心理念一致,但實作不完整或有已知差距
- GAP — 明顯落後,需要在 Phase 2/3 填補
| 項目 | 說明 |
|---|
| 我們的模式 | MCP Server 統一工具介面;UB Worker 提供標準 REST API;Agent 透過協議調用,不直接操作底層存儲 |
| 業界 2026 參考 | OpenAI Agents SDK、Anthropic MCP 均強調 Protocol-over-Tool:定義標準協議讓多 Agent 使用同一工具集,避免每個 Agent 實作不同的工具介面 |
| 對齊等級 | PARTIAL |
| 差距描述 | MCP 協議已用於 UB + Chrome DevTools,但 Codex CLI / Gemini CLI 是透過 Bash 間接整合,非原生 MCP。部分工具仍需 curl 手動調用(如 WO approve)。 |
| 行動建議 | Phase 3 將 WO approve 包裝為 MCP tool;評估 Gemini CLI 官方 MCP 支援進展(PK 需核查) |
| 項目 | 說明 |
|---|
| 我們的模式 | 三層記憶:(1) In-context(session 期間);(2) Obsidian Vault(持久本地,需 SSH/CLI 訪問);(3) Cloud UB(持久雲端,跨 Agent 可搜尋) |
| 業界 2026 參考 | LangGraph、CrewAI 等框架定義四層:Working Memory(context)、Episodic(session log)、Semantic(知識庫)、Procedural(技能/rules)。SuperPortia 的 UB = Semantic;.claude/rules = Procedural;缺少獨立的 Episodic layer |
| 對齊等級 | PARTIAL |
| 差距描述 | Episodic memory(每個 session 的行為記錄)目前散落在 UB 入庫和 Vault Daily log 中,無結構化的 Episodic store 供查詢。Memory MCP(CORRECTION: prefix)是初步實作但未系統化。 |
| 行動建議 | Phase 2 評估是否需要結構化 Episodic store(UB 加 session-log 類型 + 標準 schema),或現有 session-handoff 已足夠 |
| 項目 | 說明 |
|---|
| 我們的模式 | 5 個信任區域(Zone 0-4)+ 寫權限矩陣 + HITL gates + Deterministic Hooks 強制 |
| 業界 2026 參考 | 最佳實踐(來源:Anthropic Agent Safety Research 2025、OpenAI Operator Policy):多層級 Principal hierarchy(用戶 > 操作者 > Agent);最小權限原則(least privilege);工具呼叫審計日誌;高風險操作強制 human-in-the-loop |
| 對齊等級 | ALIGNED |
| 差距描述 | 架構對齊良好。主要未填差距:audit log 尚無結構化查詢介面(需手動查 Hook 日誌),Zone 3 Intel Engine 的 blocklist 在 agents.yaml 但無自動測試。 |
| 行動建議 | Phase 3 建立 audit log 查詢 API(Command Center 整合);為 engines.yaml blocklist 加入單元測試 |
| 項目 | 說明 |
|---|
| 我們的模式 | SRE Patrol(15min polling)、Hook 執行日誌、CF Workers Dashboard metrics、tokscale + ccusage 用量追蹤、Command Center 健康儀表板 |
| 業界 2026 參考 | OpenTelemetry for AI Agents(2025 草案)定義三個可觀測性支柱:Traces(agent 行為追蹤)、Metrics(延遲、成本、錯誤率)、Logs(結構化)。LangSmith、Arize AI 等 platform 提供 LLM-specific observability。 |
| 對齊等級 | PARTIAL |
| 差距描述 | 現有監控是 Pull-based(SRE patrol 每 15 分鐘一次)而非 Push-based(即時告警)。無 distributed tracing(無法追蹤一個 WO 跨多個 Agent 的完整執行路徑)。G-10 告警推送未建置。 |
| 行動建議 | Phase 3 建立 Discord/LINE webhook 即時告警(G-10 填補);評估 Cloudflare Workers Tail Worker 作為即時 log stream;不需引入外部 observability platform(成本過高) |
| 項目 | 說明 |
|---|
| 我們的模式 | 明確的 HITL boundary(company-constitution.md §5):payments / deletions / external publishing / production deploy 需夏哥確認。deploy-gate.sh 機械強制。例外:P0 rollback 夏哥無回應時 Opus 可自主。 |
| 業界 2026 參考 | Anthropic「Responsible Scaling Policy」2025 Update、OpenAI Operator Guidelines 均強調:irreversible actions(付款、刪除、公開發布)必須 HITL;reversible actions 可 HOTL(監督而非批准)。SuperPortia 模型與此高度一致。 |
| 對齊等級 | ALIGNED |
| 差距描述 | 主要差距:HITL 決策記錄的系統化程度。決策有入 UB(tag: captain-approved),但無 structured decision log 可查詢「哪些類型的 HITL 被 approve / reject 最多」。 |
| 行動建議 | Phase 3 在 UB 入庫 HITL 決策時加入 hitl-decision 標準 schema(含 decision type、options、chosen、timestamp) |
| 項目 | 說明 |
|---|
| 我們的模式 | 5 信任區域(Zone 0-4);worktree 隔離(Executor 在 worktree 不影響 main);engines.yaml blocklist(Zone 3 不可執行危險操作);.env 保護(protect-files.sh) |
| 業界 2026 參考 | NIST AI RMF 2025 Update、ENISA AI Security Guidelines 均建議:sandbox isolation 用於 code execution;network segmentation 限制 Agent 外部訪問;credential isolation(Agent 不可讀其他 Agent 的密鑰) |
| 對齊等級 | ALIGNED |
| 差距描述 | Codex CLI 和 Gemini CLI 在 full-auto 模式下的 file write 範圍未嚴格限制(依賴規則教導而非機械強制)。SS2 環境的信任邊界執行依賴手動同步 .claude/ 設定。 |
| 行動建議 | Phase 2 為 Codex full-auto 建立 scope whitelist Hook;SS2 .claude/ sync 自動化(目前手動 → 改為 git pull hook) |
| 項目 | 說明 |
|---|
| 我們的模式 | Opus = 只做架構/決策/委派;Sonnet = 編碼;Haiku = 批次;Gemini CLI = 研究(免費);tokscale + ccusage 追蹤。cost-awareness.md 是 mandatory rule。 |
| 業界 2026 參考 | 2026 年 AI 成本管理最佳實踐(Anthropic + OpenAI Blog,2025 Q4):Model routing(任務複雜度 → 自動選最低成本模型);Prompt caching(重複 context);Batch API(非即時任務);Cost attribution per feature |
| 對齊等級 | PARTIAL |
| 差距描述 | 手動 model routing(Opus 人工判斷派給哪個模型),未自動化。Prompt caching 未使用(Claude API 支援,尚未實作)。Batch API 未使用(適合 boiler_grandpa,可顯著降低成本)。 |
| 行動建議 | Phase 3 評估 Haiku Batch API 用於 MTAAA 分類(取代 DeepSeek 即時 API);評估 Claude Prompt Caching 用於重複 system prompt(.claude/rules 每次都重新載入) |
| 項目 | 說明 |
|---|
| 我們的模式 | CF Pages/Workers 平台級 rollback(秒級);git revert;worktree 隔離(subagent 工作不影響 main 直到 merge);UB 白帽記錄(不刪除,只修正) |
| 業界 2026 參考 | SRE 黃金法則(Google SRE Book 2025 Update):所有生產變更必須 rollback in < 5 minutes;database migrations 需要 forward-only 或 dual-write 支援回滾;configuration rollback 必須和 code rollback 同時考慮 |
| 對齊等級 | ALIGNED |
| 差距描述 | CF Pages rollback 已實現秒級恢復。主要未填差距:D1 Database schema migration 無 rollback 計畫(目前 UB Worker 直接 ALTER TABLE);configuration rollback(.claude/ rules 變更)沒有明確流程。 |
| 行動建議 | Phase 3 為 UB Worker D1 migrations 建立 0001_migration.sql / 0001_rollback.sql 配對腳本;.claude/ rules 變更走 git tag + revert 流程 |
| 項目 | 說明 |
|---|
| 我們的模式 | 每個 Agent 有信任區域定義;dispatch 決策矩陣;orchestrator-baseline.md 規定委派優先於自行執行;EGS Ch.9 規定 UB 操作合約 |
| 業界 2026 參考 | Microsoft AutoGen v2 / CrewAI 2026 均強調:Agent Contracts 需包含 input schema、output schema、SLA(timeout / retry policy)、failure mode、escalation path。合約是可程式化的(非純文字) |
| 對齊等級 | PARTIAL |
| 差距描述 | SuperPortia 的 Agent Contracts 存在文件中(agent-interaction-model.md)但不是可程式化的 schema。當 subagent 輸出不符合預期時,Opus 靠直覺判斷,無結構化 output schema 驗證。 |
| 行動建議 | Phase 3 為 WO 完工報告定義 JSON schema(required fields: status, changed_files, test_results, notes);Opus 用 schema 驗證 subagent 輸出,而非純文字 review |
| 項目 | 說明 |
|---|
| 我們的模式 | UB(Cloud D1 + Vectorize)= 雲端語意知識庫;Obsidian Vault = 本地結構化知識(backlinks + graph);MTAAA 三維分類(Topic / Type / Lifecycle);白帽記錄原則(不刪除,只更新) |
| 業界 2026 參考 | Notion AI + Mem.ai 等工具 2026 年的最佳實踐:知識 freshness management(automatic staleness detection);knowledge graph(entities + relationships,不只是 full-text search);selective context injection(只注入相關知識,不全量 dump) |
| 對齊等級 | PARTIAL |
| 差距描述 | UB Vectorize 已支援語意搜尋,但無知識 freshness decay(不知道哪些 entry 已過時)。Obsidian Vault 有 backlinks 但無 graph-based query API。Context injection 是手動的(Opus 決定查什麼),無 RAG pipeline 自動注入。 |
| 行動建議 | Phase 2 為 UB entry 加入 verified_date 欄位 + 30天 staleness warning;Phase 3 評估輕量 RAG pipeline(session start 時自動注入最近 7 天的相關 entries) |
| 維度 | 對齊等級 | 優先行動 |
|---|
| Protocol-over-Tool | PARTIAL | WO approve → MCP tool(Phase 3) |
| Memory Tiers | PARTIAL | 評估 Episodic store 需求(Phase 2) |
| Authority Model | ALIGNED | Audit log 查詢 API(Phase 3) |
| Observability | PARTIAL | Discord/LINE 即時告警(Phase 3,G-10) |
| HITL Gates | ALIGNED | HITL decision schema 標準化(Phase 3) |
| Trust Boundaries | ALIGNED | Codex scope whitelist Hook(Phase 2) |
| Cost Hotspots | PARTIAL | Batch API for MTAAA(Phase 3) |
| Rollbackability | ALIGNED | D1 migration rollback scripts(Phase 3) |
| Agent Contracts | PARTIAL | WO output JSON schema(Phase 3) |
| Knowledge Management | PARTIAL | UB freshness decay + RAG pipeline(Phase 2/3) |
5/10 ALIGNED,5/10 PARTIAL,0/10 GAP。 SuperPortia 在 Authority Model、HITL Gates、Trust Boundaries、Rollbackability 四個安全關鍵維度上已達業界最佳實踐水平。主要提升空間在可觀測性、成本優化和知識管理的自動化程度。