Thariq Skills #2 — Product Verification:讓 Agent 自己跑驗證,而不是等你手動測
你讓 agent 改了一段程式,它說「完成了」。但你怎麼知道 signup 流程還是通的?
Product Verification skills 解決的就是這個問題:讓 agent 自己去驗證,不要等你手動打開瀏覽器測。
類別定義
“How to test/verify code is working. Paired with playwright, tmux, etc. Worth having an engineer spend a week making these excellent.”
Product Verification 是 Thariq 特別強調投入工程資源的類別。他的說法是「值得讓一個工程師花一週把它做好」——這個投資會讓之後的所有 agent 工作都更可靠。
這個類別的核心不是「寫 test case」,而是「給 agent 一個可以驅動、觀察、並斷言的驗證環境」。
Thariq 的範例
signup-flow-driver — 自動驅動使用者註冊流程。啟動 Playwright,填表單、點按鈕、驗證狀態——agent 執行,而不是人工執行。
checkout-verifier — 結帳流程的端對端驗證。關鍵是「programmatic assertions at each step」:每一步都有可程式化的斷言,不是靠視覺判斷。
tmux-cli-driver — 用 tmux 驅動 CLI 工具的交互。agent 在一個 pane 執行指令,在另一個 pane 觀察輸出,確認行為符合預期。
兩個關鍵技術
錄影輸出
Thariq 明確提到「record video of output」——不只是斷言通過,而是留下視覺記錄。這讓工程師可以事後審查 agent 的驗證過程,而不是盲目相信「passed」。
# 典型的 Playwright 錄影設定
playwright test --video=on --output=./test-results
程式化斷言
不要讓 agent 做「看起來對」的判斷。每個驗證步驟都應該有明確的可程式化條件:
// 好:明確的程式化斷言
await expect(page.locator('[data-testid="success-message"]')).toBeVisible();
await expect(page.url()).toContain('/dashboard');
// 差:依賴 agent 視覺判斷
// "Check if the page looks correct"
SuperPortia 實戰觀點
這是 SP skills 覆蓋中最大的缺口。
目前狀況:SuperPortia Bridge(前端)和 Command Center(儀表板)完全沒有自動化驗證 skill。每次部署後,驗證流程是手動的——人工打開瀏覽器、點頁面、確認功能。
這在單一 agent 部署時還可接受,但隨著 agent 頻率增加,問題會放大:
| 風險 | 現狀 | 影響 |
|---|---|---|
| 部署後迴歸 | 無自動驗證 | 需人工發現問題 |
| API 端點變更 | 無端對端測試 | 前後端可能不同步 |
| CF Workers 部署 | 靠 wrangler 輸出判斷 | 沒有功能層面的確認 |
最可行的起步:為 Command Center(localhost:3900)建立一個 cc-verifier skill,用 Chrome DevTools MCP 驗證關鍵頁面是否正常渲染,並確認 API endpoints 回應正確的 status code。
Thariq 說 Product Verification 值得工程師花一週,因為它讓後續所有 agent 工作都有安全網。SP 目前每次 agent 修改都沒有這個安全網——風險隨 agent 使用頻率線性增長。
建議做法
從最簡單的「冒煙測試 skill」開始,不必一步到位:
cc-verifier/
├── SKILL.md ← 觸發條件:「部署後驗證 CC 功能」
├── smoke-test.sh ← curl 檢查關鍵 API endpoints
└── gotchas.md ← 已知的不穩定行為記錄
三個必驗的點:
- Command Center 首頁是否正常載入(HTTP 200)
- /api/projects 是否回傳正確格式
- 最近一次修改的功能是否仍然運作
回到總文
本文是九大類別系列的第二篇。完整框架與 SuperPortia 對照請見:
...hariq-skills-library-api-reference|Thariq Skills — Library & API Reference]] — 如何教 agent 用好內部函式庫 2. [[Thariq Skills — Product Verification]] — 自動化產品驗證的正確姿勢 3. [[Thariq Skills — Data Fetching & Analysis]] — 連接資料堆疊的 skill 設計...