Beast × autoresearch 合體 — 四個真實落地場景

理論講完了，現在看實際。

Beast × autoresearch 的合體架構，最大的問題不是「能不能用」，而是「從哪裡開始用」。選錯場景，可能跑幾百次實驗得到的只是噪音；選對場景，你可以在睡覺時讓系統自己跑出你清醒時幾個月都拿不到的改進。

這篇文章拆解四個真實場景，並說明為什麼 SuperPortia 建議從場景四（Lighthouse 分數）開始。

系列文章

這篇是Beast Mode × autoresearch 完整指南系列的子文章，專注落地場景。如果你還沒讀兩個工具各自的拆解，先看：Beast Mode 完整拆解和 Karpathy 的 autoresearch 完整拆解。

合體工作流

在看場景之前，先確認完整工作流的結構：

## 研究階段 ← Beast Mode 的能力
1. 用 fetch_webpage 研究當前最佳實踐
2. 遞迴爬取相關文件和 API docs
3. 分析 codebase 現狀
4. 制定改進假設和 todo list

## 實驗階段 ← autoresearch 的閉環
5. 修改目標檔案（僅限指定範圍）
6. 執行測試 / 跑評估（固定時間預算）
7. 讀取量化指標
8. 指標進步 → git commit 保留
   指標退步 → git checkout 丟棄

## 迴圈 ← 兩者合體的威力
9. 回到步驟 1，用新學到的知識提出下一個假設
   NEVER STOP — 除非達到人類定義的終止條件

每個場景要做的事，就是把這個模板裡的「目標檔案」「時間預算」「量化指標」換成場景特定的對應物。program.md 是你和 Agent 的合約——你在這裡定義紅線、目標、和評估標準，Agent 在定義的邊界內自主運作。

場景一：行銷 Landing Page（Eric Siu 模式）

用途：Landing Page / Ad Copy 持續優化

Eric Siu（Single Grain 廣告公司創辦人）已經在實踐類似的框架。他把 train.py 換成行銷素材，把 val_bpb 換成轉換率或回覆率。

角色	負責什麼
Beast Mode	研究競品 Landing Page 結構；爬取 A/B test 最佳實踐文件；分析高轉換文案的共同模式
autoresearch	生成新版本素材；部署到測試環境；量化比較轉換率；保留或丟棄
人類（HOTL）	在 program.md 定義品牌護欄和禁止語言；設定目標轉換率；每週看結果摘要

量化衝擊對比：

方式	實驗次數/年
傳統行銷團隊	~30 次
Beast × autoresearch	36,500+ 次

這不是在說傳統行銷團隊不努力。是在說結構性的速度差距——人類需要睡覺，系統不用。

關鍵 program.md 設定：

量化指標：轉換率（直接）或 LLM-as-judge 評估文案品質（間接）
可修改範圍：標題、副標題、CTA 文字、benefit bullets
禁止修改：品牌名稱、核心承諾、法律聲明

場景二：NQ ICT 交易策略回測

用途：ICT/SMC 策略參數自主優化

這個場景直接對應 NQ 期貨交易：ICT 方法論、1 分鐘 K 線、5-pip SL、25-50 pip TP。

角色	負責什麼
Beast Mode	研究最新 ICT 策略變體和參數調整思路；爬取 KOL 分享的交易筆記；分析 Databento 歷史數據的模式
autoresearch	修改回測參數設定；跑固定樣本量的歷史回測；量化 Sharpe ratio / 勝率；保留或丟棄
人類（HOTL）	在 program.md 定義不可動範圍；設定最低勝率門檻；每天看一次優化摘要

可優化的參數範圍：

PO3（Power of Three）時間窗口偏移量
FVG（Fair Value Gap）大小過濾門檻
Silver Bullet 進場精確時間微調
SL/TP 比例調整

絕對紅線（寫入 program.md 的 NEVER 區塊）：

ICT 核心邏輯不可改（不是在優化策略哲學，是在優化參數）
單 session 最多 3 筆的風控規則不可改
實際交易帳號完全隔離——自動化只用於策略研究，永遠不碰實盤

自動化交易的邊界

Beast × autoresearch 用於策略研究和回測是完全合理的。用於實際交易執行是完全不同的問題，需要不同的風控框架和監管考量。紅線必須在 program.md 裡明確寫死。

場景三：KOL 情報管線品質迭代（NQ ICT Scout）

用途：Daily Digest 壓縮 prompt 自動優化

這個場景對應 SuperPortia 的 KOL 情報管線——每天抓取多個 ICT/SMC KOL 的內容，壓縮成有用的每日摘要。

角色	負責什麼
Beast Mode	研究最新 prompt 工程技巧；分析高品質 AI 摘要的結構模式；爬取競品情報產品的格式
autoresearch	修改壓縮 prompt；用同一批 KOL 原始內容跑評估；用 LLM-as-judge 評分；保留或丟棄
人類（HOTL）	定義品質標準；提供 golden sample（什麼樣的摘要是好的）；看最終 Digest

量化指標設計：單純的 LLM-as-judge 分數太主觀，需要多維度加權：

綜合分數 =
  信息密度分數 × 0.4    (是否包含真正有用的市場洞察)
  + 可讀性分數 × 0.3    (是否結構清晰、容易掃讀)
  + 行動建議品質 × 0.3  (是否有具體的操作建議)

三個子指標加權成一個數字，Agent 才有明確的「比上次好還是壞」判斷依據。

這個場景的特殊性：不像 ML 實驗可以用客觀指標，KOL 情報品質帶有主觀判斷。Golden sample 的品質決定了整個閉環的方向——垃圾進，垃圾出。這是人類在 HOTL 模式裡最關鍵的貢獻：定義「什麼是好的」。

場景四：SuperPortia 網站效能（Lighthouse 分數）

用途：Astro 6 + Cloudflare Pages 效能持續優化

建議從這裡開始

場景四是最低風險、最快上手的入門點。建議任何想試驗 Beast × autoresearch 的人先從這裡練手，再推到更複雜的場景。

角色	負責什麼
Beast Mode	研究 Astro 6 + CF Pages 效能最佳實踐；爬取 web.dev 和 CF 文件的最新建議；分析競品站的效能策略
autoresearch	修改指定的程式碼模組；跑 Lighthouse audit（幾秒鐘）；量化 Performance 分數；保留或丟棄
人類（HOTL）	定義目標分數（如 Performance > 90）；指定可修改範圍（圖片優化、lazy loading、CSS）；review 最終版本

為什麼場景四是最低風險：

✅ 量化指標：Lighthouse Performance 分數，現成的，0-100，越高越好
✅ 快速評估：跑一次 Lighthouse audit 幾秒鐘，不是幾分鐘或幾小時
✅ 零成本回退：git checkout 丟棄一次改動，無任何副作用
✅ 清晰邊界：改前端效能代碼，不碰業務邏輯
✅ 視覺驗證：每次改動後可截圖確認版面沒有破壞

對比其他場景：行銷 LP 需要真實流量驗證，交易回測需要高品質歷史數據，KOL 情報需要 golden sample。Lighthouse 分數是一個自給自足的封閉系統——所有評估資源都在本地，不需要外部依賴。

建議的 program.md 模板（場景四）：

# SuperPortia Agentic Site Performance Research

## 目標
Lighthouse Performance 分數從當前值提升 10 分以上。

## 量化指標
- 主指標：Lighthouse Performance 分數（npx lighthouse --only-categories=performance）
- 比較基準：前一次 git commit 的分數
- 進步閾值：+0.5 分以上算改進（小於此視為雜訊）

## 可修改範圍
- src/styles/ 下的 CSS 優化
- src/components/ 下的圖片 lazy loading
- astro.config.mjs 的 build 設定

## 禁止修改
- src/layouts/*.astro（版型保護規則）
- src/content/（內容目錄）
- public/（靜態資源，改之前先問）

## 研究策略
每輪實驗開始時，先搜尋：
1. "Astro 6 performance optimization site:docs.astro.build"
2. "Cloudflare Pages performance best practices 2026"
3. 上一輪 Lighthouse 報告裡分數最低的子項目

## 終止條件
Performance > 95，或連續 5 次實驗沒有改進。

場景比較：選擇你的入門點

quadrantChart
    title 四個場景的風險 vs. 回報
    x-axis 低風險 --> 高風險
    y-axis 低回報 --> 高回報
    quadrant-1 高風險高回報
    quadrant-2 低風險高回報 ← 理想區
    quadrant-3 低風險低回報
    quadrant-4 高風險低回報
    Lighthouse: [0.15, 0.45]
    KOL 情報品質: [0.35, 0.60]
    NQ 交易策略: [0.70, 0.85]
    行銷 Landing Page: [0.55, 0.90]

入門順序建議：

Lighthouse 分數（本週可以開始，無外部依賴）
KOL 情報品質（需要先定義 golden sample，下個 sprint）
行銷 Landing Page（需要 A/B 測試基礎設施）
NQ 交易策略（需要完整的 backtesting framework 和嚴格的紅線機制）

SuperPortia 觀點：Karpathy 的願景 × 我們的多 Agent 架構

Karpathy 在描述 autoresearch 的下一步時說：

「目標不是模擬一個博士生，而是模擬一個由博士生組成的研究社群。你啟動一群 Agent，讓它們協作調小模型，把最有希望的想法往越來越大的規模推進，人類（可選地）在邊緣貢獻。」

SuperPortia 的多 Agent 架構——PM Agent + 小克 + 小切 + Codex——已經是這個願景的雛形。四個場景給了我們四個可以落地的實驗場域。

落地路徑：

現在（Phase 0）：
  手動確認 Beast × autoresearch 的閉環在 Lighthouse 場景可行

近期（Phase 1）：
  KOL 情報品質閉環上線
  → text_batch_runner.py adapter（MTAAA TaskList #69）

中期（Phase 2）：
  NQ 回測閉環
  → 需要完整的 backtesting framework + 嚴格的紅線機制

長期（Phase 3）：
  多 Agent 並行實驗
  → 一群專業 Agent 各跑自己的優化迴圈，PM Agent 統籌

Karpathy 700 次實驗的數字，不是在說要跑很多次才有效。是在說：當你把閉環建好，規模本身不是問題，問題只是你有沒有把系統設計對。

SuperPortia Intelligence Brief — 小西整理，2026-03-20。返回總覽：Beast Mode × autoresearch 完整指南

Beast × autoresearch 合體 — 四個真實落地場景

合體工作流

場景一：行銷 Landing Page（Eric Siu 模式）

場景二：NQ ICT 交易策略回測

場景三：KOL 情報管線品質迭代（NQ ICT Scout）

場景四：SuperPortia 網站效能（Lighthouse 分數）

場景比較：選擇你的入門點

SuperPortia 觀點：Karpathy 的願景 × 我們的多 Agent 架構

相關文章

分類

標籤

指令面板

選擇主題