跳至主要內容
Beast × autoresearch 四個落地場景

Beast × autoresearch 合體 — 四個真實落地場景

2 分

理論講完了,現在看實際。

Beast × autoresearch 的合體架構,最大的問題不是「能不能用」,而是「從哪裡開始用」。選錯場景,可能跑幾百次實驗得到的只是噪音;選對場景,你可以在睡覺時讓系統自己跑出你清醒時幾個月都拿不到的改進。

這篇文章拆解四個真實場景,並說明為什麼 SuperPortia 建議從場景四(Lighthouse 分數)開始。

系列文章

這篇是Beast Mode × autoresearch 完整指南 系列的子文章,專注落地場景。如果你還沒讀兩個工具各自的拆解,先看:Beast Mode 完整拆解Karpathy 的 autoresearch 完整拆解

合體工作流

在看場景之前,先確認完整工作流的結構:

## 研究階段 ← Beast Mode 的能力
1. 用 fetch_webpage 研究當前最佳實踐
2. 遞迴爬取相關文件和 API docs
3. 分析 codebase 現狀
4. 制定改進假設和 todo list

## 實驗階段 ← autoresearch 的閉環
5. 修改目標檔案(僅限指定範圍)
6. 執行測試 / 跑評估(固定時間預算)
7. 讀取量化指標
8. 指標進步 → git commit 保留
   指標退步 → git checkout 丟棄

## 迴圈 ← 兩者合體的威力
9. 回到步驟 1,用新學到的知識提出下一個假設
   NEVER STOP — 除非達到人類定義的終止條件

每個場景要做的事,就是把這個模板裡的「目標檔案」「時間預算」「量化指標」換成場景特定的對應物。program.md 是你和 Agent 的合約——你在這裡定義紅線、目標、和評估標準,Agent 在定義的邊界內自主運作。

場景一:行銷 Landing Page(Eric Siu 模式)

用途:Landing Page / Ad Copy 持續優化

Eric Siu(Single Grain 廣告公司創辦人)已經在實踐類似的框架。他把 train.py 換成行銷素材,把 val_bpb 換成轉換率或回覆率。

角色負責什麼
Beast Mode研究競品 Landing Page 結構;爬取 A/B test 最佳實踐文件;分析高轉換文案的共同模式
autoresearch生成新版本素材;部署到測試環境;量化比較轉換率;保留或丟棄
人類(HOTL)在 program.md 定義品牌護欄和禁止語言;設定目標轉換率;每週看結果摘要

量化衝擊對比

方式實驗次數/年
傳統行銷團隊~30 次
Beast × autoresearch36,500+ 次

這不是在說傳統行銷團隊不努力。是在說結構性的速度差距——人類需要睡覺,系統不用。

關鍵 program.md 設定

  • 量化指標:轉換率(直接)或 LLM-as-judge 評估文案品質(間接)
  • 可修改範圍:標題、副標題、CTA 文字、benefit bullets
  • 禁止修改:品牌名稱、核心承諾、法律聲明

場景二:NQ ICT 交易策略回測

用途:ICT/SMC 策略參數自主優化

這個場景直接對應 NQ 期貨交易:ICT 方法論、1 分鐘 K 線、5-pip SL、25-50 pip TP。

角色負責什麼
Beast Mode研究最新 ICT 策略變體和參數調整思路;爬取 KOL 分享的交易筆記;分析 Databento 歷史數據的模式
autoresearch修改回測參數設定;跑固定樣本量的歷史回測;量化 Sharpe ratio / 勝率;保留或丟棄
人類(HOTL)在 program.md 定義不可動範圍;設定最低勝率門檻;每天看一次優化摘要

可優化的參數範圍

  • PO3(Power of Three)時間窗口偏移量
  • FVG(Fair Value Gap)大小過濾門檻
  • Silver Bullet 進場精確時間微調
  • SL/TP 比例調整

絕對紅線(寫入 program.md 的 NEVER 區塊)

  • ICT 核心邏輯不可改(不是在優化策略哲學,是在優化參數)
  • 單 session 最多 3 筆的風控規則不可改
  • 實際交易帳號完全隔離——自動化只用於策略研究,永遠不碰實盤
自動化交易的邊界

Beast × autoresearch 用於策略研究回測是完全合理的。用於實際交易執行是完全不同的問題,需要不同的風控框架和監管考量。紅線必須在 program.md 裡明確寫死。

場景三:KOL 情報管線品質迭代(NQ ICT Scout)

用途:Daily Digest 壓縮 prompt 自動優化

這個場景對應 SuperPortia 的 KOL 情報管線——每天抓取多個 ICT/SMC KOL 的內容,壓縮成有用的每日摘要。

角色負責什麼
Beast Mode研究最新 prompt 工程技巧;分析高品質 AI 摘要的結構模式;爬取競品情報產品的格式
autoresearch修改壓縮 prompt;用同一批 KOL 原始內容跑評估;用 LLM-as-judge 評分;保留或丟棄
人類(HOTL)定義品質標準;提供 golden sample(什麼樣的摘要是好的);看最終 Digest

量化指標設計:單純的 LLM-as-judge 分數太主觀,需要多維度加權:

綜合分數 =
  信息密度分數 × 0.4    (是否包含真正有用的市場洞察)
  + 可讀性分數 × 0.3    (是否結構清晰、容易掃讀)
  + 行動建議品質 × 0.3  (是否有具體的操作建議)

三個子指標加權成一個數字,Agent 才有明確的「比上次好還是壞」判斷依據。

這個場景的特殊性:不像 ML 實驗可以用客觀指標,KOL 情報品質帶有主觀判斷。Golden sample 的品質決定了整個閉環的方向——垃圾進,垃圾出。這是人類在 HOTL 模式裡最關鍵的貢獻:定義「什麼是好的」。

場景四:SuperPortia 網站效能(Lighthouse 分數)

用途:Astro 6 + Cloudflare Pages 效能持續優化

建議從這裡開始

場景四是最低風險、最快上手的入門點。建議任何想試驗 Beast × autoresearch 的人先從這裡練手,再推到更複雜的場景。

角色負責什麼
Beast Mode研究 Astro 6 + CF Pages 效能最佳實踐;爬取 web.dev 和 CF 文件的最新建議;分析競品站的效能策略
autoresearch修改指定的程式碼模組;跑 Lighthouse audit(幾秒鐘);量化 Performance 分數;保留或丟棄
人類(HOTL)定義目標分數(如 Performance > 90);指定可修改範圍(圖片優化、lazy loading、CSS);review 最終版本

為什麼場景四是最低風險

✅ 量化指標:Lighthouse Performance 分數,現成的,0-100,越高越好
✅ 快速評估:跑一次 Lighthouse audit 幾秒鐘,不是幾分鐘或幾小時
✅ 零成本回退:git checkout 丟棄一次改動,無任何副作用
✅ 清晰邊界:改前端效能代碼,不碰業務邏輯
✅ 視覺驗證:每次改動後可截圖確認版面沒有破壞

對比其他場景:行銷 LP 需要真實流量驗證,交易回測需要高品質歷史數據,KOL 情報需要 golden sample。Lighthouse 分數是一個自給自足的封閉系統——所有評估資源都在本地,不需要外部依賴。

建議的 program.md 模板(場景四)

# SuperPortia Agentic Site Performance Research

## 目標
Lighthouse Performance 分數從當前值提升 10 分以上。

## 量化指標
- 主指標:Lighthouse Performance 分數(npx lighthouse --only-categories=performance)
- 比較基準:前一次 git commit 的分數
- 進步閾值:+0.5 分以上算改進(小於此視為雜訊)

## 可修改範圍
- src/styles/ 下的 CSS 優化
- src/components/ 下的圖片 lazy loading
- astro.config.mjs 的 build 設定

## 禁止修改
- src/layouts/*.astro(版型保護規則)
- src/content/(內容目錄)
- public/(靜態資源,改之前先問)

## 研究策略
每輪實驗開始時,先搜尋:
1. "Astro 6 performance optimization site:docs.astro.build"
2. "Cloudflare Pages performance best practices 2026"
3. 上一輪 Lighthouse 報告裡分數最低的子項目

## 終止條件
Performance > 95,或連續 5 次實驗沒有改進。

場景比較:選擇你的入門點

quadrantChart
    title 四個場景的風險 vs. 回報
    x-axis 低風險 --> 高風險
    y-axis 低回報 --> 高回報
    quadrant-1 高風險高回報
    quadrant-2 低風險高回報 ← 理想區
    quadrant-3 低風險低回報
    quadrant-4 高風險低回報
    Lighthouse: [0.15, 0.45]
    KOL 情報品質: [0.35, 0.60]
    NQ 交易策略: [0.70, 0.85]
    行銷 Landing Page: [0.55, 0.90]

入門順序建議

  1. Lighthouse 分數(本週可以開始,無外部依賴)
  2. KOL 情報品質(需要先定義 golden sample,下個 sprint)
  3. 行銷 Landing Page(需要 A/B 測試基礎設施)
  4. NQ 交易策略(需要完整的 backtesting framework 和嚴格的紅線機制)

SuperPortia 觀點:Karpathy 的願景 × 我們的多 Agent 架構

Karpathy 在描述 autoresearch 的下一步時說:

「目標不是模擬一個博士生,而是模擬一個由博士生組成的研究社群。你啟動一群 Agent,讓它們協作調小模型,把最有希望的想法往越來越大的規模推進,人類(可選地)在邊緣貢獻。」

SuperPortia 的多 Agent 架構——PM Agent + 小克 + 小切 + Codex——已經是這個願景的雛形。四個場景給了我們四個可以落地的實驗場域。

落地路徑:

現在(Phase 0):
  手動確認 Beast × autoresearch 的閉環在 Lighthouse 場景可行

近期(Phase 1):
  KOL 情報品質閉環上線
  → text_batch_runner.py adapter(MTAAA TaskList #69)

中期(Phase 2):
  NQ 回測閉環
  → 需要完整的 backtesting framework + 嚴格的紅線機制

長期(Phase 3):
  多 Agent 並行實驗
  → 一群專業 Agent 各跑自己的優化迴圈,PM Agent 統籌

Karpathy 700 次實驗的數字,不是在說要跑很多次才有效。是在說:當你把閉環建好,規模本身不是問題,問題只是你有沒有把系統設計對。


SuperPortia Intelligence Brief — 小西 整理,2026-03-20。返回總覽:Beast Mode × autoresearch 完整指南

Mode × autoresearch 完整指南]] 系列的子文章,專注 autoresearch 本身的架構解析。如果你想看 autoresearch 和 Beast Mode 如何搭配,讀總文或 [[Beast × autoresearch 合體 — 四個真實落地場景]]。 autoresearch 是什麼 核心概念一句話:讓...

在此文章中被引用

...問題。 但兩者的底層哲學完全一致:讓 Agent 真正自主,人類負責設計規則而不是盯著每個步驟。 SuperPortia Intelligence Brief — 小西 整理,2026-03-20。返回總覽:[[Beast Mode × autoresearch 完整指南]] | 延伸閱讀:[[Karpathy 的 autoresearch 完整拆解]] |...

在此文章中被引用