Beast Mode × autoresearch — 能力層 + 閉環層 = HOTL 的完整落地方案
兩個人,兩個月內,各自釋出了解決同一個問題不同面向的工具。
Burke Holland(微軟 VS Code 團隊)2026 年初發布 Beast Mode:一份 .chatmode.md 指令,讓 VS Code Agent 變成一個極強的自主研究 + 執行機器。Andrej Karpathy 2026 年 3 月釋出 autoresearch:630 行 Python,讓 ML 實驗在無人監督下反覆迭代,兩天跑 700 次,找到人類手動調了二十年都沒發現的改進。
這兩個專案單獨看都很有意思。放在一起看,你會發現它們剛好是同一個問題的互補解法——而合在一起,就是 SuperPortia HOTL 架構一直在往那個方向走的完整藍圖。
- Beast Mode 完整拆解 — VS Code Agent 的六大能力逐條解析
- Karpathy 的 autoresearch 完整拆解 — 630 行 Python 的閉環機器
- Beast × autoresearch 合體 — 四個真實落地場景 — 從行銷到交易策略的實戰場景
核心洞察:能力層 vs. 閉環層
這兩個工具各自解決了 HOTL Agent 的一半。
Beast Mode = 能力層
給 Agent「如何做事」的能力:主動上網研究最新文件、自動拆解複雜任務成 todo list、深度計畫後才執行、遇到失敗絕不放棄、嚴格測試確保品質。它讓 Agent 從一個等指令的工具,變成一個真正能獨立完成複雜任務的夥伴。
autoresearch = 閉環層
給 Agent「如何持續改進」的機制:單一可修改檔案限定範圍、固定時間預算讓結果可比、量化指標判斷優劣、git commit/checkout 自動保留或丟棄改動。它讓 Agent 從完成一次就停的工具,變成一個能無人值守跑整晚持續迭代的系統。
合體 = 完整 HOTL Agent
能力層(Beast Mode)
研究 + 規劃 + 實作 + 測試
↓ 每輪都能學習新知識
閉環層(autoresearch)
量化評估 + 版本管理 + 無人值守迴圈
↓ 越跑越聰明,不需要人類介入
HOTL 角色(人類)
定義目標 + 設計規則 + 在邊緣監督
三種模式完整對照
| 維度 | Beast Mode | autoresearch | Beast × auto |
|---|---|---|---|
| Agent 能力 | 極強(研究+規劃+實作+測試) | 中等(只在一個檔案裡微調) | 極強 + 閉環 |
| 自主研究 | ✅ 遞迴爬網最新文件 | ❌ 只用既有知識 | ✅ 每輪都能研究新知 |
| 閉環迭代 | ❌ 完成一次就停 | ✅ 自動循環 | ✅ 自動循環 |
| 量化評估 | ❌ 沒有單一指標 | ✅ val_bpb(可替換) | ✅ 可替換為任何指標 |
| 版本管理 | ❌ 手動 git | ✅ 自動 commit/checkout | ✅ 全自動 |
| 無人值守 | ❌ 等人類下指令 | ✅ 跑整晚 | ✅ 跑整晚,且越跑越聰明 |
| 人類角色 | 指令下達者 | 規則設計者(HOTL) | 規則設計者(HOTL) |
Beast Mode 的原始推廣者 Aster Wei 走的是反方向——他把 Beast Mode 理解為「需要被馴化的野獸」,在 Beast Mode 上加回人類審核,變成 HITL。這恰好去掉了 Beast Mode 最有價值的部分:自主性。感謝他讓我們看到 Beast Mode,但他的「馴化」路線是把自己綁回 Human in the Middle。我們的路是 HOTL:用 autoresearch 的閉環規則取代人類嵌入,讓 Agent 自己在規則內學習和優化。
合體後的工作流
合體架構的核心是重新設計 program.md——autoresearch 用來指導 Agent 研究策略的檔案——讓它包含 Beast Mode 的研究能力:
## 研究階段 ← Beast Mode 的能力
1. 用 fetch_webpage 研究當前最佳實踐
2. 遞迴爬取相關文件和 API docs
3. 分析 codebase 現狀
4. 制定改進假設和 todo list
## 實驗階段 ← autoresearch 的閉環
5. 修改目標檔案(僅限指定範圍)
6. 執行測試 / 跑評估(固定時間預算)
7. 讀取量化指標
8. 指標進步 → git commit 保留
指標退步 → git checkout 丟棄
## 迴圈 ← 兩者合體的威力
9. 回到步驟 1,用新學到的知識提出下一個假設
NEVER STOP — 除非達到人類定義的終止條件
步驟 9 是關鍵差異。 純 autoresearch 的 Agent 只會在既有知識裡打轉做微調。加了 Beast Mode 能力後,每一輪迴圈開始時 Agent 都能主動上網研究新方法,帶著新知識進入下一輪實驗。這不只是優化,而是持續學習 + 優化。
SuperPortia 觀點:我們已經在走這條路
SuperPortia 的架構一直在往同一個方向走,只是語言不同:
- agent-intelligence-protocol 的「Pre-Decision 查 UB + Research-Before-Plan」= Beast Mode 的遞迴研究哲學
- MTAAA 的 autoResearch Pattern = autoresearch 閉環的 SuperPortia 實現版
- PM Agent + 小克 + 小切 + Codex 的協作結構 = Karpathy 描述的「研究社群」企業版
Beast Mode 和 autoresearch 給了我們一個外部的驗證:我們走的方向是對的,而且有人已經跑通了。
不要混淆。SuperPortia 的「autoResearch Pattern」(見 ADR-0002)是一個 guard pattern,防止 Agent 未經驗證就寫入 vault。Karpathy 的autoresearch 是一個 ML 實驗閉環工具。兩者都叫 autoResearch,但概念不同,都重要。
四個落地場景
Beast × autoresearch 的組合不限於 ML 研究。任何「有明確量化指標的持續改進任務」都可以套用:
- 行銷 Landing Page(Eric Siu 模式)— 轉換率替換 val_bpb,Agent 每晚測試新版本
- NQ ICT 交易策略回測 — Sharpe / 勝率作為指標,Agent 持續優化策略參數
- KOL 情報管線品質 — LLM-as-judge 評分,Agent 自動迭代壓縮 prompt
- SuperPortia 網站 Lighthouse 分數 — 現成量化指標,最低風險入門點
詳細場景拆解見:Beast × autoresearch 合體 — 四個真實落地場景
Karpathy 的下一步願景 × 我們的多 Agent 架構
Karpathy 說的很清楚:
「下一步是讓 autoresearch 支援多 Agent 異步協作。目標不是模擬一個博士生,而是模擬一個由博士生組成的研究社群。」
「你啟動一群 Agent,讓它們協作調小模型,把最有希望的想法往越來越大的規模推進,人類(可選地)在邊緣貢獻。」
這直接指向 SuperPortia 的多 Agent 架構。不是一個超強 Agent 獨自完成所有事,而是一群專業 Agent 各負責自己擅長的部分,人類在邊緣監督、設定目標、在關鍵節點介入。
Karpathy 在 ML 研究領域證明了這個模式可行——700 輪實驗,不是理想,是現實跑通的數字。Beast Mode 補上了 autoresearch 缺的研究能力。兩者合體是 SuperPortia PM Agent 自主運作的完整藍圖。
SuperPortia Intelligence Brief — 小西 整理,2026-03-20。系列文章:Beast Mode 完整拆解 | Karpathy 的 autoresearch 完整拆解 | Beast × autoresearch 合體 — 四個真實落地場景
...產設計裡」。及早發現這種根本性問題,比把它優化到勉強可用要好得多。 Phase 0 的降規,表面上看是退步,實際上是建立一個可以信任的基礎。一個 score → compare → revert/keep 的最小閉環,比一個充滿假設但從未穩定運行的複雜閉環,有價值一百倍。 我們從四層審查出發,走回了工程的第一原則:先讓它跑得通,再讓它跑得好,最後才讓它跑得快。 *相關文章:[[[beast-autoresearch-complete-guide|Beast Mode + autoResearch]]
...件事:很多人都在等一個工具,能讓 AI Agent 真正閉環運作,而不是永遠等待人類下一個指令。 autoresearch 就是這個工具的最小可行版本。 系列文章 這篇是 [[Beast Mode × autoresearch 完整指南]] 系列的子文章,專注 autoresearch 本身的架構解析。如果你想看...
...究能力、閉環迭代、產品驗證三層整合的框架。 下次你做完一個 skill,推上去,然後問自己:「我怎麼知道它是好的?」 如果你用了 BAT-Loop,你有答案。 延伸閱讀: - [[Beast Mode × autoresearch 完整指南]] — 兩個方法論的深度解析 -...
...自己跑出你清醒時幾個月都拿不到的改進。 這篇文章拆解四個真實場景,並說明為什麼 SuperPortia 建議從場景四(Lighthouse 分數)開始。 系列文章 這篇是 [[Beast Mode × autoresearch 完整指南]] 系列的子文章,專注落地場景。如果你還沒讀兩個工具各自的拆解,先看:[[Beast Mode 完整拆解]] 和...
...b 1,750 stars、235 forks。它不是工具,不是外掛,就是一份 prompt 文件——但它重新定義了 Agent 在整個任務週期裡的行為。 系列文章 這篇是 [[Beast Mode × autoresearch 完整指南]] 系列的子文章,專注 Beast Mode 本身的拆解。如果你想看兩者如何搭配成完整...
LI 協作的實戰操作,參考 [[多代理 CLI 協作實錄]];關於 Beast Mode 自動研究如何配合 orchestrator,參考 [[Beast Mode + autoResearch 完整指南]]。 痛點:Opus 太貴,但忍不住自己做事 Opus 的...