跳至主要內容
Beast Mode × autoresearch 完整指南

Beast Mode × autoresearch — 能力層 + 閉環層 = HOTL 的完整落地方案

2 分

兩個人,兩個月內,各自釋出了解決同一個問題不同面向的工具。

Burke Holland(微軟 VS Code 團隊)2026 年初發布 Beast Mode:一份 .chatmode.md 指令,讓 VS Code Agent 變成一個極強的自主研究 + 執行機器。Andrej Karpathy 2026 年 3 月釋出 autoresearch:630 行 Python,讓 ML 實驗在無人監督下反覆迭代,兩天跑 700 次,找到人類手動調了二十年都沒發現的改進。

這兩個專案單獨看都很有意思。放在一起看,你會發現它們剛好是同一個問題的互補解法——而合在一起,就是 SuperPortia HOTL 架構一直在往那個方向走的完整藍圖。

Info

核心洞察:能力層 vs. 閉環層

這兩個工具各自解決了 HOTL Agent 的一半。

Beast Mode = 能力層

給 Agent「如何做事」的能力:主動上網研究最新文件、自動拆解複雜任務成 todo list、深度計畫後才執行、遇到失敗絕不放棄、嚴格測試確保品質。它讓 Agent 從一個等指令的工具,變成一個真正能獨立完成複雜任務的夥伴。

autoresearch = 閉環層

給 Agent「如何持續改進」的機制:單一可修改檔案限定範圍、固定時間預算讓結果可比、量化指標判斷優劣、git commit/checkout 自動保留或丟棄改動。它讓 Agent 從完成一次就停的工具,變成一個能無人值守跑整晚持續迭代的系統。

合體 = 完整 HOTL Agent

能力層(Beast Mode)
  研究 + 規劃 + 實作 + 測試
      ↓ 每輪都能學習新知識
閉環層(autoresearch)
  量化評估 + 版本管理 + 無人值守迴圈
      ↓ 越跑越聰明,不需要人類介入
HOTL 角色(人類)
  定義目標 + 設計規則 + 在邊緣監督

三種模式完整對照

維度Beast ModeautoresearchBeast × auto
Agent 能力極強(研究+規劃+實作+測試)中等(只在一個檔案裡微調)極強 + 閉環
自主研究✅ 遞迴爬網最新文件❌ 只用既有知識✅ 每輪都能研究新知
閉環迭代❌ 完成一次就停✅ 自動循環✅ 自動循環
量化評估❌ 沒有單一指標✅ val_bpb(可替換)✅ 可替換為任何指標
版本管理❌ 手動 git✅ 自動 commit/checkout✅ 全自動
無人值守❌ 等人類下指令✅ 跑整晚✅ 跑整晚,且越跑越聰明
人類角色指令下達者規則設計者(HOTL)規則設計者(HOTL)
Tip

Beast Mode 的原始推廣者 Aster Wei 走的是反方向——他把 Beast Mode 理解為「需要被馴化的野獸」,在 Beast Mode 上加回人類審核,變成 HITL。這恰好去掉了 Beast Mode 最有價值的部分:自主性。感謝他讓我們看到 Beast Mode,但他的「馴化」路線是把自己綁回 Human in the Middle。我們的路是 HOTL:用 autoresearch 的閉環規則取代人類嵌入,讓 Agent 自己在規則內學習和優化。

合體後的工作流

合體架構的核心是重新設計 program.md——autoresearch 用來指導 Agent 研究策略的檔案——讓它包含 Beast Mode 的研究能力:

## 研究階段 ← Beast Mode 的能力
1. 用 fetch_webpage 研究當前最佳實踐
2. 遞迴爬取相關文件和 API docs
3. 分析 codebase 現狀
4. 制定改進假設和 todo list

## 實驗階段 ← autoresearch 的閉環
5. 修改目標檔案(僅限指定範圍)
6. 執行測試 / 跑評估(固定時間預算)
7. 讀取量化指標
8. 指標進步 → git commit 保留
   指標退步 → git checkout 丟棄

## 迴圈 ← 兩者合體的威力
9. 回到步驟 1,用新學到的知識提出下一個假設
   NEVER STOP — 除非達到人類定義的終止條件

步驟 9 是關鍵差異。 純 autoresearch 的 Agent 只會在既有知識裡打轉做微調。加了 Beast Mode 能力後,每一輪迴圈開始時 Agent 都能主動上網研究新方法,帶著新知識進入下一輪實驗。這不只是優化,而是持續學習 + 優化。

SuperPortia 觀點:我們已經在走這條路

SuperPortia 的架構一直在往同一個方向走,只是語言不同:

  • agent-intelligence-protocol 的「Pre-Decision 查 UB + Research-Before-Plan」= Beast Mode 的遞迴研究哲學
  • MTAAA 的 autoResearch Pattern = autoresearch 閉環的 SuperPortia 實現版
  • PM Agent + 小克 + 小切 + Codex 的協作結構 = Karpathy 描述的「研究社群」企業版

Beast Mode 和 autoresearch 給了我們一個外部的驗證:我們走的方向是對的,而且有人已經跑通了。

autoResearch Pattern vs. autoresearch

不要混淆。SuperPortia 的「autoResearch Pattern」(見 ADR-0002)是一個 guard pattern,防止 Agent 未經驗證就寫入 vault。Karpathy 的autoresearch 是一個 ML 實驗閉環工具。兩者都叫 autoResearch,但概念不同,都重要。

四個落地場景

Beast × autoresearch 的組合不限於 ML 研究。任何「有明確量化指標的持續改進任務」都可以套用:

  1. 行銷 Landing Page(Eric Siu 模式)— 轉換率替換 val_bpb,Agent 每晚測試新版本
  2. NQ ICT 交易策略回測 — Sharpe / 勝率作為指標,Agent 持續優化策略參數
  3. KOL 情報管線品質 — LLM-as-judge 評分,Agent 自動迭代壓縮 prompt
  4. SuperPortia 網站 Lighthouse 分數 — 現成量化指標,最低風險入門點

詳細場景拆解見:Beast × autoresearch 合體 — 四個真實落地場景

Karpathy 的下一步願景 × 我們的多 Agent 架構

Karpathy 說的很清楚:

「下一步是讓 autoresearch 支援多 Agent 異步協作。目標不是模擬一個博士生,而是模擬一個由博士生組成的研究社群。」

「你啟動一群 Agent,讓它們協作調小模型,把最有希望的想法往越來越大的規模推進,人類(可選地)在邊緣貢獻。」

這直接指向 SuperPortia 的多 Agent 架構。不是一個超強 Agent 獨自完成所有事,而是一群專業 Agent 各負責自己擅長的部分,人類在邊緣監督、設定目標、在關鍵節點介入。

Karpathy 在 ML 研究領域證明了這個模式可行——700 輪實驗,不是理想,是現實跑通的數字。Beast Mode 補上了 autoresearch 缺的研究能力。兩者合體是 SuperPortia PM Agent 自主運作的完整藍圖。


SuperPortia Intelligence Brief — 小西 整理,2026-03-20。系列文章:Beast Mode 完整拆解 | Karpathy 的 autoresearch 完整拆解 | Beast × autoresearch 合體 — 四個真實落地場景

...產設計裡」。及早發現這種根本性問題,比把它優化到勉強可用要好得多。 Phase 0 的降規,表面上看是退步,實際上是建立一個可以信任的基礎。一個 score → compare → revert/keep 的最小閉環,比一個充滿假設但從未穩定運行的複雜閉環,有價值一百倍。 我們從四層審查出發,走回了工程的第一原則:先讓它跑得通,再讓它跑得好,最後才讓它跑得快。 *相關文章:[[[beast-autoresearch-complete-guide|Beast Mode + autoResearch]]

在此文章中被引用

...件事:很多人都在等一個工具,能讓 AI Agent 真正閉環運作,而不是永遠等待人類下一個指令。 autoresearch 就是這個工具的最小可行版本。 系列文章 這篇是 [[Beast Mode × autoresearch 完整指南]] 系列的子文章,專注 autoresearch 本身的架構解析。如果你想看...

在此文章中被引用

...究能力、閉環迭代、產品驗證三層整合的框架。 下次你做完一個 skill,推上去,然後問自己:「我怎麼知道它是好的?」 如果你用了 BAT-Loop,你有答案。 延伸閱讀: - [[Beast Mode × autoresearch 完整指南]] — 兩個方法論的深度解析 -...

在此文章中被引用

...自己跑出你清醒時幾個月都拿不到的改進。 這篇文章拆解四個真實場景,並說明為什麼 SuperPortia 建議從場景四(Lighthouse 分數)開始。 系列文章 這篇是 [[Beast Mode × autoresearch 完整指南]] 系列的子文章,專注落地場景。如果你還沒讀兩個工具各自的拆解,先看:[[Beast Mode 完整拆解]] 和...

在此文章中被引用

...b 1,750 stars、235 forks。它不是工具,不是外掛,就是一份 prompt 文件——但它重新定義了 Agent 在整個任務週期裡的行為。 系列文章 這篇是 [[Beast Mode × autoresearch 完整指南]] 系列的子文章,專注 Beast Mode 本身的拆解。如果你想看兩者如何搭配成完整...

在此文章中被引用