DOCUNI-解體-004

REV2026.04

SUBJECTAGENTS · GENERAL

VOLUMEIV

SCOPEVENDOR-NEUTRAL

Kaitai Shinsho · Volume IV · the abstraction

通用 · AI Agent · 解體新書

a ten-chapter dissection of agents in general · vendor-agnostic principles

DEFINITION LOOP TOOLS MEMORY PLANNING REFLECTION MULTI-AGENT GUARDRAILS EVAL OPS

SURGEONCLAUDE

DRAFTED2026.04.08

FORMATSCROLL-HTML

BASISFIELD STATE

CHAPTERS10 + 序

前三卷各拆了一具具體的東西 — Claude Code（CLI）、Agent SDK（函式庫）、Claude API（協定）。三具都姓 Anthropic。本卷的對象不是任何一具，而是 「代理人」這個物種本身。它存在於所有廠商的所有實作之上：Claude / GPT / Gemini / Llama / Grok / 你自己訓練的小模型 — 只要有 LLM、有迴圈、有工具，就有 agent，就適用同一套原理。

本卷不討論「呼叫哪個函式」、不討論「設哪個欄位」。它討論的是：迴圈為什麼是迴圈、記憶為什麼分四層、計畫為什麼有反應式與審慎式之分、多 agent 為什麼常常做了反而更糟、評估為什麼比寫代碼更難。這些問題你選哪家廠商都會遇到，答案也大多通用。

十回章節由內而外：先定義 agent、拆認知迴圈，再講工具、記憶、計畫、反思這四個內部能力，接著放大到群體與護欄，最後落到評估與部署的工程現實。把這層打通，前三卷的選型就會從「死記名字」進化成「依原理推導」。

何謂代理人

What is an agent · drawing the line

FIG · 01
DEFINITION

「Agent」這個詞被用得太鬆 — 任何用了 LLM 的東西都自稱 agent。本章先把線畫清楚：純 LLM 不是 agent、RAG 不是 agent、scripted workflow 不是 agent、chatbot 不是 agent。Agent 的最小定義 = LLM + 自主迴圈 + 工具。三樣缺一不可。其餘只是 LLM 的應用。

純 LLM適用：一次性轉換任務（翻譯、摘要、改寫）。優點：簡單便宜可預測。缺點：不能做需要多步、需要工具的事。

RAG適用：知識問答、文件查找。優點：把外部知識「灌」進模型。缺點：流程固定，無法處理需要動作的任務。

腳本流程適用：可預測的流水線（如「分類 → 抽取 → 驗證 → 寫入」）。優點：開發者完全掌控路徑。缺點：無法應付未預期的分支。

真正的 agent適用：開放性任務（修 bug、寫程式、查資料、執行多步操作）。優點：能處理未預期分支。缺點：成本高、不可預測、難測。

判斷準則問三個問題 — 它會自己決定下一步做什麼嗎？它會用工具嗎？它會迭代直到結束嗎？三個都 yes 才是 agent。

本卷其餘九回都是在拆「真正的 agent」這一格 — 它的迴圈結構、它的工具介面、它的記憶、它的計畫、它的自我修正、它的群體行為、它的安全與評估。

II.

認知迴圈

The cognitive loop · perceive → reason → act → observe

FIG · 02
UNIVERSAL LOOP

所有 agent 的內核都是同一個四站迴圈。它早於 LLM — 1980 年代的 BDI 認知架構、1990 年代的 robotics 控制理論、2000 年代的 reinforcement learning，全都用同一個框架：感知（perceive）→ 推理（reason）→ 行動（act）→ 觀察（observe）。LLM agent 只是把「推理」這一站換成了 next-token prediction，其他三站的位置不變。看懂這一個迴圈，你就看懂了所有 agent 框架。

① 感知（Perceive）把當前 context（system prompt、歷史、最新工具結果）讀進來。LLM 一次只看 context window 內的東西 — 越界的就消失了。

② 推理（Reason）LLM 一次 forward pass 產生下一步。可能是文字、可能是 tool call、可能是 thinking 區段。這是迴圈裡唯一花錢的地方。

③ 行動（Act）把 LLM 的決定轉成實際動作：呼叫 API、寫檔、發訊息、查資料。或者輸出最終答案結束迴圈。

④ 觀察（Observe）把行動的結果（成功值、錯誤、副作用）格式化後注回 context。下一輪 perceive 時就會看見。

終止條件三種：模型輸出最終答案（end_turn）、超過 max iterations、外部中止訊號。沒有終止條件 = infinite loop = 燒錢。

歷史源流BDI agent (Bratman 1987)、Robotics sense-plan-act 三段、RL 的 observe-act-reward — 都是同一個迴圈的變形。LLM 只是把 reasoning 外包給了預訓練模型。

III.

工具之介面

Tool interface · function calling across vendors

FIG · 03
SCHEMAS

所有現代 LLM 都用同一套抽象 — function calling：開發者宣告函式（name、description、input schema），模型在輸出中產生 {name, arguments} 物件。差別只在 wire format。本章把 OpenAI、Anthropic、Gemini 三家的格式並排，讓你一眼看出它們其實只是同一個概念的三種編碼。

三家差別其實微小都是「name + description + JSON Schema」。OpenAI 多包了一層 function、Gemini 把 type 寫成大寫並用 OpenAPI 子集 — 但概念完全相同。

JSON Schema 是公分母三家都用 JSON Schema 描述參數。學一次到處用。重點：type · properties · required · enum · description。

tool_choice 控制三家都有「auto / required / specific」三種模式 — 讓模型自選、強制使用任意一個、強制使用某個特定工具。

parallel calls現代模型（GPT-4o、Claude 4、Gemini 2）都支援「一次回應多個 tool_call」。框架要平行執行並把結果一起回送。

structured output是 tool use 的近親 — 用「強制呼叫一個工具，input_schema 就是你要的輸出形狀」這個技巧，可逼模型輸出嚴格 JSON。

抽象層級往上爬LangChain / Vercel AI SDK / LiteLLM 等框架在三家之上又包了一層「Tool」抽象 — 讓你寫一次跑三家。但底層原理都是 function calling。

IV.

記憶四界

Four realms of memory · cognitive science meets agents

FIG · 04
MEMORY MATRIX

認知心理學自 Tulving 1972 之後把記憶分成四類：working、episodic、semantic、procedural。出乎意料地，這個分類在 LLM agent 上完全成立 — 對應 context window、過去 session、知識庫、工具/skill。本章把這個四象限攤開：每一界活在哪、怎麼讀、怎麼寫、會不會失效。看清楚你需要哪幾界，避免把東西塞錯地方。

常見錯誤 · 把東西塞錯界

把使用者偏好（episodic）塞進 system prompt（procedural）→ 每次都讀，浪費 token；把產品文件（semantic）全塞進 context（working）→ context 爆且查不準；把 skill 描述（procedural）放到 vector DB（semantic）→ 模型查不到也用不到。放錯地方比沒記憶更糟。

讀寫策略 · 不對稱

四界的「寫入頻率 vs 讀取頻率」差很大。working：寫多讀多；episodic：寫少讀少（但重要時刻要讀）；procedural：寫極少讀極多；semantic：寫批次讀按需。設計記憶系統時先畫出「誰會寫、誰會讀、何時」的矩陣再開工。

計畫之術

Planning · reactive ↔ deliberative spectrum

FIG · 05
PLAN SPECTRUM

Agent 要不要先擬一份計畫？這個問題沒有單一答案 — 它是一條光譜：左端是純反應式（每步現想），右端是純審慎式（先寫完整計畫再執行）。實務上多數成功 agent 落在中間：plan-and-execute（先擬中間粒度的計畫，執行時可修訂）。本章拆光譜兩端與中間幾種典型模式。

Plan 物件本身就是 working memory計畫不是另外存的東西 — 它就是 context 裡的一段文字（或結構化 todo list）。把它顯式列出來反而幫助模型保持方向。

修訂的時機每完成一步問：(a) 計畫對嗎？ (b) 上一步成功嗎？ (c) 有無新資訊要納入？三個都 yes 才繼續，否則 replan。

用 todo 工具強化給 agent 一個 TaskCreate / TaskUpdate 工具讓它寫 todo — 把計畫物件化、可追蹤。Claude Code 的 TaskCreate 即此模式。

Plan 模式（Claude Code）是極端 plan-and-execute 的一個版本：擬完計畫先問人類，獲准後才執行。風險高的任務適用。

避免過度計畫把每一個 detail 都寫進計畫 = 退化成腳本流程，失去 agent 自主性。計畫應在 5-10 個高層步驟之間。

階層分解的代價分得越深，subagent 越難協調且 context 連貫性越差。實務上 2 層（主 + 子）通常已足夠 — 3 層以上常常得不償失。

VI.

反思之鏡

Reflection · self-critique & the Reflexion pattern

FIG · 06
FEEDBACK LOOP

LLM 的第一答常常是錯的、第二答常常更好。這個觀察催生了一整套「自我修正」模式 — 從最簡的 self-critique 到 Reflexion (Shinn et al. 2023) 的記憶式反思、到外部 verifier 的客觀檢查。本章拆四種反思結構與它們各自的適用情境。反思不是萬靈丹：用對地方加分、用錯地方只是燒 token 走原路。

Self-critique 的天花板同一個 LLM 既當作家又當編輯，它不會看見它本來就看不見的問題。對「模型已經 confident 但其實錯」的情境完全無效。

Reflexion 三件事(1) 嘗試 (2) 評分 (3) 把失敗原因寫入長期記憶 — 下一輪帶著「上次失敗是因為 X」的字串重新開始。論文證實對某些 task 顯著提升。

External verifier 的範例Code 任務跑單元測試 / lint；JSON 任務 schema 驗證；SQL 任務先 EXPLAIN 再 EXEC；數學任務代回原式驗證。任何「能客觀判對錯」的東西都算。

Self-consistency 的成本跑 N 次，成本約 N 倍。但對某些任務 N=5 就比單次跑 +20% 準確率 — 算下來划算。

反思的負作用有時模型在 critique 階段會把對的答案改錯（過度修正）。設計時要保留「不修」的選項，並只在 verifier 明確指出問題時才動手。

Process vs Outcome reward進階：用 PRM（Process Reward Model）對中間推理步驟逐步打分，比只看最終結果更精準。OpenAI 的 o1 系列訓練即此路徑的延伸。

VII.

群體智慧

Multi-agent · topologies, protocols, & when NOT to

FIG · 07
TOPOLOGIES

多 agent 系統聽起來很性感 — 多個 specialist 彼此協作就像團隊 — 但實踐上最常見的結局是：成本爆炸、context 不同步、決策推卸責任、整體比單一 agent 更糟。本章畫三種主流拓撲，並更重要地：列出 「不該用 multi-agent 的紅燈情境」。

parallel ≠ multi-agent · 區分概念

單一 agent 可以同時派出多個工具呼叫（parallel tool use）— 這已經能拿到「並行」的好處，不需要 multi-agent 架構。Multi-agent 的「不同 system prompt / 不同 context」才是它真正的差別 — 但大多數任務不需要這個差別。

協調協議 · communication

multi-agent 的對話需要協議 — 純自然語言會發散且不可解析。實務上採用「結構化訊息」（JSON / 函式呼叫式）配合「明確的角色 prompt」。Anthropic 的「research 多 agent」與 Microsoft 的 AutoGen / Magentic 都用此模式。

VIII.

護衛之圍

Guardrails · defense in depth

FIG · 08
FIVE LAYERS

Agent 會自主行動 — 這是它的力量也是它的危險。靠單一防線（例如「我寫了個好 system prompt」）不夠 — 任何單層防禦都會被繞過。安全的 agent 系統用縱深防禦：五層由內而外的護欄，每一層都假設前一層已被攻破。本章畫這五層的邊界與職責。

① Prompt 層的真相「我跟模型說別做 X」是最便宜的防線，但 prompt injection / jailbreak / hallucinated tool name 都能繞過。寫，但別信。

② Permissions 層程式級的工具白名單／黑名單。Claude Code 的 settings.json、Agent SDK 的 canUseTool callback 都屬此層 — 由代碼判定，不靠模型自律。

③ Sandbox 層OS / 容器級的隔離 — Docker、firejail、macOS Seatbelt、SELinux、unprivileged user。即使代碼有 bug 讓 agent 跑了不該跑的命令，sandbox 還能擋住影響範圍。

④ Human-in-the-loop 層把高風險動作（部署、刪檔、付款、發訊息）強制設為 ask 模式。人類在這層是裁判，不是阻力 — 設計上應該讓 yes/no 決定 1 秒內可做。

⑤ Kill switch 層iteration 上限（max_turns）、token 預算上限、時間上限、外部 watchdog。永遠假設前面四層都會出錯，這層是最後的物理停止鍵。

常被忽略監控與審計 — 每一層的決策都應該被記錄，方便事後 forensic 分析。沒有日誌的安全等於沒有安全。

IX.

試煉之地

Evaluation · the testing pyramid for agents

FIG · 09
EVAL PYRAMID

「你怎麼知道你的 agent 變好了？」這是 agent 工程裡最難回答的問題。傳統軟體可以靠單元測試 — agent 的非確定性讓單元測試只能驗證「沒崩潰」而非「答對了」。本章畫出 agent 評估的五層金字塔：從便宜快速但表淺的單元測試，到昂貴慢但有信度的人類審查。

LLM-as-judge 陷阱 · 自我評分

用 LLM 評另一個 LLM 的輸出很方便 — 但 judge 模型有偏見：偏好較長答案、偏好較複雜措辭、偏好它自己會寫的風格。當你要證明「新版比舊版好」時，至少做雙盲（隨機交換 A/B 順序）並用人類抽樣校準 judge 的判斷。

regression 監控 · 防退化

agent 的可怕之處：改 prompt 改一個字、換模型版本、加一個 hook — 都可能讓某些任務從通過變失敗。你需要 固定的 eval set + 自動回歸跑分，每次發版前對照歷史曲線。沒這個，就是憑感覺發版。

部署實戰

Deployment · observability, cost, latency, ops

FIG · 10
OPS STACK

原型 agent 跑通是一回事，把它送上生產又是另一回事。Agent 的 ops 跟一般 web 服務有共通之處（監控、scaling、deploy），但也有自己的怪癖（單次請求可能跑 5 分鐘、成本不可預測、失敗可能是「答得不好」而非「拋例外」）。本章列出生產 agent 必備的五大 ops 能力。

觀測為何最重要agent 失敗最常見的形式不是 throw exception，而是「答得不好」「繞遠路」「卡在某個 tool 重複呼叫 50 次」— 沒有 trace 你連發生了什麼都不知道，更別說修。

cost 是 SLO 不是會計把「單次 request 不超過 X 元」當作 SLO 監控、超過就觸發 alert。事後算帳已經來不及。

latency 心理學使用者對 agent 的耐心比對網頁高很多 — 但前提是「你讓他知道在做什麼」。沉默 5 秒會放棄；流著文字 30 秒會繼續等。streaming 不是優化，是必需。

不要 spawn 太多常見災難：使用者開很多 tab，每個 tab 都跑一個 agent，瞬間 100 個 LLM call 同時打 provider，rate limit 爆，整個服務掛掉。要在前面放排隊。

versioningprompt、model 名稱、tool 定義、agent 配置 — 全部都要 version 控制。否則「上週還好的，今天突然爆」根本無法 bisect。

postmortem 重點不是「為什麼模型答錯」（無解），而是「為什麼我們沒擋下這個錯」。永遠把原因歸到系統設計，不是模型靈感。