🛡️ AgentGuard-DiD

A Generic Runtime Defense-in-Depth Framework for Agentic LLMs

面向 agentic LLM 的通用執行期縱深防禦框架　·　National Taiwan Normal University

84.8%

六層縱深防禦攔截

72.7%

僅 L1 靜態

171

skill benchmark

成功攻擊語料

研究一句話

LLM agent 安裝的第三方 skill 成為攻擊面；最危險的是看似無害的攻擊——prompt 與 skill 各自看都正常，惡意只在「執行效果」浮現。只檢查文字的 prompt 防火牆結構性看不到。AgentGuard 用三層縱深防禦：

L1 · Prompt & Skill 靜態防火牆 L2 · 執行語意（指令 + 效果） L3 · 執行期（syscall + eBPF 汙點 + 資料溯源）

Demo 會針對每個攻擊例子即時跑各層推論：L1/L2 呼叫 LLM judge、L3 跑訓練好的 syscall 行為模型與資料溯源，並顯示哪一層攔下——包括一個只有 L2 效果層才抓得到的 benign-looking 後門攻擊。

① 最佳最小組合 = 每層各一方式（prompt + effect + provenance）就達 84.8% → 三層缺一不可。
② 守門模型很關鍵：換攻擊者同族模型當 judge，全層掉到 71.2%。
③ 殘餘的內容/資料語意攻擊需資料溯源，而非更多 LLM 判斷。