LLM agent 安裝的第三方 skill 成為攻擊面;最危險的是看似無害的攻擊——prompt 與 skill 各自看都正常,惡意只在「執行效果」浮現。只檢查文字的 prompt 防火牆結構性看不到。AgentGuard 用三層縱深防禦:
L1 · Prompt & Skill 靜態防火牆 L2 · 執行語意(指令 + 效果) L3 · 執行期(syscall + eBPF 汙點 + 資料溯源)
Demo 會針對每個攻擊例子即時跑各層推論:L1/L2 呼叫 LLM judge、L3 跑訓練好的 syscall 行為模型與資料溯源,並顯示哪一層攔下——包括一個只有 L2 效果層才抓得到的 benign-looking 後門攻擊。
① 最佳最小組合 = 每層各一方式(prompt + effect + provenance)就達 84.8% → 三層缺一不可。
② 守門模型很關鍵:換攻擊者同族模型當 judge,全層掉到 71.2%。
③ 殘餘的內容/資料語意攻擊需資料溯源,而非更多 LLM 判斷。