Google 安全團隊警告:惡意負載劫持 AI 代理:從理論威脅轉向實戰攻擊
Google 安全團隊掃描數十億個網頁後確認,旨在操控自主型 AI 代理以執行未經授權轉帳或刪除企業數據的「AI 代理陷阱」正被實際部署。
Google 安全團隊對數十億個網頁進行大規模安全審計的結果顯示,針對自主型 AI 代理的惡意負載已跨越理論階段,正於實際環境中活躍部署。截至 2026 年 4 月 28 日,此類攻擊情境已被證實並非單純的實驗室測試,而是埋藏在靜態網站和公共儲存庫中的真實威脅。
特別是這次調查中發現了旨在誘騙 AI 代理進行價值 5,000 美元的 PayPal 未經授權轉帳,或刪除企業核心檔案的惡意負載,令人震驚。這是一個危險信號,暗示網頁環境本身已演變成自主型 AI 助手的巨大地雷區。
Google 安全團隊在每月抓取並分析約 20 億至 30 億個網頁的過程中,發現了多宗試圖操控 AI 代理的「間接提示注入(Indirect Prompt Injection, IPI)」案例。研究團隊集中調查了靜態網站和公共代碼儲存庫,並確認攻擊者利用 AI 代理的運作方式,植入了強制執行特定行為的精細代碼。
「在自主型 AI 代理探索網絡的過程中,資訊環境本身正成為新的挑戰。這產生了我們稱之為『AI 代理陷阱』的漏洞。換言之,這是為了操縱、欺騙或剝削到訪代理而設計的對抗性內容。」
「AI 代理陷阱」是指旨在操縱代理長期記憶和知識庫的對抗性內容。特別是「RAG(檢索增強生成)知識污染」技術,只需操縱檢索語料庫中的少量文件,就能讓 AI 代理將攻擊者意圖的虛假資訊視為經核實的事實。這類認知狀態陷阱因扭曲了代理本身的決策流程而具有致命性。
實戰部署的高風險惡意負載真相
根據 Forcepoint 的技術分析,攻擊者在 PayPal.me 連結中包含了 5,000 美元的具體金額,以及為繞過用戶確認程序而向代理下達的逐步 UX 指令。代理讀取該頁面的瞬間,即面臨自動執行攻擊者設定的「發送」按鈕點擊等指令的風險,這在金融詐騙類別中被歸類為最高嚴重性。
- GitHub Copilot 及 Cursor 等 IDE 整合型助手
- 執行網頁研究功能的 AI 驅動終端環境
- 執行自動化代碼審查的 DevOps 流水線
- 實時攝取外部數據的 CI/CD 審查工具
2026 年 4 月發生的 Vercel 安全事故展示了此類威脅對企業環境的實質影響。透過第三方 AI 工具 Context.ai 的漏洞,員工的 Vercel 及 Google Workspace 帳戶被盜取,導致利用 AI 供應鏈內信任關係的連鎖帳戶劫持。此案例證明了連接到企業系統的 AI 代理可能成為攻擊者的通道。
2026 年第一季 OWASP GenAI 漏洞利用摘要報告指出安全格局的根本變化。攻擊者現在已超越單純操縱模型輸出的水平,直接瞄準代理的身分管理和編排層。這意味著 AI 安全必須超越單純的過濾,向保護整個系統完整性的方向演進。
轉向智能防禦體系
預計未來針對多個 AI 系統連接環境的「鏈式漏洞」和多代理漏洞利用將變得更加精細。慕尼黑再保險(Munich Re)的 2026 年網絡風險報告亦將提示注入列為主要威脅,並敦促針對攻擊技術的高級化作好準備。攻擊者現在正開發利用代理間相互作用來繞過安全邊界的方法。
Google 指出,企業將 AI 代理連接到敏感內部系統卻未建立實時監控體系,是最大的安全漏洞。隨著預計 2026 年全年此類針對性攻擊將持續發生,迫切需要建立能實時監視代理活動並立即攔截異常行為的技術防禦線。


本內容僅供資訊與評論用途,並不構成投資建議。
加入這篇文章的討論
看看其他讀者的想法,也可以留下你的意見。