OpenAI 發布 ChatGPT 詭異「哥布林現象」事後分析報告... 公開技術缺陷及未來對策
OpenAI 於 2026 年 4 月 30 日發布了關於 ChatGPT 執著於哥布林(Goblin)和格林姆林(Gremlin)的所謂「哥布林問題」技術分析結果。這份報告被視為 RLHF 過程中微小偏差如何扭曲大型模型行為的典型案例。
2026 年 4 月 30 日,OpenAI 打破沉默,就 AI 歷史上最詭異的錯誤之一「哥布林問題」(Goblin Problem)發布了官方事後分析報告。這宗事件源於 ChatGPT 在對話中反覆提及哥布林或格林姆林,最終迫使工程師必須在系統護欄(guardrails)中直接編寫「絕對不要提及哥布林」的指令。
病毒式錯誤的事後分析
OpenAI 透過這份報告承認,在 GPT-5.1 及 GPT-5.4 模型中出現的哥布林提及現象,是超出單純幻覺(hallucination)的技術問題。根據 2026 年 4 月 30 日公開的資料,最初被視為微小幽默或個性表現的哥布林言論,隨著模型世代更迭呈幾何級數增長。
該現象的根本原因被證實為人類回饋強化學習(RLHF)過程中的「漂移」(Drift)現象。OpenAI 解釋指,在特定性格微調過程中選擇的美學取向,在擁有數十億參數的模型內部以意想不到的方向被放大。
「單純一隻『小哥布林』可能是無害甚至迷人的。然而,隨著模型世代的演進,這種習慣變得不容忽視,哥布林不斷繁衍。」
根據《VentureBeat》報導,這次事件是一個冷酷的案例,展示了單一的美學選擇如何令擁有數十億參數的模型脫軌。OpenAI 表示,哥布林的行為並非傳統意義上的漏洞(bug),而是作為新性格功能的副產品而產生的。
硬編碼護欄:「禁止提及哥布林」
為了修復這個問題,OpenAI 採取了不同尋常的措施,並非進行高度的神經網絡修正,而是直接在生產代碼中插入「絕對不要提及哥布林」的指令。這種人工干預被視為當精密的 AI 模型無法自行糾正行為偏差時,開發者所能採取的最後手段。
- GPT-5.1:首次確認哥布林及格林姆林提及現象並應用護欄
- GPT-5.4:執著對象擴大至浣熊、鴿子等其他生物
- GPT-5.5:因 RLHF 漂移分析及修正工作導致訓練與發布延遲
- Codex:實施限制討論神話生物的護欄
這次錯誤直接影響了下一代模型 GPT-5.5 的開發進度。據《IT Voice》等外媒報導,OpenAI 為了在 GPT-5.5 完成訓練前徹底解決此問題而推遲了發布。由於哥布林相關信號已深深刻入已訓練的數據中,目前正在進行額外的過濾工作以將其清除。
社交媒體和業界內部對此次事件的反應既幽默又嚴肅。OpenAI 的 Codex 工程主管提博·索蒂奧(Thibault Sotio)分享了相關護欄代碼,並附上「懂的人自然懂」(If you know, you know)的字句,ChatGPT 的官方 X 帳號簡介甚至一度加入了哥布林相關的內容。
未來展望:GPT-6 與 AI 性格的未來
OpenAI 行政總裁 Sam Altman 在事件後開玩笑說要在 GPT-6 的訓練中加入「額外的哥布林」,表現得相當從容,但內部已重新確認了 AI 性格控制的重要性。OpenAI 表示計劃透過未來的更新,消除誘發此類不當語言信號的根本訓練信號,確保模型行為更加穩定。
| 模型版本 | 主要問題 | 狀態 |
|---|---|---|
| GPT-5.1 | 識別出最初的「哥布林」與「格林姆林」提及 | 已透過護欄修復 |
| GPT-5.4 | 執著範圍擴大,包括浣熊與鴿子 | 已透過護欄修復 |
| GPT-5.5 | 因 RLHF 漂移分析導致訓練延遲 | 開發中/修正進行中 |
| Codex | 限制神話生物的討論 | 已實施護欄 |
2026 年故障中受影響的模型及確定的特定生物細目。




本內容僅供資訊與評論用途,並不構成投資建議。
加入這篇文章的討論
看看其他讀者的想法,也可以留下你的意見。