― OpenAI による構造的課題の分析と改善提案 ―
生成 AI がもっともらしく誤情報を語る「ハルシネーション」。 これは“バグ”や“知識不足”ではなく、モデル学習と評価プロセスの構造的な問題が原因であると OpenAI は指摘しています。
現在のAI学習では次のような評価方式が使われています:
この仕組みにより、AIはこう学びます:
「わからない」より、推測でも答えた方が得点になる
例: 誕生日を知らなくても「9 月 10 日」と答える方が評価されるため、誤答の温床になる。
| モデル | 正答率 | 誤答率(幻覚) | 無回答率 |
|---|---|---|---|
| GPT-4 mini(o4-mini) | 24% | 75% | 1% |
| GPT-5 thinking-mini | 22% | 26% | 52% |
👉 GPT-5 mini は「答えを控える」姿勢が強く、誤答(幻覚)が大幅に減っている。
これにより、
「無理に答えず、正直に答える AI」を育てるインセンティブが生まれる
GPT-5 はこの方向性に沿って改善され、 誤情報発生率は GPT-4 より大幅に低下。
ただし OpenAI は、
「根本解決には評価制度そのものの再設計が必要」 と強調している。
AI の性質(答え方の癖)は「どんな基準で褒められ、叱られるか」で決まる。
OpenAI 公式ブログ Why Language Models Hallucinate
解説動画(YouTube) https://www.youtube.com/watch?v=uesNWFP40zw
GPT-5 thinking モード:
© 2025 Keith Chen. All rights reserved.