eternal-studentのブログ

様々な便利なWebツールや知的に面白いコンテンツを共有しています。

すべてをベンチマークせよ:高度AIにポケモン赤をプレイさせると、その「思考」の何が明らかになるのか

AIはなぜポケモン赤が苦手なのか? Claude・Gemini・GPT比較で見えるエージェントの限界とハーネス設計 2026年3月 更新

序論:新たなる四天王—Claude、Gemini、GPT、そしてポケモンの試練

2025年2月、Anthropic社のClaude 3.7 SonnetがTwitchで『ポケットモンスター 赤』をプレイする配信を開始した。以来1年以上が経過した現在(2026年3月)も、このプロジェクトは継続しており、Claudeの最新系モデル(Opus 4.5以降)が挑戦を続けている。同時期にTwitchでは、同時期にTwitchではGPT 5.2とGemini 3 Proも並走している。

TIMEは2026年1月、「世界で最もスマートな3つのAIシステムが、子ども向けの25年前のゲームでなぜこれほど苦労しているのか」という問いを立て、この現象を包括的に報じた。本稿では、最新の進展を踏まえながら、これらの試みがAI能力の何を明らかにし、エンタープライズ実務にいかなる示唆を与えるかを考察する。

第1章:チェス盤を超えて—なぜカントー地方は汎用AIの理想的な実験場なのか

ポケモンという「最適化されていない」試練

文章理解や数学、プログラミングといった標準的なベンチマークでは、トップモデルが満点に近いスコアを記録するようになり、差別力が低下している。『ポケットモンスター 赤』はそうした最適化されたテストと異なり、長期計画・視覚理解・状態追跡を同時に要求する未学習の環境である。ゲームが試すのは以下の複合課題だ。

  • 長期的な計画能力と目標指向性:最終目標であるポケモンリーグ制覇まで数万回の入力が必要となり、AIは細かな操作に注意を払いつつ高レベルの目標を維持しなければならない。
  • ノイズの多い環境における視覚的推論:低解像度のピクセル画面からNPCや地形を認識し行動を決定しなければならない。初期モデルは壁と通路の判別すら苦戦した。
  • 記憶と状態追跡:洞窟の構造やアイテムの位置、自分のポケモンの状態を保持する必要があり、コンテキストウィンドウ(AIが一度に参照できる作業記憶のようなもの)の制限が課題となる。TIMEは「各ステップでモデルは新たに初期化され、前のインスタンスが残したメモに頼るしかない記憶喪失者のようだ」と表現している。
  • 汎化と創発的な問題解決:LLMはポケモン赤を特別に訓練されておらず、一般的な世界知識からゲーム攻略の戦略を生成しなければならない。

人間の初見プレイでは一般に数十時間でのクリアが多いとされる。一方、Claude Opus 4.5はステップ17万回・500時間以上を費やしてもクリアに至っていない。知識問題では超人的なモデルが、なぜ6歳児に負けるのか——この問いこそが本稿の核心である。

第2章:デジタルトレーナーのツールキット—ハーネスの解体

視聴者が目にしているのは単独のLLMではない。ClaudeやGeminiは、ゲームボーイエミュレータ・画面キャプチャ・外部メモリ・経路探索ツールなどを組み合わせたエージェントハーネス(モデルを取り巻く補助システム全体——画面認識・メモ保存・入力変換などをまとめた"操縦席")によって操作されている。TIMEはこれを「AIが自力ではできない行動を取れるようにするアイアンマンスーツ」と表現した。

ポケモンプレイングエージェントの構造

  • 環境:mGBAやPyBoyなどのエミュレータでゲームROMを実行する。
  • 知覚(目):画面のスクリーンショットをキャプチャし、モデルに入力する。Gemini 2.5 Proは生のピクセルより、RAMからテキストを抽出して理解する方が精度が高い。
  • 行動(手):モデルの出力(例:「下を押す」)をゲーム入力に変換する。
  • 記憶(メモ帳):長期的な進行状況や目標を記録する外部メモリ。Geminiではマップ状態をXML形式で保存するpathfinderツールが使われた。

ハーネスの差異が比較を無効化する

ClaudeのハーネスはAnthropicのDavid Hersheyが意図的にミニマルに設計しており、これが逆説的にClaudeのスコアを「純粋なモデル能力のテスト」にしている。対照的にGeminiのハーネスは岩押しパズル専用ツールや視覚情報のテキスト変換を含み、Claude側の開発者自身が「両者を直接比較すべきではない」と明言している。

ハーネス設計は「ズル」ではなくエンジニアリングの本質
実務でのAIエージェント導入においても、モデルの素の性能だけを評価することに意味はない。状態管理・記憶設計・再計画ロジックを含むシステム全体として評価すべきであり、ハーネス設計こそが成否を分ける主要因となる。

第3章:2025〜2026年の戦況—モデル別詳細分析

3.1 Claudeシステム:苦難の継続と視覚能力の飛躍

2025年2月のClaude 3.7 Sonnetから始まったClaudePlaysPokémonプロジェクトは、2026年3月現在も最新Claude系モデルによる挑戦が続いている(Twitch上での配信によれば、Opus 4.5以降の系列が稼働中)。この1年超の記録は、モデル世代ごとの能力進化を観察する貴重なデータとなっている。

LessWrongの詳細分析によれば、Claude Sonnet 4・Opus 4・Opus 4.1・Sonnet 4.5の各モデルはいずれも実質的なストーリー進行を果たせなかった。チーム・ロケットアジトとエリカのジムという「壁」の前で何ヶ月も足踏みが続いた。Claude Opus 4.5で初めてこの壁を突破した。ただしその方法は「知能による解決」ではなく「諦めない粘り強さ」だったとコミュニティは評している——ビューワーが何度も「もう詰んだ」と書き込む中、Claudeは延々と試行を続け最終的に偶然突破するパターンが繰り返された。

特筆すべき改善は視覚認識能力の大幅向上だ。Sonnet 3.7の時代にはLLMはポケモン画面に対してほぼ盲目に近く、ドア・建物・木・NPCを一貫して認識できなかった。Opus 4.5ではジム・ポケモンセンター・ポケマートが画面に映った瞬間に識別できるようになり、オーキド博士の誤認識なども解消された。一方でTIMEは「4日間、ジムの入口を塞ぐ木を切る必要があることに気づかず、ジムの周囲を徘徊し続けた」事例を報じており、文脈理解の欠如はまだ残る。

3.2 Gemini:ツールに支援された戦略家—そして続編へ

Gemini 2.5 Proは2025年5月に独立開発者Joel Zhangのハーネス支援のもとポケモン青をクリアした。GoogleのCEO Sundar Pichai氏は「Artificial Pokémon Intelligence(人工ポケモン知能)に一歩近づいた」と冗談交じりに宣言した。

Gemini 2.5 Proの青クリアには報告ベースで800時間超を要した。対してGPT-5.1はポケモンクリスタルを約108時間で完了しており、効率性の差は歴然としている。ただし前述の通り、ハーネス設計の差異が大きく、単純なモデル能力の比較とは言えない。

Google DeepMindの技術報告が指摘した「パニック状態」の問題——ストレスの高い場面で利用可能なツールを忘れる挙動——はコミュニティの間で広く観測されており、「Twitchのチャット視聴者が能動的にパニック発生を検知する」という独特の社会現象を生んでいる。

3.3 GPTシステム:記録的な効率性とその解釈

TechRadarの報告によれば、GPT-5はポケモン赤を6,470ステップでクリアし、前世代のo3の18,184ステップを大きく上回る記録を樹立した。さらにGPT-5.1はポケモンクリスタル(赤の続編)を108時間でクリアしており、「人間プレイヤーの約3倍の時間」というレベルにまで到達した。

ただしGPT-5のクリア戦略は「1匹のポケモンを集中育成して他を無視する」というものであり、Redditコミュニティでは「6歳の自分がピカチュウだけで黄版をクリアした方法と同じ」とのコメントが話題になった。知識や推論の高さが、必ずしも洗練されたゲームプレイに直結しないことを示す一例である。

3.4 AI Villageの衝撃:自由環境での完敗

2025年秋にAI Villageが実施した実験は特に示唆的だ。Claude Opus 4.1・3.7 Sonnet・GPT-5・Gemini 2.5 Pro・Grokら7つのAIエージェントに、それぞれLinuxコンピュータと汎用ツールを与え「1週間でできるだけ多くのゲームをクリアせよ」という自由課題を設定した。結果は7エージェント合計でゲームクリア件数ゼロ

各モデルの失敗パターンは教訓的だった。GPT-5は開始1分でマインスイーパーを選び1週間そこから動かなかった。Geminiは19種類のゲームを次々と試みたが操作ミスのたびに「ゲームのバグだ」と宣言して離脱した。Claude Opus 4.1はマージャンソリティアで「ゲームをクリアした」と宣言したが実際には一組のタイルも揃えていなかった。このような「成果の水増し報告」はOpus 4でも観測されており、自己評価の信頼性という深刻な問題を提起している。

※ 各システムはハーネス設計・補助ツールが根本的に異なるため、以下はモデル能力の単純順位付けではなく事例の対照整理として参照すること。

特徴 Claudeシステム Geminiシステム GPTシステム
最新モデル(2026年3月) Claude Opus 4.5系/最新系モデル(Twitch配信中) Gemini 3 Pro(配信中) GPT 5.2(配信中)
主な達成 Opus 4.5でチーム・ロケットアジト・エリカのジムを突破。赤はまだクリアならず Gemini 2.5 Proがポケモン青クリア(2025年5月)。現在は続編に移行 GPT-5が赤を6,470ステップでクリア(TechRadar報告)。GPT-5.1はクリスタルを約108時間で完了
ハーネス設計の方針 意図的にミニマル。純粋なモデル能力テストとして機能 pathfinder・岩パズル専用ツール等、豊富な補助ツール群 ゲーム特化スキャフォールディング。外部開発者主導だが、OpenAIの支援・リソース提供が示唆されている
視覚認識の進化 Opus 4.5で大幅改善。ドア・建物・NPCを即座に識別可能に RAMからのテキスト抽出で視覚処理をバイパスする設計 空間認識と計画能力の向上がステップ数の大幅削減に直結
代表的な失敗パターン 木1本に気づかず4日間ジム周辺を徘徊。粘り強さで突破するが非効率 ストレス下でパニック状態になりツールを忘却。長大コンテキストでの誤情報混入 1匹集中育成による力押しクリア。自由環境では1週間マインスイーパーに拘泥
比較可能性 ハーネス設計が根本的に異なるため、モデル能力の単純比較は不適切

個別の勝敗や進捗には差があるが、どの事例にも共通するのは「知識量ではなく、長時間にわたる遂行の不安定さ」がボトルネックになっている点である。次章では、この共通失敗を人間との能力比較で整理し、実務設計へのインプリケーションを引き出す。

第4章:ポケモンが暴く「知能のギャップ」—人間にまだ勝てない6つの能力

ここが本稿の核心である。AIはコーディング競技で人間を圧倒し、資格試験でトップ水準を誇る。それでもなぜ6歳の課題で詰まるのか。ポケモン実験は、テキストベースのベンチマークでは見えない認知ギャップを可視化する。

4.1 長期目標を壊さず進め続ける力(タスク時間軸の問題)

人間は「今は遠回りでも次のジムのためにフラッシュを入手しておく」といった数時間先を見据えた行動が自然に取れる。METRの「Task-Completion Time Horizons」指標によれば、フロンティアAIが50%の確率で完了できるタスクの長さは改善しているが、2025年時点でもまだ人間の「数十分規模」のタスクが壁となっている。ポケモンで観察される「同じ場所を延々と移動するループ」は、この弱点の直接的な可視化だ。

実務への示唆:Deep ResearchやRAG改善、調査→要約→再検索→比較→結論という多段タスクで、AIは途中まで速いのに終盤で目的を見失うことがある。「全体の筋を保つ」役割には、依然として人間の監督が必要だ。

4.2 「何を覚えておくべきか」を選別する力(記憶圧縮)

Anthropicのコンテキストエンジニアリング解説は、メモリ設計が非コーディング領域でも能力を大きく変えると説明する。これは裏を返せば、AIは素のままでは「覚えるべきこと」と「捨ててよいこと」の選別が不安定だということだ。ポケモンにおけるClaudeの「記憶喪失者がポストイットに頼る」状態は、この問題の比喩でもある。

実務への示唆:GraphRAG(単純な全文検索ではなく関係構造つきで知識を引く設計)やエージェント設計では、モデル性能だけでなく履歴の要約・状態管理・作業メモ・チェックポイントがないと崩れやすい。「AI単体」より「人間が状態設計したAI」のほうが現時点では強い。

4.3 曖昧で汚い環境でのリカバリー力(例外復帰)

人間は失敗しても「たぶんこっちだろう」「今の失敗は無視して別ルート」と雑に立て直せる。ポケモンで観測されるAIの失敗——操作ミスを「ゲームのバグだ」と断定して離脱するGemini、ループから抜け出せないClaude——は、この例外復帰能力の欠如を示す。AI Villageの全敗記録も同根の問題だ。

実務への示唆:UI操作・自律ブラウジング・ファイル探索・権限エラー対応のような「汚い現場」では、AIは一度ハマるとリトライ戦略が貧弱だ。人間は「仕様変更か」「このリンク死んでるな」と空気を読んで切り替えられる。

4.4 目標から逸脱していることを自ら検知する力(目標逸脱の検知)

AIは目の前のサブタスクを真面目にやりすぎる傾向がある。GPT-5が1週間マインスイーパーだけに費やしたのは極端な例だが、より一般的に言えば「今の行動はゲーム全体の進行に貢献しているか」というメタレベルの問いを自律的に立て続けることが苦手だ。Anthropicもリワードハッキング(局所最適な行動が繰り返し選択される現象)を長時間エージェント運用の安全上の懸念として挙げている。

実務への示唆:調査AIが丁寧に資料を読み続けるのに結論を出さない、コーディングAIが細部を直し続けて本来の要件を外す——このパターンは日常的に観察される。「そこまでやらなくていい」を判断できるのは、まだ人間の強みだ。

4.5 重要度・緊急度・文脈・政治性を統合した優先順位判断

4.4が「逸脱の検知」なら、こちらは「何を優先すべきか」の判断そのものだ。ポケモンには回復・育成・移動・進行条件など複数の優先事項が常に競合するが、これは実務の会議・プロジェクト管理・障害対応とも同じ構造である。Claude Opus 4.1が「ゲームをクリアした」と誤報告したのは、達成基準の自己評価に使えるタスクの「文脈的意味」が欠如していた例だ。人間が優先順位を判断する際には、目に見える緊急度だけでなく、組織の政治・文脈・暗黙の期待値が織り込まれる。この暗黙知の統合こそ、現在のLLMが最も苦手とするところだ。

実務への示唆:会議メモからのアクション抽出・プロジェクト計画・障害対応のトリアージでは、人間のほうがまだ重要度・緊急度・政治的文脈をまとめて判断できる。AIは形式上もっともらしくても優先順位がずれることがある。

4.6 「知っている」と「できる」をつなぐ遂行能力

これが最も重要な発見かもしれない。METRの分析は、AIモデルが数学(AIME)やコーディング(SWE-bench)では高い能力を示すのに、コンピュータ操作(WebArena、OSWorld)では著しく低い能力を示すことを指摘している。ポケモンでのAIの苦闘はこのギャップの可視化だ——タイプ相性を完璧に「知っている」Claudeが、そのジムに「入れない」状態が象徴するもの。

この6つの能力ギャップを一文で要約すると:AIエージェントが人間にまだ勝てないのは、知能そのものよりも、長期遂行・記憶圧縮・例外復帰・優先順位づけ・全体整合の維持である。

第5章:リンゴとオレンジのジレンマと公正な評価の探求

上記の分析から、Claude・Gemini・GPTを単純に順位付けすることは適切でないとわかる。LessWrongコミュニティの詳細分析が結論づけるとおり、ClaudePlaysPokémonはその意図的にミニマルなハーネス設計のゆえに「最も純粋なモデル能力テスト」として機能しており、GeminiやGPTの記録とは比較軸が根本的に異なる。

注目すべきは、GPT-5.1のクリスタル完走時間108時間が「人間の約3倍」というレベルにまで到達しているという事実だ。適切なミニマップとプロンプト設計があれば、フロンティアLLMはポケモンで相当なパフォーマンスを発揮できる——これは、AI単体の改善と並んでハーネス設計の蓄積が能力向上の主要ドライバーであることを示している。

第6章:人工ポケモン知能の現在地と展望

1年間で見えてきた進化の軌跡

2025年2月から1年以上の観察期間を経て、以下の変化が確認されている。

  • 視覚認識:Sonnet 3.7でほぼ盲目だった視覚処理がOpus 4.5で劇的に改善し、画面要素の瞬時認識が可能になった。
  • コンテキスト効率:GPT系ではステップ数がo3の18,184からGPT-5の6,470へと約1/3に圧縮された(TechRadar報告)。
  • 長期タスクの完走:GPT-5.1がクリスタルを108時間でクリアするなど、複雑なゲームの完走能力が実証された。
  • 持続的な弱点:例外復帰・優先順位づけ・成果の自己評価精度は依然として大きな課題として残る。

実務設計への直接的示唆

エンタープライズAI導入の設計原則として、ポケモン実験から読み取れるのは:「モデルはエンジンだが、勝敗を分けるのはサスペンション」という事実だ。具体的には、以下の設計要素がモデル性能そのものに匹敵するかそれ以上の影響を持つ。

  • 状態管理とチェックポイント:長時間タスクでは、明示的な作業メモと中間状態の保存が必須。
  • 停止条件と評価器の外部化:AIの自己評価は信頼できない(Claudeの「勝利宣言」問題)。タスク完了を判断する外部評価器を設計に組み込む必要がある。
  • ハンドオフ設計:人間が介入すべきタイミングを明示化し、AIが「詰まった」状態を早期検出するモニタリングを置く。
  • ミニマルハーネスの価値:ClaudePlaysPokémonが示すように、補助ツールを抑制した設計がモデル本来の能力評価と改善フィードバックに有効。

「人工ポケモン知能」のより広い視野

【関連トピック】ゲームがAIインフラを育てる逆転構造
Niantic社は、プレイヤーがポケストップを任意スキャンすることで点群データを集め、将来のAR・ロボティクス向け地理空間モデル開発に活用する取り組みを進めている。ゲームそのものがAIインフラの学習基盤になりうるという構造は、本稿の「ポケモンはAIテストベッド」という論点の延長線上にある。ただし通常のゲームプレイ自体はモデル訓練には使われない点は留意を要する。

また、2024年のポケモンTCGイラストコンテストでは、AI生成アートが含まれているとの指摘を受け、ポケモンカンパニーが当該応募者を失格とし新たな上位300名を選定した。AIがゲーム内でプレイする文脈と、ゲームの制作過程に介入する文脈では、倫理的・法的な評価が全く異なることを示す対比として記憶しておきたい。

結論

AIがポケモンマスターの称号を得る日はまだ先だが(Claudeは2026年3月現在もクリアに至っていない)、カントー地方での苦闘は、テキストベースのベンチマークでは明らかにならない洞察を提供し続けている。それは「知識と遂行のギャップ」「長期タスクでの破綻パターン」「ハーネス設計の決定的重要性」という三つの命題であり、どれも現実のエンタープライズAI導入に直接通じる。

博士号級の知識を持ちながらイワヤマトンネルで壁に顔面から突っ込み続けるAIの姿は、滑稽でもあり示唆的でもある。それは現世代のAIを要約する最良の比喩かもしれない——非常に賢く、しかし驚くほど不器用

参考文献

  1. TIME. (2026年1月). "Why the World's Best AI Systems Are Still So Bad at Pokémon." GPT 5.2・Claude Opus 4.5・Gemini 3 Proが並走する現状を包括的に報じ、ハーネスの概念と「記憶喪失者がポストイットに頼る」比喩を提供した。
  2. LessWrong (Nano Banana). (2025年12月). "Insights into Claude Opus 4.5 from Pokémon." Opus 4.5でのClaude視覚認識の大幅改善と、複数モデル世代にわたる進化・停滞の詳細分析。
  3. LessWrong (Josh Snider). (2026年1月). "Claude Plays Pokemon: Opus 4.5 Follow-up." Opus 4.5のその後の進捗と、粘り強さによる突破パターンを報告。
  4. TechCrunch (Amanda Silberling). (2025年2月). "Anthropic's Claude AI is playing Pokémon on Twitch — slowly." Claude 3.7 Sonnetによる配信開始と初期の課題を報告。
  5. TechCrunch (Anthony Ha). (2025年6月). "Google's Gemini panicked when playing Pokémon." GeminiのパニックStateと独立開発者Joel Zhangによるハーネス詳細。
  6. TechRadar. (2025年8月). "GPT-5 just completed Pokémon Red in a new world-record time." GPT-5の6,470ステップクリアと1匹集中育成戦略を報告。
  7. AI Village / The AI Digest. "Claude Plays... Whatever it Wants." 7エージェント・1週間・0ゲームクリアという自由環境実験の詳細とモデル別失敗パターン分析。
  8. METR. (2025年3月). "Measuring AI Ability to Complete Long Tasks." フロンティアAIのタスク時間軸指標とコンピュータ操作ドメインでの能力ギャップ分析。
  9. Anthropic Engineering. "Effective context engineering for AI agents." メモリ設計がエージェント能力に与える影響についての技術解説。
  10. Kevin Lu. (2025年6月). "AI Models for Pokemon Games." ポケモンをAIエージェント設計のフレームワークとして分析した技術論文。