eternal-studentのブログ

様々な便利なWebツールや知的に面白いコンテンツを共有しています。

すべてをベンチマークせよ:高度AIにポケモン赤をプレイさせると、その「思考」の何が明らかになるのか

すべてをベンチマークせよ:高度AIにポケモン赤をプレイさせると、その「思考」の何が明らかになるのか

序論:新たなる四天王—Claude、Gemini、GPT、そしてポケモンの試練

近年、長期的な意思決定能力を備えた大型言語モデル(LLM)がゲームに挑む様子が注目を集めている。Anthropic社のClaude 3.7 Sonnetが2025年2月にTwitchで『ポケットモンスター 赤』をプレイする配信を開始し、その考え方や行動が公に観察されるようになった。GoogleのGemini 2.5 Proや他の開発者が続き、25年以上前のゲームがLLMの認知能力を測る新しいテストベッドとなりつつある。この配信は厳密な科学実験ではないが、現代のAIがどのように環境と対話するか、そしてその限界がどこにあるのかを示す貴重な窓口となっている。

本稿では、これらの「人工ポケモン知能」プロジェクトを分析し、AIモデル自体だけでなく、外部のエージェントハーネスが性能にいかに影響を与えているのかを考察する。従来のテキストベースのベンチマークが飽和しつつある今、具体的な環境でエージェントとして振る舞う能力を検証する試みは、汎用人工知能(AGI)の将来を考える上で重要である。

第1章:チェス盤を超えて—なぜカントー地方は汎用AIの理想的な実験場なのか

ポケモンという「最適化されていない」試練

文章理解や数学、プログラミングといった標準的なベンチマークでは、トップモデルが満点に近いスコアを記録するようになり、差別力が低下している。『ポケットモンスター 赤』はそうした最適化されたテストと異なり、長期計画、視覚理解、状態追跡を同時に要求する未学習の環境である。配信者や研究者によれば、このゲームは次のような複合課題をLLMに突きつける。

  • 長期的な計画能力と目標指向性:最終目標であるポケモンリーグ制覇を達成するまでに数万回の入力が必要となり、AIは細かな操作に注意を払いつつ高レベルの目標を維持しなければならない。
  • ノイズの多い環境における視覚的推論:低解像度のピクセル画面からNPCや地形を認識し、行動を決定しなければならないが、Claudeは壁と通路の判別に苦戦した。
  • 記憶と状態追跡:洞窟の構造やアイテムの位置、自分のポケモンの状態を保持する必要があり、コンテキストウィンドウの制限が課題となる。
  • 汎化と創発的な問題解決:LLMは『ポケットモンスター 赤』を特別に訓練されておらず、一般的な世界知識からゲーム攻略の戦略を生成しなければならない。

これらの要素が組み合わさることで、ゲームは単なるクリア競争ではなく、AIの認知アーキテクチャのストレステストとなる。例えば、Claudeは赤い帽子をマップ上の赤いオブジェクトと勘違いするなど、視覚処理の限界に直面した。

第2章:デジタルトレーナーのツールキット—ハーネスの解体

視聴者が目にしているのは単独のLLMではない。ClaudeやGeminiは、ゲームボーイエミュレータ、画面キャプチャ、外部メモリ、経路探索ツールなどを組み合わせたエージェントハーネスによって操作されている。これらのツールはモデルの欠点を補い、パフォーマンスに大きな影響を与える。

ポケモンプレイングエージェントの構造

一般的なシステムは次の構成要素からなる。

  • 環境:mGBAやPyBoyなどのエミュレータでゲームROMを実行する。
  • 知覚(目):画面のスクリーンショットをキャプチャし、モデルに入力する。しかしGemini 2.5 Proは生のピクセルを直接利用するのが苦手で、RAMからテキストを抽出して理解したほうが良い結果が出た。
  • 行動(手):モデルの出力(例:「下を押す」など)をゲーム入力に変換する。
  • 記憶(メモ帳):長期的な進行状況や目標を記録する外部のメモリ。Geminiではマップ状態をXML形式で保存するpathfinderツールが使われた。

「チート」:足場としての特権的情報

一部のハーネスは視覚処理の負荷を軽減するため、ゲームのRAMから直接座標やマップ情報を取得するなどの特権的情報を用いている。Geminiの開発者は経路探索用のサブエージェントやパズル解決専用のツールを導入し、複雑なタスクを外部委託した。これにより、Geminiは視覚情報に依存しなくてもゲームを進められるようになった。

こうした構造の存在は、単純なモデル間比較が無意味であることを示している。TechCrunchの取材で、Geminiの開発者Joel Z氏は「GeminiとClaudeは異なる情報とツールを受け取っており、直接比較すべきではない」と述べている。パフォーマンスはハーネスの品質と深く相関しているため、AI自体の優劣ではなく、補助ツールの設計が鍵となる。

第3章:三体のAIの物語—比較詳細分析

3.1 Claude:思慮深いが欠陥のある探検家

Anthropic社が配信した「Claude Plays Pokémon」は、LLMが長時間にわたってゲームに挑む様子を初めて公開した実験である。Claude 3.7 Sonnetは3つ目のジムリーダーまで撃破し、バトルにおいてタイプ相性の論理を効果的に活用できることを示した。しかし、洞窟「おつきみやま」で78時間以上足止めされるなど、視覚認識と空間記憶の欠如が顕著だった。壁と通路を見分けられず、ルートを忘れて無限ループに陥るなどの問題が報告された。

Claudeは時折創発的な策略を採用したこともある。Google DeepMindの分析によると、Geminiにおいて「ブラックアウト戦略」と呼ばれる全滅テレポート作戦が観察されているが、類似の戦術をClaudeも試みた。これは誤った目標がメモリに入り込み、出口に辿り着くためにパーティを全滅させる方法を考案した結果である。こうした例は、LLMが誤った前提を持つと論理的に突き進んでしまう脆さを示している。

3.2 Gemini:ツールに支援された戦略家

Gemini 2.5 Proは独立した開発者によって構築されたハーネスの支援を受け、2025年5月に『ポケットモンスター 青』をクリアした。Geminiは視覚情報の解釈が苦手であるため、RAMから抽出した情報をXMLベースのミニマップに変換するpathfinderツールと、岩を押すパズル専用のツールを使用した。これにより、視覚処理や記憶の課題をほぼ回避することができた。

Google DeepMindの技術報告では、Geminiが長大なコンテキストを保持しようとすると過去の行動を繰り返しやすいこと、訓練データに含まれる誤情報(例えばリメイク版の「お茶」を探すイベント)に引きずられて進行が停滞することが指摘されている。また、ゲーム内でストレスの高い状況に直面すると「パニック」状態になり、利用可能なツールを忘れてしまうことも観測された。こうした挙動は、AIが長期的な計画や集中を維持することの難しさを示す。

3.3 「GPT‑5」:謎めいたスピードランナー

2025年夏には、「GPT_Plays_Pokemon」という配信者が未公開のモデル「GPT‑5」を用いてゲームをクリアしたと主張し、コミュニティで議論を呼んだ。OpenAIからの公式確認はなく、使用モデルの真偽は不明である。しかし、技術ニュースサイトTweakTownは、最新モデルが『ポケットモンスター 赤』をわずか6,470ステップでクリアし、前世代のモデルGPT‑o3の18,184ステップを大きく上回ったと報じている。記事によれば、GPT‑5は幻覚の頻度が少なく、空間認識と計画能力が向上したため効率的なルートを取れたとされる。ただし、この記録は外部のハーネスや特権情報を利用しており、一般的な速度比較として扱うには慎重さが求められる。

第4章:リンゴとオレンジのジレンマと公正な戦いの探求

上記の分析から、Claude、Gemini、そして「GPT‑5」を単純に順位付けすることは適切でないと分かる。Geminiの開発者自身が、モデルごとに異なるツールや情報が与えられているため比較は無意味であると述べており、パフォーマンスの差は主にハーネスの違いによるものである。

標準化へのコミュニティの要請

こうした状況を受け、AI研究コミュニティでは再現性のある標準化ベンチマークが求められている。Google DeepMindの技術報告では、Geminiはわずか二つのツール(pathfinderとboulder puzzle strategist)でゲームをクリアできたことが示され、適切なツール設計が重要であることを示した。また、モデルが長大なコンテキストや誤ったメモリに翻弄される「コンテキスト中毒」や「ブラックアウト戦略」の問題も報告され、エージェント評価には詳細なプロトコルが必要だと提言されている。

特徴 Claudeシステム Geminiシステム 「GPT‑5」システム
コアモデル Claude 3.7 Sonnet Gemini 2.5 Pro 未検証のChatGPT‑5とされるモデル
ゲームバージョン ポケットモンスター 赤 ポケットモンスター 青 ポケットモンスター 赤(非公式)
主な達成 ハナダシティ到達、ジムリーダー3人撃破 ゲーム完全クリア 約6,470ステップで赤をクリアと報じられる
観測された戦略 慎重な試行錯誤。視覚認識や記憶の欠如によりループに陥るが、タイプ相性の論理は強力 ミニマップと経路探索ツールに依存した効率的な移動。長大なコンテキストや誤情報に惑わされやすく、ストレス下ではパニック状態になる 単一のポケモンを重点的に育成する高速攻略と報じられるが、詳細は不明
特筆すべき強み バトルにおける論理的推論やタイプ相性の活用 視覚を使わずにRAM情報とツールでゲームを進める柔軟性 空間認識と計画の改善により大幅なステップ削減
致命的な弱点 視覚処理と空間記憶の欠如、誤った仮定に基づくループ ハーネスへの依存とコンテキスト中毒、ストレス下のパフォーマンス低下 未検証のモデルのため評価が困難

第5章:人工ポケモン知能の未来

我々が学んだこと

これらの試みから、現世代のLLMが強力な言語推論能力を持つ一方で、視覚処理、長期記憶、計画に関して重大な制約を抱えていることが分かった。外部ツールやメモリがなければ、単純な2D世界でもスムーズに移動できない。AIの脆さは、苛立たしいループや奇妙な論理に現れ、これこそが標準化されたテストでは見えにくい貴重な学習材料となっている。

「人工ポケモン知能」のより広い視野

「人工ポケモン知能」という言葉は、ゲーム配信を超えて多様な意味を持つようになっている。Niantic社は、プレイヤーがポケストップをスキャンすることで公的な場所の点群データを集め、将来のAR体験やロボティクスに利用する「大型地理空間モデル(LGM)」の開発を進めている。Nianticのブログによれば、スキャンは公開場所でユーザーが自発的に行うオプション機能であり、単にゲームをプレイするだけではAIモデルの訓練には使われない。この取り組みは、ゲームが現実世界のAIインフラ構築にも活用される例として興味深い。

また、2024年のポケモンTCGイラストコンテストでは、AI生成アートが複数のエントリーに含まれているとの指摘を受け、ポケモンカンパニーが当該応募者を失格とし、新たな上位300名を選定する方針を示した。ファンはAI作品が本物のアーティストの努力を奪っていると批判し、公平性を保つための対応が求められた。こうした事例は、愛されるフランチャイズを舞台にAI利用の倫理や創造性の価値が議論されていることを示す。

結論

AIがポケモンマスターの称号を得る日はまだ遠いが、カントー地方での彼らの苦闘は、テキストベースのベンチマークでは明らかにならない洞察を提供してくれる。AIが何を学び、どのように世界を理解しようとしているのかを観察することは、人間とAIが協力して新しい未来を築くための重要な一歩となるだろう。

参考文献

本文中の引用番号に対応する参考文献リストです。

  1. Amanda Silberling. (2025). “Anthropic’s Claude AI is playing Pokémon on Twitch — slowly.” TechCrunch. Claude 3.7 Sonnetがポケモン赤をプレイする配信を紹介し、モデルの進捗と課題を報告した。
  2. Bulbagarden. (2025). “Large language module Claude attempting to beat Pokémon Red live on Twitch, stream attracting thousands of viewers.” Claude 3.7 SonnetがMt. Moonで78時間以上立ち往生したことや、ハーネスにナビゲーション補助があることを報告した。
  3. Anthony Ha. (2025). “Google’s Gemini has beaten Pokémon Blue (with a little help).” TechCrunch. Gemini 2.5 Proがハーネス支援によりポケモン青をクリアし、開発者がモデル比較の不公平さを強調した。
  4. David Breunig. (2025). “An Agentic Case Study: Playing Pokémon with Gemini.” 本記事はGemini 2.5 Proの技術報告に基づき、視覚処理の弱さ、pathfinderツール、ブラックアウト戦略やパニック状態などの具体的な挙動をまとめている。
  5. Darren Allan. (2025). “ChatGPT‑5 just beat Pokémon Red in record time for an AI – 3× faster than GPT‑o3 managed.” TweakTown. 未検証のChatGPT‑5モデルが6,470ステップでポケモン赤をクリアしたと報じ、幻覚減少や空間認識の向上が要因と述べた。
  6. Joey Esposito. (2024). “‘Pokémon GO’ Using Some Player Data to Build AI Navigation System?” Snopes. Nianticの大型地理空間モデルがユーザーによるポケストップの任意スキャンに基づいて構築され、通常のプレイはAIモデルの訓練には使われないことを確認した。
  7. PokéBeach Forum. (2024). “TPCi Disqualifies Entries from 2024’s Pokémon TCG Illustrator Contest!” ポケモンTCGイラストコンテストでAI生成作品が疑われた複数の応募者が失格となり、新たな上位300名を選出する方針が示された。