大規模言語モデルが突きつける言語学の根本問題：普遍文法と刺激の貧困は崩れるのか

ChatGPTをはじめとする大規模言語モデル（LLM）の登場は、チョムスキーの普遍文法理論と「刺激の貧困」論に根本的な問いを突きつけた。明示的な文法規則なしに、統計的学習だけで人間並みの言語能力は獲得可能なのか。本稿では、言語学50年の理論対立・最新の実証研究・解釈上の限界を整理し、LLMが示唆する言語理解の転換を考察する。

LLMは「文法を明示的に教わった」のではない。それでも文法らしきものが、統計的学習の副産物として現れた——ここが核心だ。

2022年11月のChatGPT登場は、言語学界に衝撃をもたらした。文法規則を明示的にプログラムされることなく、膨大なテキストデータから統計的パターンを学習しただけのシステムが、人間と見分けがつかないほど流暢な言語運用を示したからだ。

この事実は、言語学が半世紀以上にわたって前提としてきた理論的基盤を根底から揺るがしている。人間の言語能力は生得的な文法知識（普遍文法）に基づくのか、それとも統計的学習だけで獲得可能なのか。この問いは単なる技術的関心を超え、「言語とは何か」「人間の心とは何か」という認識論的な核心に触れる。

本稿では、大規模言語モデル（LLM）の登場が再燃させた言語学の根本論争を、歴史的背景・理論構造・実証研究・解釈上の限界の順に整理し、この問いが私たちの言語理解をどう更新するかを考察する。

1. なぜこの問題は本質的に難しいのか：言語学の二つの対立軸

1.1 規則か、統計か：パラダイムの衝突

言語研究には長らく二つの対立する見方が存在してきた。一つは規則主義（rule-based approach）で、言語を明示的な規則体系として捉える立場である。もう一つは統計主義（statistical approach）で、言語を頻度・確率・パターンの集積として理解する立場だ。

この対立は単なる方法論の違いではない。言語の本質をどう捉えるか、人間の認知能力をどう理解するかという根本的な世界観の相違を反映している。規則主義者は「言語には普遍的な構造原理が存在し、それは人間の脳に生得的に備わっている」と考える。一方、統計主義者は「言語は使用経験の蓄積から創発する適応的システムであり、特別な生得的知識は不要」と主張する。

大規模言語モデルの成功は、この論争に決定的な実証的データを投入した。なぜなら、LLMは明示的な文法規則を一切与えられていないにもかかわらず、複雑な統語構造を処理し、文脈依存的な意味解釈を行い、さらには推論らしき振る舞いや創造的な言語生成まで示しているからだ。

1.2 「刺激の貧困（poverty of stimulus）」論争の再燃

この問題の核心にあるのが、チョムスキーが1960年代に提起した「刺激の貧困（poverty of stimulus）」論である。チョムスキーは、子どもが接する言語入力は質的にも量的にも不十分であるにもかかわらず、短期間で複雑な文法体系を獲得できるのは、生得的な普遍文法が存在するからだと論じた。具体的には、(1)入力データ量の少なさ、(2)負例（非文法的な文）の不足、(3)にもかかわらず仮説空間（可能な文法）は膨大、という三つの制約が子どもの学習を困難にするはずだという議論である。

しかし、LLMは数百億から数兆のパラメータを持ち、インターネット上の膨大なテキストデータ（数兆トークン）を学習することで、明示的な文法知識なしに言語能力を獲得している。これは、十分なデータ条件下では、統計的学習が多くの文法現象を再現しうることを示唆し、刺激の貧困論の射程（どこまでが生得制約で、どこまでが学習で説明できるか）を再検討させる実証的データとなっている。

論点の整理：LLMは反証となるか？

生成文法派の反論： LLMの訓練データ量は人間の言語経験とは桁違いであり、比較対象として不適切である。また、LLMは真の「理解」ではなく、表層的なパターンマッチングを行っているにすぎない。

使用基盤派の反論： 人間の乳幼児も視覚情報・ジェスチャー・文脈など、テキスト以外の豊富な入力を受けている。LLMが示すのは、統計的学習の潜在的能力の高さであり、生得的文法仮説の不要性である。

1.3 なぜこの問いが認識論的に重要なのか

この論争が単なる言語学内部の技術的議論にとどまらないのは、それが人間の心の本質に関わるからである。もし言語能力が統計的学習だけで獲得可能ならば、人間の認知は「特別な生得的モジュール」ではなく、「汎用的な統計学習メカニズム」によって説明できる可能性が高まる。

これは神経科学、発達心理学、人工知能、さらには言語教育の実践にまで影響を及ぼす。たとえば、第二言語習得における「臨界期仮説」は生得的言語能力の存在を前提とするが、もし統計学習モデルが妥当ならば、成人の言語学習法も根本的に見直される必要がある。

また、AIシステムの設計思想にも関わる。記号的AI（ルールベース）と統計的AI（データ駆動）のどちらが言語処理に適しているかという実務的問題は、まさにこの理論的対立の実践的帰結である。

2. 理論的背景：チョムスキー生成文法と使用基盤モデルの対立構造

2.1 チョムスキーの生成文法理論：普遍文法仮説

ノーム・チョムスキーが1950年代後半に提唱した生成文法（generative grammar）理論は、20世紀後半の言語学を支配したパラダイムである。この理論の核心は、以下の三つの主張にある。

第一に、普遍文法（Universal Grammar, UG）の存在。 チョムスキーは、すべての人間言語に共通する抽象的な文法原理が、生物学的に人間の脳に備わっていると主張した。これは「言語獲得装置（Language Acquisition Device, LAD）」として概念化され、子どもは限られた言語入力から短期間で母語を獲得できる理由を説明する。

第二に、パラメータ設定理論。 普遍文法は抽象的な原理の集合であり、個別言語はそのパラメータを設定することで実現される。たとえば、英語は主語を省略できないが日本語は省略可能という違いは、「主語脱落パラメータ（pro-drop parameter）」のオン/オフで説明される。子どもは環境からの入力を手がかりに、このパラメータを設定していく。

第三に、言語能力（competence）と言語運用（performance）の区別。 チョムスキーは、理想的な話者が持つ抽象的な文法知識（competence）と、実際の発話における誤りや言い淀み（performance）を厳密に区別した。言語学が研究すべきは前者であり、後者は記憶制約や注意資源の限界による「ノイズ」とみなされた。

普遍文法の具体例：X-bar理論

チョムスキーの理論では、すべての言語の句構造は「X-bar理論」という共通の図式に従う。たとえば、名詞句（NP）も動詞句（VP）も前置詞句（PP）も、すべて同じ階層構造（指定部・主要部・補部）を持つ。この抽象的な構造原理が普遍文法の一部とされる。

2.2 使用基盤モデルと創発主義：統計的学習の可能性

生成文法に対抗して発展したのが使用基盤モデル（usage-based model）である。この立場を代表するのが、マイケル・トマセロやアデル・ゴールドバーグらの研究者だ。彼らは、言語能力は生得的な文法知識ではなく、一般的な認知能力と使用経験の相互作用から創発（emerge）すると主張する。

使用基盤モデルの核心的主張は以下の通りである。

第一に、構文は抽象的規則ではなく、形式と意味のペアリング（construction）である。 ゴールドバーグの構文文法（Construction Grammar）では、「XがYにZをVする」という二重目的語構文は、単なる統語規則ではなく、「移転」という意味スキーマと結びついた一つのまとまりとして記憶される。

第二に、文法は頻度効果を示す。 使用基盤モデルでは、高頻度の言語パターンほど処理が速く、低頻度のパターンは習得が遅いという実証研究を重視する。これは文法が抽象的規則ではなく、使用経験に基づく表象であることを示唆する。

第三に、言語獲得は領域一般的な学習メカニズムで説明可能である。 パターン認識、カテゴリー化、類推、統計的学習といった、言語に特化しない認知能力だけで、文法の獲得は可能とされる。

観点	生成文法（チョムスキー派）	使用基盤モデル（トマセロ派）
言語の本質	生得的な文法モジュール	使用経験からの創発的システム
普遍性の源泉	遺伝的に規定された普遍文法	認知的制約と機能的要請
獲得メカニズム	パラメータ設定	統計的学習とパターン抽出
頻度の役割	副次的（performanceの問題）	中心的（表象の強度を決定）
言語の多様性	パラメータの組み合わせ	文化的・歴史的進化

2.3 大規模言語モデルのアーキテクチャ：Transformerの革新

この理論的対立に新たな視点を提供したのが、2017年にVaswaniらが発表したTransformerアーキテクチャである。TransformerはGPT、BERT、LLaMAなど、現代のLLMの基盤技術であり、その成功は言語学に重要な示唆を与える。

Transformerの核心は自己注意機構（self-attention mechanism）である。これは、文中の各単語が他のすべての単語との関連性を計算し、文脈依存的な表現を獲得する仕組みだ。重要なのは、この機構に明示的な文法規則や構文木の情報が一切与えられていない点である。

にもかかわらず、TransformerベースのモデルはBLiMP（Benchmark of Linguistic Minimal Pairs）などの文法性判断タスクで高い精度を示す。また、Hewittら（2019）のprobing研究は、BERTの内部表現が構文木に対応する構造を自発的に獲得していることを示した。これは、統計的学習だけで階層的な言語構造が創発する可能性を示唆する。

実証例：BERTの構文知識獲得

HewittとManning（2019）は、BERTの隠れ層表現を分析し、単語間の統語的距離が線形変換で抽出可能であることを発見した。つまり、明示的な構文木を与えられていないBERTが、訓練過程で自発的に階層構造に対応する表象を学習していたのである。

3. 歴史的経緯：言語学とAIの交錯する軌跡

3.1 行動主義の支配と生成文法革命（1950年代）

20世紀前半の言語研究は、B.F.スキナーらの行動主義（behaviorism）に支配されていた。行動主義者は、言語獲得を刺激と反応の連合学習として説明し、環境からの強化によって言語行動が形成されると考えた。

1957年、スキナーは『言語行動（Verbal Behavior）』を出版し、言語を他の行動と同様のオペラント条件付けで説明しようとした。しかし、1959年、当時無名だった若手言語学者チョムスキーが、この著作に壊滅的な書評を発表する。

チョムスキーの批判は以下の点に集中した。第一に、創造性の問題。 人間は過去に聞いたことのない文を無限に生成・理解できる。これは単なる刺激-反応の連合では説明できない。第二に、刺激の貧困。 子どもが接する言語入力は、誤りも多く不完全であるにもかかわらず、短期間で複雑な文法を獲得する。第三に、普遍性。 すべての人間社会に言語が存在し、子どもは特別な訓練なしに母語を獲得する。これは言語が生物学的に特別な能力であることを示唆する。

この批判は「チョムスキー革命」と呼ばれ、言語学は行動主義から認知主義へとパラダイムシフトした。生成文法は、言語を心の内的表象として研究する道を開いたのである。

3.2 記号的AIの時代（1960-1980年代）

1960年代から1980年代にかけて、人工知能研究もまた記号処理パラダイムに支配されていた。SHRDLU（Winograd, 1972）やELIZA（Weizenbaum, 1966）といった初期の自然言語処理システムは、すべて明示的な文法規則と意味表現を人手で記述していた。

この時代のAI研究者と言語学者は、共通の前提を共有していた。すなわち、「知能は記号操作であり、言語処理には明示的な規則が必要である」という信念だ。チョムスキーの生成文法は、まさにこの記号的AIのアプローチと親和的だった。

しかし、このアプローチには深刻な限界があった。規則の例外処理、曖昧性の解消、文脈依存的な意味理解など、実世界の言語の複雑さに対処できなかったのである。1980年代後半には「AIの冬」と呼ばれる停滞期に入る。

3.3 統計的自然言語処理の台頭（1990-2010年代）

1990年代、自然言語処理の主流は統計的手法へと移行する。IBM Watson Research Centerのチームが機械翻訳に統計モデルを適用し、従来の規則ベースシステムを上回る性能を達成したことが転換点となった。

この時期の重要な技術革新には、隠れマルコフモデル（HMM）による品詞タグ付け、n-gramモデルによる言語モデリング、そしてword2vecやGloVeといった分散表現の登場がある。特にword2vec（Mikolov et al., 2013）は、「king - man + woman ≈ queen」といった意味的な演算が可能であることを示し、統計的手法が単なるパターンマッチング以上の「意味理解」を獲得しうることを示唆した。

しかし、この段階ではまだ、統計モデルは言語学の理論的基盤を脅かす存在ではなかった。なぜなら、これらのモデルは狭いタスク（品詞タグ付け、固有表現認識など）に特化しており、人間のような汎用的な言語理解には程遠かったからだ。

3.4 ディープラーニング革命（2010年代後半〜現在）

2017年のTransformer発表と、2018年のBERT、2020年のGPT-3の登場は、状況を一変させた。これらのモデルは、従来の統計モデルとは質的に異なる能力を示した。

2017年： Vaswaniらが「Attention Is All You Need」を発表。Transformerアーキテクチャの提案。

2018年： Googleが双方向Transformer（BERT）を発表。多数の自然言語理解タスクで最高性能を達成。

2020年： OpenAIがGPT-3（1750億パラメータ）を発表。few-shot learningによる多様なタスクへの適応を実証。

2022年： ChatGPT公開。会話的AIの実用化により、一般社会への影響が顕在化。

2023-2024年： GPT-4、Claude、Geminiなどのマルチモーダル大規模モデルが登場。テキスト・画像・音声の統合処理へ。

これらのモデルの注目すべき点は、創発的能力（emergent abilities）の発現である。Wei et al.（2022）は、モデルのパラメータ数が一定の閾値を超えると、訓練時には明示的に学習していなかったタスク（算数推論、翻訳、コード生成など）が突然可能になると報告した。ただし、この「突然の出現」は評価指標の設定やスケーリングの見せ方にも依存するため、解釈には注意が必要である。

それでも、統計的学習が単なる表層的パターン認識を超えて、より深い構造的知識の獲得につながる可能性を示唆している点は重要である。そして、生成文法が前提とする「生得的な文法知識」の必要性に疑問を投げかけるのである。

4. 実証研究の整理：LLMは本当に「文法」を獲得しているのか

LLMが真に文法知識を持つかを評価するには、何をもって「獲得した」と判断するかの基準が必要である。本章では以下の三つの観点から検証する：
(1)文法性判断——最小対（minimal pairs）での正しい選好を示すか（BLiMP）
(2)内部表現——モデル内部に構文構造が埋め込まれているか（structural probing：構造探索）
(3)意味理解——ただし形式的判断と真の「理解」は別問題である（octopus test：タコテスト）

4.1 文法性判断タスク：BLiMPによる評価

LLMが真に文法知識を持つかを評価するため、Warstadt et al.（2020）はBLiMP（Benchmark of Linguistic Minimal Pairs）を開発した。これは、文法的に正しい文と誤った文のペアを67,000組含むデータセットで、主語-動詞の一致、否定極性項目（NPI：「any」のように否定文脈でのみ現れる語）、島制約（island constraints：特定の統語構造から要素を移動できない制約）など、67種類の言語現象をカバーする。

重要なのは、BLiMPの文はすべて言語学者が設計したテンプレートで人工生成されたもので、単純な丸暗記が効きにくい設計になっている点である。したがって、モデルが高い精度を示せば、それは単なる記憶ではなく、抽象的な文法規則を獲得していることを示唆する。

結果は注目すべきものだった。GPT-2-large（約7.7億パラメータ）はランダムチョイス（50%）を大きく上回る89.0%の精度を達成した。特に、主語-動詞の一致や格の一致といった統語的制約（syntax：文の構造に関する規則）において高い精度を示した。後続研究では、モデル規模や学習条件によって性能が変動することが示されており、統計的学習の能力と限界の両面が明らかになりつつある。

具体例：島制約の理解

言語学における「島制約（island constraint）」は、特定の統語構造（構文木：文の階層的な構造図）からは要素を移動できないという制約である。たとえば、関係節（「who bought the book」のような修飾句）の内部から疑問詞を抜き出すことはできない。
非文法的：「*What did you meet the man who bought __?」（関係節島からの抜き出しで非文）
文法的：「What did the man who bought the book leave __ on the table?」（抜き出し元が主節なので文法的）
LLMは、このような複雑な制約を訓練データから暗黙的に学習していることが示された。

4.2 構文構造の内部表現：Probing研究

LLMが文法的判断ができるとしても、それは表層的なヒューリスティック（経験則的な近道）によるものかもしれない。そこで、モデルの内部表現が本当に構文構造を捉えているかを調べる「probing研究」（探索研究：モデル内部に情報が埋め込まれているかを"読み出し実験"で調べる手法）が行われた。

Hewitt and Manning（2019）は、BERTの隠れ層ベクトルを分析し、以下を発見した。

第一に、構文木の距離を表現する部分空間が存在する。 任意の2単語間の統語的距離（構文木上での最短経路長）が、ベクトル空間内の距離として線形変換で抽出できる。

第二に、構文木の深さ情報も表現されている。 各単語の構文木内での深さ（rootからの距離）が、同様に線形変換で予測可能である。

この結果は、BERTが明示的な構文木を入力されていないにもかかわらず、訓練過程で階層的な構造表現を自発的に獲得していることを示唆する。これは、統計的学習が抽象的な構造知識を創発させる可能性を支持する強力な証拠である。

4.3 長距離依存と文脈依存性

言語の重要な特性の一つが長距離依存（long-distance dependency）である。たとえば、「The keys to the cabinet are on the table.」では、動詞「are」は「keys」と一致し、間に挟まれた「cabinet」に引きずられない。これは単純なn-gramモデルでは処理困難な現象である。

Linzen et al.（2016）は、LSTM（長短期記憶ネットワーク）がこの種の長距離一致をどの程度学習できるかを調査した。結果、単純なケースでは高い精度を示すものの、修飾句が複雑に入れ子になったケース（「The author of the books that the editor recommended is famous.」など）では精度が低下した。

しかし、Transformerベースのモデルは、self-attention機構により、このような長距離依存をより効果的に処理できる。Attention weightsの分析から、モデルが主語と動詞を直接結びつける「アテンション・ヘッド」を学習していることが確認された（Vig and Belinkov, 2019）。

4.4 Few-shot LearningとPoverty of Stimulus

GPT-3の最も注目される能力の一つがfew-shot learningである。これは、新しいタスクについて数例の例示を与えるだけで、そのタスクを実行できる能力を指す。たとえば、3つの英仏翻訳ペアを示すだけで、4つ目の英文を正しく翻訳できる。

この能力は、「刺激の貧困」論に対する興味深い反証となる。チョムスキーは、子どもが限られた入力から文法を獲得できるのは、普遍文法があるからだと主張した。しかし、GPT-3は生得的な文法知識なしに、わずかな例示から一般化を行える。

もちろん、GPT-3の訓練には数兆トークンのデータが使われており、これは人間の言語経験とは規模が異なる。しかし、重要なのは、「統計的学習メカニズムが、十分なデータと計算資源があれば、生得的知識なしに複雑な言語能力を獲得できる」という原理的可能性が示されたことである。

5. 解釈上の注意点と限界：LLMは本当に「理解」しているのか

5.1 記号接地問題：形式操作と意味理解

LLMの能力をどう解釈すべきかについて、最も根本的な問題が記号接地問題（symbol grounding problem）である。これは哲学者ジョン・サールが1980年に提起した「中国語の部屋」論証に関連する。

サールは、中国語を理解しない人が、中国語の質問に対して適切な中国語の回答を生成できる規則集を持っているとしても、その人は中国語を「理解」しているとは言えないと論じた。同様に、LLMが統計的パターンに基づいて適切な応答を生成できても、それは真の「意味理解」ではなく、単なる「形式操作」にすぎないという批判がある。

Bender and Koller（2020）は、この問題を「タコ（octopus）テスト」という思考実験で説明した。二人の人間が無人島で通信する様子を、海底ケーブルを盗聴したタコが学習したとする。タコは統計的パターンから、適切な応答を生成できるようになるかもしれない。しかし、「島に熊が出た、助けてくれ」というメッセージに対して、タコは適切に行動できるだろうか。タコには「熊」「危険」「助ける」といった言葉と現実世界の状況との結びつき（記号接地：言葉が現実の経験と結びつくこと）が欠けているため、形式的な応答生成はできても真の理解に基づく行動はとれない。

批判の核心：参照の不在

LLMは言語の形式的パターンを学習するが、言葉が指示する実世界の対象や状況とは直接結びついていない。「赤い」という言葉と赤色の視覚経験、「熱い」という言葉と熱さの身体感覚といった、記号と現実の対応関係（記号接地）が欠けている。

5.2 訓練データの量と質：人間との比較可能性

LLMの成功を「刺激の貧困」論への反証とみなすことには、方法論的な問題がある。GPT-3の訓練には約3000億トークンが使用された。一方、6歳児が接する言語入力は、楽観的に見積もっても4500万語（3年間、1日平均4万語）程度である（ただし、こうした推定には研究により幅がある）。つまり、LLMは人間の数千倍の言語経験を持つ。

チョムスキー派は、この規模の違いこそが決定的だと主張する。人間は限られたデータから効率的に学習できるのは、生得的な制約（普遍文法）があるからだ。LLMは膨大なデータで力ずくで学習しているだけであり、人間の言語獲得メカニズムとは本質的に異なる。

しかし、使用基盤派は反論する。人間の乳幼児も、テキストだけでなく、視覚情報、ジェスチャー、物理的相互作用、社会的文脈など、多様なモダリティからの入力を受けている。これらを総合すれば、情報量は決して少なくない。また、最近のマルチモーダルLLM（GPT-4V、Geminiなど）は、テキストと画像を同時に学習することで、より少ないテキストデータで高い性能を達成しつつある。

5.3 構成性（Compositionality）の限界

構成性（compositionality：全体の意味が部分の意味と統語構造から系統的に決定される原理）は、言語の根本的性質の一つである。たとえば、「大きな赤い家」の意味は、「大きな」「赤い」「家」の意味と、それらの組み合わせ方から予測可能である。

LLMは多くの場合、compositionality を示すが、完全ではない。Lake and Baroni（2018）のSCANデータセットを用いた実験では、訓練時に見たことのない組み合わせ（「jump twice」→「twice jump」のような規則的な変換）に対して、ニューラルネットワークは苦戦した。

これは、LLMが真の構成的規則を学習しているのではなく、訓練データに現れたパターンの補間を行っているだけである可能性を示唆する。つまり、見たことのある表現の「近く」は処理できるが、真に新奇な組み合わせには対応できない。

5.4 因果推論と反事実的思考

言語理解のもう一つの重要な側面が因果推論である。「ジョンはドアを押したが、開かなかった。なぜなら鍵がかかっていたからだ」という文を理解するには、物理的因果関係の知識が必要である。

LLMは訓練データに頻出する因果パターンを学習することで、一見妥当な推論を示す。しかし、Marcus and Davis（2020）は、LLMが反事実的推論（「もし重力が2倍だったら、ジャンプの高さはどうなるか」）や物理的矛盾の検出に失敗することを示した。

これは、LLMが言語の表層的な統計的共起を学習しているが、言葉が指示する世界の因果構造を真に理解しているわけではないことを示唆する。

6. 理解のための統合的視点：二項対立を超えて

6.1 生得性と学習の連続性

「規則か統計か」という二項対立は、実際には過度な単純化である可能性が高い。人間の言語能力は、完全に白紙の状態から学習されるわけでもなければ、完全に固定された生得的プログラムでもない。

より妥当な見方は、制約された学習（constrained learning）の枠組みである。人間の脳には、汎用的な統計学習メカニズムが備わっているが、それは完全に制約なしではない。注意のバイアス、メモリの構造、処理速度の制約といった認知的アーキテクチャが、言語学習の軌道を形作る。

たとえば、新生児は音韻カテゴリーの知覚において、すべての言語音を区別できる。しかし、生後6-12ヶ月の間に、母語の音韻体系に適応し、母語にない音の区別能力を失う。これは生得的な知覚能力と、統計的学習による適応の相互作用の結果である。

6.2 言語学とAI研究の相互貢献

LLMの成功は、言語学理論にとって単なる脅威ではなく、新たな研究ツールでもある。言語学者は、LLMを「in silico実験室」として利用し、特定の言語現象の学習可能性を調査できる。

たとえば、特定の文法規則を意図的に訓練データから除外したモデルを作り、その規則が他のデータから推論可能かを調べることができる。これは、人間を対象とした実験では不可能な操作である。

逆に、言語学の知見はAI研究にも貢献する。言語の普遍的特性（語順の類型論的制約、格システムの構造など）をモデルのアーキテクチャに組み込むことで、より少ないデータで効率的に学習できる可能性がある。実際、一部の研究では、構文的制約を組み込んだモデルが、純粋なend-to-endモデルを上回る性能を示している。

6.3 マルチモーダル学習と身体性

記号接地問題への一つの解答が、マルチモーダル学習である。テキストだけでなく、画像、音声、動画を同時に学習するモデル（CLIP、GPT-4V、Geminiなど）は、言語と知覚の対応関係を獲得できる。

たとえば、CLIPは「赤いリンゴ」というテキストと、赤いリンゴの画像を対応付けることで、「赤い」という言葉の意味を視覚的に接地できる。これは、記号操作だけでなく、知覚的経験との結びつきを持つという点で、より人間に近い学習である。

さらに、ロボティクスとの統合により、物理的世界との相互作用を通じた学習も可能になりつつある。「押す」「持ち上げる」といった動詞の意味を、実際の運動経験と結びつけることで、より深い理解が得られる可能性がある。

6.4 社会的相互作用と語用論

人間の言語獲得において決定的に重要なのが、社会的相互作用である。トマセロが強調するように、子どもは他者の意図を理解し、共同注意を確立することで、言語の意味を学ぶ。

現在のLLMには、この社会的次元が欠けている。しかし、強化学習を用いた対話システム（ChatGPT、Claudeなど）は、人間のフィードバックから「有用性」「適切性」を学習する。これは、社会的相互作用の簡略化されたバージョンとみなせる。

今後、より洗練された相互作用的学習（multi-agent環境での協調、交渉、教示など）を通じて、語用論的能力（pragmatics：文脈依存的な意味理解、推意の解釈など、文字通りの意味を超えた言語使用の側面）が向上する可能性がある。

7. まとめ：パラダイム転換か、統合か

理解の更新：言語観の転換

大規模言語モデルの成功は、言語学に三つの根本的な問いを突きつけた。

第一に、生得性の再考。 普遍文法という生得的モジュールを仮定しなくても、統計的学習だけで複雑な言語構造が獲得可能であることが示された。これは、人間の言語能力の特殊性を相対化する。しかし、人間とLLMでは学習効率が桁違いであり、何らかの生得的制約が学習を促進している可能性は残る。

第二に、理解の本質。 LLMは文法的判断、文脈理解、推論において人間に匹敵する能力を示すが、それが真の「意味理解」かは議論の余地がある。記号接地、因果推論、身体性といった要素が欠けているからだ。しかし、マルチモーダル学習の進展により、この限界は徐々に克服されつつある。

第三に、理論と実践の関係。 言語学は長らく、理想化された「言語能力」を研究対象とし、実際の使用は副次的とみなしてきた。しかし、LLMは使用データから能力を創発させる。これは、使用と能力の区別自体を問い直す契機となる。

未解決の問い

LLMの成功にもかかわらず、多くの根本的問題が残されている。

学習効率の非対称性： なぜ人間は数千分の一のデータで言語を獲得できるのか。生得的制約があるのか、それとも社会的相互作用やマルチモーダル情報が鍵なのか。

構成性の完全な獲得： LLMは訓練データの補間には優れるが、真に新奇な組み合わせへの体系的一般化には限界がある。構成的規則の完全な獲得には何が必要か。

意識と主観性： LLMが「痛み」について語るとき、それは単なるパターンマッチングか、それとも何らかの内的状態の表現か。意識的経験と言語の関係は、依然として哲学的難問である。

今後の研究方向

この論争は、今後も言語学、AI研究、認知科学、哲学の交差点で展開されるだろう。有望な研究方向には以下が含まれる。

発達的視点の統合： 人間の言語獲得の縦断的研究と、LLMの訓練過程の比較分析。どの段階でどのような能力が出現するかを詳細に追跡する。

神経科学的検証： 人間の脳活動とLLMの内部表現の対応関係を調べる。機能的MRI研究により、両者が類似の表象構造を持つかを検証する。

より人間的な学習環境： 社会的相互作用、身体性、能動的探索を組み込んだAIシステムの開発。これにより、より効率的で堅牢な言語学習が可能になるかもしれない。

大規模言語モデルは、言語の本質に関する私たちの理解を根底から揺さぶった。しかし、それは混乱ではなく、より深い理解への扉を開いたのである。規則と統計、生得性と学習、形式と意味——これらの二項対立を超えた統合的視座こそが、21世紀の言語科学が目指すべき地平である。

参考文献

Bender, E. M., & Koller, A. (2020). Climbing towards NLU: On meaning, form, and understanding in the age of data. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 5185-5198).

Chomsky, N. (1959). A review of B. F. Skinner's Verbal Behavior. Language, 35(1), 26-58.

Chomsky, N. (1965). Aspects of the theory of syntax. MIT Press.

Chomsky, N. (1986). Knowledge of language: Its nature, origin, and use. Praeger Publishers.

Goldberg, A. E. (1995). Constructions: A construction grammar approach to argument structure. University of Chicago Press.

Goldberg, A. E. (2006). Constructions at work: The nature of generalization in language. Oxford University Press.

Hewitt, J., & Manning, C. D. (2019). A structural probe for finding syntax in word representations. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics (pp. 4129-4138).

Lake, B. M., & Baroni, M. (2018). Generalization without systematicity: On the compositional skills of sequence-to-sequence recurrent networks. In International Conference on Machine Learning (pp. 2873-2882).

Linzen, T., Dupoux, E., & Goldberg, Y. (2016). Assessing the ability of LSTMs to learn syntax-sensitive dependencies. Transactions of the Association for Computational Linguistics, 4, 521-535.

Manning, C. D., Clark, K., Hewitt, J., Khandelwal, U., & Levy, O. (2020). Emergent linguistic structure in artificial neural networks trained by self-supervision. Proceedings of the National Academy of Sciences, 117(48), 30046-30054.

Marcus, G., & Davis, E. (2020). GPT-3, Bloviator: OpenAI's language generator has no idea what it's talking about. MIT Technology Review.

Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems (pp. 3111-3119).

Tomasello, M. (2003). Constructing a language: A usage-based theory of language acquisition. Harvard University Press.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. In Advances in neural information processing systems (pp. 5998-6008).

Vig, J., & Belinkov, Y. (2019). Analyzing the structure of attention in a transformer language model. In Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (pp. 63-76).

Warstadt, A., Parrish, A., Liu, H., Mohananey, A., Peng, W., Wang, S. F., & Bowman, S. R. (2020). BLiMP: The benchmark of linguistic minimal pairs for English. Transactions of the Association for Computational Linguistics, 8, 377-392.

Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., ... & Fedus, W. (2022). Emergent abilities of large language models. arXiv preprint arXiv:2206.07682.