eternal-studentのブログ

様々な便利なWebツールや知的に面白いコンテンツを共有しています。

【2026年投資テーマ】合成データ産業——AI学習データ枯渇時代の有力解、4000億円→1兆円市場の全貌

【2026年投資テーマ】合成データ産業——AI学習データ枯渇時代の有力解、4000億円→1兆円市場の全貌

AIの進化を支えてきた「燃料」が枯渇し始めている。プライバシー規制の強化、ウェブスクレイピングの制限、そして人間生成データの物理的限界——これら複合的な課題に対する有力な解として、合成データ(Synthetic Data)産業が急速に台頭している。2030年には約4000億円、2035年には1兆円超へと急成長する見通しだ。NVIDIAによるGretel買収、EU規制への対応需要、自動運転・医療分野での実用化——。本稿では、この「AIの新燃料」がもたらすビジネス機会と投資の視点を徹底分析する。

1. 導入:AI産業が直面する「データの壁」

1.1 高品質データの枯渇問題

AIの性能向上は、より大量かつ高品質なデータによる学習に依存してきた。OpenAIのGPT-1(2018年)からGPT-4(2023年)への進化では、学習データ量が数千倍に増加したと推定されている(※いずれも公式非公開のため、業界推計に基づく)。この指数関数的なデータ需要の増加は、深刻な問題を引き起こしている。

非営利研究機関Epoch AIの分析によれば、現在のペースでAIモデルの学習が続けば、インターネット上の「高品質な人間生成テキストデータ」は2026〜2028年頃までに枯渇すると予測されている。2025年1月にはイーロン・マスク氏が「人類の知識の累積総量はAI学習で既に使い尽くされた」と発言し、業界に衝撃を与えた。

【データ】AI学習データの枯渇予測(Epoch AI)
  • 高品質テキストデータ:2026〜2028年頃に枯渇(オーバートレーニング想定により変動)
  • 低品質テキストデータ:2030〜2050年に枯渇
  • 画像・動画データ:2030〜2060年に枯渇
  • GPT-4.5開発時:計算能力よりデータ不足が制約要因(OpenAI研究者のポッドキャスト発言)

1.2 プライバシー規制の強化

データ枯渇と並行して、プライバシー規制の強化もAI開発の障壁となっている。EU一般データ保護規則GDPR)、米国カリフォルニア州消費者プライバシー法(CCPA)、医療分野のHIPAAなど、世界各地で個人データの利用制限が厳格化している。

EU AI規制法(AI Act)は2024年8月1日に発効し、段階適用が進んでいる。禁止AIの規定は2025年2月から、汎用目的AI(GPAI)関連義務は2025年8月から適用され、全面適用は2026年8月(一部の高リスクAIシステムは2027年8月まで猶予)となる。高リスクAIシステムに対しては、バイアス検出・修正のための特別カテゴリデータ(人種、健康状態、政治的信条など)の処理を認める一方で、厳格なセーフガードを要求している。

2025年11月19日に欧州委員会が発表した「Digital Omnibus」提案(現在、欧州議会・理事会で審議中の提案段階)では、AI開発におけるGDPR要件の一部緩和が検討されているが、最終案は未確定である。依然として「実データに代わる安全な代替手段」への需要は高まっている。

1.3 ウェブスクレイピングの制限

さらに、AI企業によるウェブスクレイピング(自動データ収集)への規制も強まっている。MIT/Dartmouthの研究者らによるData Provenance Initiativeの調査によれば、主要なウェブコーパス(C4等)に含まれる高品質サイト群において、AIクローラーrobots.txtでブロックするサイトの割合が急増している。同調査では、OpenAIのクローラーが最も高い制限率(調査対象の高品質サイト集合の約26%)を示し、Anthropic・Common Crawl(約13%)、Google AI(約10%)がこれに続く。主要メディアやコンテンツプラットフォームがAI学習用データの提供を有償化・制限する動きも加速している。

1.4 データ課題への複数アプローチと合成データの位置づけ

AI産業は三重の制約に直面している:(1) 人間生成データの物理的限界、(2) プライバシー規制による法的制約、(3) コンテンツ権利者による経済的・契約的制約。これらの課題に対しては、合成データを含む複数のアプローチが存在する。

【データ課題への主要アプローチ】

データ効率の改善:知識蒸留、検索拡張生成(RAG)、少数ショット学習などにより、少量データでの学習効率を向上。ただし、希少ケースの網羅や多様性確保には限界がある。

ライセンス・データ提携:Reddit、Stack Overflowなどとの有償契約。法的リスクは低減するが、コストが高く、特定ドメインのデータには限界がある。

企業内・オンデバイスデータ:自社保有データの活用。プライバシー管理は容易だが、データ量・多様性に制約。

合成データ:適切に設計すればプライバシーリスクを大幅に低減しつつ、希少ケースの意図的生成、無制限のスケーリング、機関間共有が可能。規制対応とスケールの両立を図れる有力な手段の一つとして注目。

合成データは、特に「希少ケースの網羅」「機関間のデータ共有」「開発速度の向上」において他のアプローチに対する明確な優位性を持つ。この点が、市場成長を牽引する主要因となっている。ただし、後述するように合成データにも固有のリスクがあり、万能ではない点には注意が必要だ。

2. 深掘り:合成データとは何か

2.1 定義と基本概念

合成データ(Synthetic Data)とは、実世界のデータから学習したアルゴリズムによって人工的に生成されたデータセットである。重要なのは、合成データは「匿名化データ」や「仮名化データ」とは本質的に異なる点だ。匿名化は実データから識別子を除去する処理であるのに対し、合成データは最初から実在しないデータを生成する。

【注意】合成データとプライバシーリスク

「合成データ=プライバシーリスクゼロ」ではない点に注意が必要である。生成手法によっては、元データの個人を推測できる(メンバーシップ推論攻撃、属性推論)リスクが残る。したがって、GDPRの適用除外となるかは、生成手法、プライバシー評価、利用目的によって異なる。差分プライバシー(Differential Privacy)の付与や、再識別リスク評価を経た設計が、規制対応の前提となる。

現代の合成データ生成技術は、主に以下の手法に基づいている。それぞれに適した用途があり、「どの技術が最適か」はデータ種別と目的によって異なる:

【合成データ生成の主要技術と適用領域】

敵対的生成ネットワーク(GAN):生成器と識別器の2つのニューラルネットワークが競争的に学習することで、高品質な合成データを生成。2024年時点で市場シェア38.2%を占める主流技術。適用:汎用的な画像・動画生成に強み。学習が不安定になりやすい点が課題。

拡散モデル(Diffusion Models):ノイズからデータを段階的に復元する手法。2030年まで年率47.6%で最も高い成長が予測される次世代技術。NVIDIAのCosmosなどで採用。適用:高品質な画像・動画生成、物理シミュレーションに最適。計算コストが高い点がトレードオフ

変分オートエンコーダ(VAE):データを潜在空間に圧縮・復元することで新たなデータを生成。適用:医療画像など、データ分布の解釈性が求められる領域で有効。生成品質はGAN・拡散より劣る場合がある。

テーブルデータ専用モデル(CTGAN、TVAE等):構造化データに特化した手法。差分プライバシー付与との組み合わせが現場では重視される。適用:金融・医療のレコードデータ。差分プライバシー付与でプライバシー保証を数学的に担保可能。

エージェントベースモデリング個々のエージェントの行動ルールをシミュレーションすることでデータを生成。適用:金融取引、不正検知、マネーロンダリングシミュレーションで透明性・制御性が高い。ルール設計に専門知識が必要。

2.2 従来のデータ取得手法との比較

合成データがもたらす優位性を理解するには、従来のデータ取得手法との比較が有用である。

評価軸 実データ収集 匿名化・仮名化 合成データ
プライバシーリスク 高(個人特定可能) 中(再識別リスク) 低〜中(設計・評価次第)
規制対応コスト 高(同意取得等) 中(技術的対策) 低〜中(評価・監査要)
データ量の拡張性 限定的 限定的 無制限に生成可能
希少ケースの網羅 困難 困難 意図的に生成可能
取得速度 遅い(収集に時間) 中程度 高速(即時生成)
バイアス制御 困難 困難 設計段階で調整可能

特に注目すべきは「希少ケースの網羅」である。自動運転AIの学習では、事故につながる危険なシナリオ(逆光での歩行者出現、緊急車両の接近など)のデータが不可欠だが、実世界でこれらを安全に収集することは不可能に近い。合成データであれば、これらの「エッジケース」を意図的に大量生成できる。

2.3 市場規模と成長予測

合成データ生成市場は、複数の調査機関が年率30%超の成長を予測する急成長市場である。市場拡大の背景には、データ枯渇問題に加え、プライバシー規制強化、物理AI(ロボティクス・自動運転)の台頭、AI品質保証・評価基盤の需要など、複合的な要因が合流している。

【市場規模予測(各調査機関の推計)】
  • Research Nester:2025年 4.47億ドル → 2035年 87.9億ドル(CAGR 34.7%)
  • Grand View Research:2023年 2.18億ドル → 2030年 17.9億ドル(CAGR 35.3%)
  • Mordor Intelligence:2025年 5.1億ドル → 2030年 26.7億ドル(CAGR 39.4%)
  • Fortune Business Insights:2023年 3.51億ドル → 2030年 23.4億ドル(CAGR 31.1%)

地域別では、北米が2023年に約33%のシェアを占め最大市場となっているが、アジア太平洋地域が2035年までに38%以上のシェアを獲得すると予測されている。中国政府の「デジタル商業セクター変革アクションプラン(2026年)」や、日本・韓国のAI国家戦略が成長を牽引する。

3. ソリューション:合成データの技術的・戦略的実装

3.1 物理AIのための合成データ——NVIDIA Cosmosの革新

2025年1月のCESで発表されたNVIDIAの「Cosmos」は、合成データ産業における最も重要な技術的ブレークスルーの一つである。CosmosはWorld Foundation Model(WFM:世界基盤モデル)と呼ばれる新カテゴリのAIモデルであり、物理法則を理解した上で仮想世界を生成できる。

NVIDIA Cosmos の主要コンポーネント

Cosmos Predict:テキスト、画像、動画などのマルチモーダル入力から、最大30秒の連続動画を生成。物理的に正確な動作予測が可能。

Cosmos Transfer:セグメンテーションマップ、深度マップ、LiDARスキャンなどの構造化入力から、制御可能なフォトリアル動画を生成。3Dシミュレーションを写実的な映像に変換。

Cosmos Reason:70億パラメータの推論VLM(Vision Language Model)。ロボットや自動運転車が物理世界を人間のように理解・推論・行動することを可能にする。

重要なのは、報道によれば2025年3月にNVIDIAが合成データスタートアップGretelを買収した事実である。買収価格は公式非公開だが、WIRED等の報道では3.2億ドル超(直近の評価額を上回る9桁の金額)とされる。これにより、NVIDIAはOmniverse(3Dシミュレーション環境)、Cosmos(世界基盤モデル)、Gretel(構造化データ生成)を統合し、物理AIのための包括的な合成データパイプラインを構築した。

3.2 自動運転における合成データ活用

自動運転は合成データの最大の応用分野の一つである。Waymoは2025年12月に公開した技術ブログで、「Waymo Foundation Model」の中核として合成センサーデータ生成を活用していることを明らかにした。

Waymoのアプローチは以下の3層構造を持つ:

第1層:シミュレーター(Simulator)——実世界の運転データから学習した生成モデルを用いて、仮想的な運転シナリオを無限に生成。2000万マイル以上の実走行データに基づく高忠実度シミュレーション。

第2層:合成センサーデータ生成——LiDAR、カメラ、レーダーの各センサー入力を物理的に正確に再現。Waymoのブログでは「センサーデータは純粋に合成であり、生成的センサーシミュレーションモデルによって生成される」と明記されている。SurfelGANなどの技術を用いて、実世界では収集困難な気象条件や危険シナリオのデータを生成。

第3層:評価システム(Critic)——生成されたシナリオでのAIドライバーの性能を評価し、改善点を特定。この評価結果が次の学習サイクルにフィードバックされる。

一方、Teslaは「Vision-Based System Training with Synthetic Content」と題する特許で、シミュレーション環境で生成した合成画像データをFSD(Full Self-Driving)の学習に活用する手法を公開している。Teslaのアプローチは「実データ優先」だが、エッジケースの補完に合成データを戦略的に活用している。

【自動運転セクターの投資示唆】

Mordor Intelligenceの予測では、自動車・輸送セクターの合成データ市場は2030年まで年率38.4%で成長し、レベル4自律走行の検証に必要な「数十億マイル相当の安全走行データ」需要を背景に急拡大する。Applied Intuitionは2025年6月のSeries Fラウンドで150億ドルの評価額を獲得しており、この市場の成長期待を反映している。

3.3 金融分野での活用——不正検知とAML

金融分野では、J.P. MorganがAI研究部門を通じて合成データ技術の最前線を走っている。同社は不正検知(Fraud Detection)とマネーロンダリング対策(AML)のための合成データセットを開発し、一部を研究コミュニティに公開している。

J.P. Morganの合成データアプローチの特徴:

AIプランニング・実行シミュレーター:顧客の正常な取引パターンと不正パターンを確率的にシミュレートし、ラベル付きの合成取引データを大量生成。

クラス不均衡問題の解決:実際の取引データでは不正取引は全体の0.1%未満であり、機械学習モデルの学習が困難。合成データでバランスの取れたデータセットを生成することで、検出精度を向上。

プライバシー保護:クラウドサービスでAIモデルを学習する際、実顧客データをアップロードせずに合成データで学習し、学習済みモデルを社内環境に戻して実データで運用。「メンバーシップ推論攻撃」からの保護も実現。

2025年のロイター報道によれば、J.P. MorganはAI全般の活用(不正防止、取引、与信判断など)を通じて約15億ドルの価値創出を達成した。金融業界全体では、AIを活用したAML(マネーロンダリング対策)システムで誤検知(フォールスポジティブ)を大幅に削減する事例が報告されており、調査員の生産性向上に寄与している。

3.4 ヘルスケア分野——希少疾患研究の加速

医療分野では、プライバシー保護と希少疾患研究の両立という難題を合成データが解決しつつある。

2025年3月に発表された学術論文「Synthetic data generation: a privacy-preserving approach to accelerate rare disease research」は、合成データが希少疾患研究において以下の役割を果たすことを示している:

【医療分野での合成データ活用】

臨床試験シミュレーション:製薬企業は、過去の患者データから生成した合成患者集団を用いて、プラセボ群・対照群を置き換える試みを開始。FDAもこのアプローチのガイドライン策定を検討中。

AIモデル学習:希少疾患では実際の患者データが数十〜数百件しか存在しないケースが多い。合成データで学習データを拡張することで、診断AIの精度向上が可能に。

機関間データ共有:異なる病院・研究機関間でPHI(個人健康情報)を共有することなく、合成データを介した共同研究が可能に。欧州健康データスペース(EHDS)のパイロットプログラムでも活用。

Philipsは「Project SEARCH」イニシアティブを通じて、CTおよびMRIの合成医療画像生成に取り組んでいる。腫瘍学では肺・肝臓腫瘍の早期検出、心臓血管ケアでは診断・治療計画・臨床意思決定を支援するAI向け合成データセットを開発中だ。

3.5 合成データの品質保証——評価指標とガードレール

合成データの品質評価は、ビジネス実装における重要な課題である。以下の評価フレームワークが実務で活用されている。

【合成データ品質評価のチェックリスト】

1. 統計的忠実度:実データとの分布距離(KL divergence、JS divergence、Maximum Mean Discrepancy等)を測定。カラム間の相関・依存関係が保持されているかを検証。

2. 下流タスク性能(TSTR):「合成データで学習、実データでテスト」(Train on Synthetic, Test on Real)の性能を、「実データで学習、実データでテスト」と比較。合成データの実用性を直接測定。

3. プライバシーリスク評価:メンバーシップ推論攻撃(特定の個人がデータに含まれていたか推測)、属性推論攻撃(既知の属性から未知の属性を推測)への耐性を検証。差分プライバシー(ε値)の定量評価。

4. バイアス・公平性:デモグラフィック属性間での性能格差がないか検証。元データのバイアスが継承・増幅されていないか確認。

3.6 競争優位性と参入障壁の構築

合成データビジネスで競争優位性を構築するための戦略的要素は以下の通りである:

ドメイン特化型モデルの開発:汎用的な合成データ生成ツールは差別化が困難。自動運転、医療画像、金融取引など特定ドメインに特化したモデルを開発し、当該分野の専門知識と組み合わせることで参入障壁を構築。

プライバシー保証の技術的実装:差分プライバシー(Differential Privacy)やフェデレーテッドラーニングとの組み合わせにより、数学的に証明可能なプライバシー保証を提供。規制当局への説明責任を果たせる企業が優位に立つ。

検証・品質保証フレームワーク合成データの品質を実データとの比較で検証するフレームワークの確立が信頼獲得の鍵。

規制対応コンサルティングGDPR、AI Act、HIPAAなど各規制に対する合成データの適合性を証明する専門知識が、エンタープライズ市場攻略の必須要件となる。

4. ケーススタディ:成功事例の分析

4.1 事例1:NVIDIAによるGretel買収と垂直統合戦略

NVIDIA × Gretel:物理AI向け合成データの覇権確立】

買収概要:2025年3月、報道によればNVIDIAはサンディエゴ拠点の合成データスタートアップGretelを買収。買収価格は公式非公開だが、WIRED等の報道では3.2億ドル超(直近の評価額を上回る9桁の金額)とされる。Gretelは2019年設立、累計6750万ドルの資金調達を経て、マルチモーダル合成データプラットフォームを開発していた。

戦略的意図:NVIDIAは既にOmniverse(3D仮想環境)とCosmos(世界基盤モデル)を保有していたが、構造化データ(テーブルデータ、テキスト、時系列データ)の合成能力が不足していた。Gretel買収により、非構造化データ(画像・動画)と構造化データの両方をカバーする完全な合成データスタックを獲得。

市場インパクト:「物理AI」(ロボティクス、自動運転、産業オートメーション)の開発には、シミュレーション環境(Omniverse)、世界理解モデル(Cosmos)、多様な学習データ(Gretel)の3要素が不可欠。NVIDIAはこの全てを内製化し、競合他社との差を決定的なものにした。

採用企業:1X、Agility Robotics、Figure AI、Skild AI、Uber、Waabi、XPENGなど、物理AI分野のリーディング企業がCosmos+Gretelスタックを採用。

4.2 事例2:Waymo——安全性証明のための合成データ活用

【Waymo:「証明可能な安全性」を合成データで実現】

課題:自動運転車の安全性を証明するには、数十億マイル相当の走行データが必要とされる(RAND研究所の推計)。実世界での走行テストだけでは、この規模のデータ収集に数十年を要する。

ソリューション:Waymoは「Waymo Foundation Model」を中心としたAIエコシステムを構築。Driver(運転AI)、Simulator(シミュレーター)、Critic(評価システム)の3コンポーネントが同一の基盤モデルで動作し、継続的な学習サイクルを形成。

合成データの役割:シミュレーターは実世界の運転ログから学習した生成モデルを用いて、完全に合成されたセンサーデータ(LiDAR、カメラ、レーダー)を生成。これにより、実世界では再現不可能な危険シナリオ(車両火災、緊急車両の進入、悪天候での視界不良など)を無制限にテスト可能。

成果:2025年時点でWaymoは米国主要都市で週20万件以上の有料ライドを提供。合成データによる徹底的なエッジケーステストが、規制当局および消費者からの信頼獲得に貢献している。

4.3 事例3:J.P. Morgan——金融犯罪対策AIの高度化

【J.P. Morgan:AI活用で15億ドルの価値創出、合成データが基盤技術に】

課題:金融取引データは極めて機密性が高く、クラウドでのAI学習が困難。また、不正取引は全取引の0.1%未満であり、データの「クラス不均衡」が機械学習の精度を低下させていた。

ソリューション:J.P. Morgan AI Researchは、エージェントベースシミュレーションを用いて合成取引データを生成。正常取引と不正取引のパターンを確率的にモデル化し、バランスの取れたラベル付きデータセットを大量生成。

技術的工夫:
• 合成データでクラウドAIモデルを事前学習し、学習済みモデルを社内環境に持ち帰り実データで微調整
• 「メンバーシップ推論攻撃」対策として、合成データ学習により実顧客情報の漏洩リスクを排除
マネーロンダリング行動のシーケンス(口座開設→送金→引出し)をシミュレートするAMLデータセットの開発・公開

成果:2025年のロイター報道によれば、J.P. MorganはAI全般の活用により約15億ドルの価値創出を達成。合成データは、不正検知・AMLを含む同社のAI基盤技術として機能している。

5. 結論:投資・ビジネス参入への視点

5.1 市場の方向性

Gartnerは2025年のデータ&アナリティクス予測において、「合成データの管理失敗がAIガバナンス、モデル精度、コンプライアンスにリスクをもたらす」と警告した。これは裏を返せば、合成データがAI開発の主流となりつつあることを示している。同社は2030年までに「AI学習に使用されるデータの過半数が合成データになる」と予測している。

5.2 リスクと運用ガードレール

一方で、合成データは万能ではない。注意すべきリスクと、それに対する実務的な対策を整理する。

【合成データ活用のリスクと運用ガードレール】

モデル崩壊(Model Collapse):Nature誌に掲載された研究によれば、AI生成データでAIを繰り返し学習させると出力の多様性と品質が劣化する。
→ 対策:一定量の高品質な実データを「アンカー」として維持。合成データの混合比率に上限(例:全体の50%以下)を設ける。世代管理で「合成データの合成データ」を防止。

バイアスの固定化・増幅:元データのバイアスが合成データに継承・増幅されるリスク。
→ 対策:デモグラフィック属性間の公平性評価を生成プロセスに組み込む。バイアス検出→修正→再生成のループを確立。

Sim-to-Real Gap:シミュレーション環境で生成したデータで学習したモデルが、実世界で期待通りに動作しないリスク。
→ 対策:ドメインランダマイゼーション(環境条件を意図的に多様化)。実データでの微調整(ファインチューニング)。実環境での継続的な検証。

プライバシーの「ゼロ化」は設計次第:差分プライバシー未付与の合成データは、メンバーシップ推論攻撃に脆弱な場合がある。
→ 対策:差分プライバシー(ε値を明示)の付与。第三者による生成プロセスの監査・認証。再識別リスク評価の実施と文書化。

5.3 投資家向けアクションポイント

【投資・事業参入の着眼点】

1. 勝ち筋となる3つのビジネスモデル

物理AI基盤(シミュレーション×生成×検証):NVIDIA Cosmos/Omniverse/Gretelがデファクト化しつつある。周辺ツール・特化アプリケーションに参入機会
規制産業向け「監査可能な合成データ」:医療・金融で差分プライバシー付き合成データ、規制対応コンサルの需要が急増
データ品質評価・認証:合成データの第三者保証、品質スコアリングサービスが未開拓領域

2. バリューチェーン上の投資機会

インフラ層:NVIDIAGPU+Cosmos+Gretel)は合成データ生成の計算基盤を独占。AMDIntelの追随動向に注目
プラットフォーム層:MOSTLY AI、Hazy(SAS傘下)、Tonic.aiなど専業プレイヤーが乱立。M&A活発化の可能性
アプリケーション層:医療(Syntheticus)、金融(Syntho)、自動運転(Applied Intuition、2025年6月Series Fで評価額150億ドル)など垂直特化型が高成長

3. 地域別の成長ポテンシャル

北米:依然として最大市場(約33%)。AI規制が比較的緩やかで、イノベーション速度が速い
アジア太平洋:2035年までに最大シェア(38%超)。中国のAI国家戦略、日本のDX推進が牽引
欧州:GDPR・AI Actの影響でプライバシー保護型合成データへの需要が特に高い

5.4 今後の展望

合成データ産業は、AI開発の「新しいインフラ」として確立されつつある。プライバシー規制の強化、実データの枯渇、AI需要の爆発的成長、物理AIの台頭という複数のメガトレンドが合流する地点に、この産業は位置している。

短期(2026-2027年):EU AI Actの全面適用(2026年8月、一部2027年8月)に伴うコンプライアンス需要の急増が見込まれる。高リスクAIシステムの開発者は、バイアス検出・修正のためのデータ確保を迫られ、合成データへの依存度が高まる。

中期(2028-2030年):自動運転・ロボティクスの商業化本格化に伴い、物理AI向け合成データの需要が爆発的に増加する。NVIDIAのCosmos/Omniverse/Gretelスタックがデファクトスタンダードとなる可能性が高い。

長期(2030年以降):Gartner予測通り「AI学習データの過半数が合成」となる世界が到来する可能性がある。この時、合成データは「AIの燃料」から「AIエコシステムの基盤インフラ」へと位置づけを変える。今から参入を準備する企業にとって、この市場は稀有な成長機会を提供している。

参考文献
  1. Villalobos, P., Ho, A., Sevilla, J., Besiroglu, T., Heim, L., & Hobbhahn, M. (2024). Will we run out of data? Limits of LLM scaling based on human-generated data. arXiv preprint arXiv:2211.04325. [2026年1月アクセス] https://arxiv.org/abs/2211.04325
  2. Research Nester (2025). Synthetic Data Generation Market Size, Share & Growth Forecast 2035. Research Nester. [2026年1月アクセス] https://www.researchnester.com/reports/synthetic-data-generation-market/5711
  3. Grand View Research (2024). Synthetic Data Generation Market Size & Share Report, 2030. Grand View Research. [2026年1月アクセス] https://www.grandviewresearch.com/industry-analysis/synthetic-data-generation-market-report
  4. Mordor Intelligence (2025). Synthetic Data Market Size, Share, Trends & Research Report, 2030. Mordor Intelligence. [2026年1月アクセス] https://www.mordorintelligence.com/industry-reports/synthetic-data-market
  5. Gartner (2025). Gartner Announces the Top Data & Analytics Predictions for 2025 and Beyond. Gartner Newsroom. [2026年1月アクセス] https://www.gartner.com/en/newsroom/press-releases/2025-06-17-gartner-announces-top-data-and-analytics-predictions
  6. Wiggers, K. (2025). Nvidia reportedly acquires synthetic data startup Gretel. TechCrunch, March 19, 2025. [2026年1月アクセス] https://techcrunch.com/2025/03/19/nvidia-reportedly-acquires-synthetic-data-startup-gretel/
  7. NVIDIA Newsroom (2025). NVIDIA Launches Cosmos World Foundation Model Platform to Accelerate Physical AI Development. NVIDIA. [2026年1月アクセス] https://nvidianews.nvidia.com/news/nvidia-launches-cosmos-world-foundation-model-platform-to-accelerate-physical-ai-development
  8. Waymo (2025). Demonstrably Safe AI For Autonomous Driving. Waymo Blog, December 2025. [2026年1月アクセス] https://waymo.com/blog/2025/12/demonstrably-safe-ai-for-autonomous-driving
  9. Assefa, S. et al. (2020). Generating Synthetic Data in Finance: Opportunities, challenges and pitfalls. Proceedings of the 1st International Conference on AI in Finance (ICAIF). https://www.jpmorgan.com/technology/artificial-intelligence/initiatives/synthetic-data
  10. Reuters (2025). JPMorgan says AI helped boost sales, add clients in market turmoil. Reuters, May 5, 2025.
  11. Mendes, J.M., Barbar, A., & Refaie, M. (2025). Synthetic data generation: a privacy-preserving approach to accelerate rare disease research. Frontiers in Digital Health, 7:1563991. doi: 10.3389/fdgth.2025.1563991
  12. Shumailov, I. et al. (2024). AI models collapse when trained on recursively generated data. Nature, 631, 755-759. https://www.nature.com/articles/s41586-024-07566-y
  13. European Commission (2024). EU AI Act. Official Journal of the European Union. [2026年1月アクセス] https://digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai
  14. European Commission (2025). Digital Omnibus Regulation Proposal (under legislative review). November 19, 2025.
  15. Epoch AI (2024). Will we run out of ML data? Evidence from projecting dataset size trends. Epoch AI. [2026年1月アクセス] https://epoch.ai/publications/will-we-run-out-of-ml-data-evidence-from-projecting-dataset
  16. Data Provenance Initiative (2024). Consent in Crisis: The Rapid Decline of the AI Data Commons. MIT/Dartmouth. [C4等主要コーパスの高品質サイト集合を対象とした調査]