数学と音楽の2500年史:ピタゴラスからAI作曲まで
音楽と数学は、人類史において常に密接な関係を保ち続けてきた。
古代ギリシャの哲学者たちが協和音程の背後に整数比を発見して以来、数学的思考は
音楽理論の発展を支え、逆に音楽的課題が数学の新たな分野を開拓してきた。本稿では、
ピタゴラス学派の音階理論から、
フーリエ解析、セリエル音楽、そして現代のAI作曲に至るまで、2500年にわたる数学と音楽の相互作用の歴史を詳細に追跡する。
執筆者注:本稿は、数学と音楽の2500年にわたる相互作用を概観したものである。各時代、各トピックについては、さらに深い専門的研究が存在する。参考文献リストは、さらなる学習の出発点として活用されたい。また、現代のAI音楽生成技術は急速に進歩しており、本稿執筆時点(2025年)の最新動向は、すぐに更新される可能性がある。
ピタゴラスの発見と音階の数学的基礎
紀元前6世紀、ピタゴラス(Pythagoras, c. 570-495 BCE)とその学派は、音楽における協和音程が単純な整数比によって表現できることを発見した。この発見の革命的意味は、それまで熟練した音楽家の経験と直感に基づく技芸であった音楽に、初めて体系的な数学的理論をもたらした点にある。
協和音程と不協和音程:
協和音程(consonance)とは、2つの音を同時に鳴らしたとき、調和して美しく響く音程のこと。耳に心地よく、安定した感じがする。古代ギリシャでは、完全1度(同じ音)、完全8度(オクターブ)、完全5度、完全4度が完全協和音程とされた。
不協和音程(dissonance)とは、2つの音を同時に鳴らしたとき、ぶつかり合って緊張感や不安定さを生む音程のこと。必ずしも「悪い」わけではなく、音楽に動きや表現の幅を与える重要な要素。ただし、当時は協和音程こそが「美しい音楽」の基準だった。
なぜある音程は協和的で、ある音程は不協和なのか?この問いは、2000年以上にわたって音楽理論と数学の中心的テーマであり続けた。
ピタゴラス学派は「万物は数である」という哲学を掲げており、宇宙のあらゆる現象を数学的関係で説明しようとした。音楽もその例外ではなく、美しく調和した音程の背後に数学的法則があるはずだと考えたのである。伝説によれば、ピタゴラスは鍛冶屋の前を通りかかった際、異なる重さのハンマーが鉄床を打つ音が協和音程を形成していることに気づいた。聴覚的に「美しい」と感じられる音程に客観的・数学的な根拠があるという直感から、彼は主観的な「美」の背後に普遍的な数学的真理が隠されていると信じ、弦の長さと音高の関係を体系的に調査した。
ピタゴラス音階の基本原理:
ピタゴラスは、モノコード(単弦琴)を用いて以下の関係を実証的に確立した:
- オクターブ(完全8度): 弦長比 1:2(周波数比 2:1)
- 完全5度: 弦長比 2:3(周波数比 3:2)
- 完全4度: 弦長比 3:4(周波数比 4:3)
これらの比率は、当時「完全協和音程」と見なされ、音楽の基礎を形成した。
音楽用語の補足説明:
音程(インターバル)とは、2つの音の高さの隔たりのこと。音階の階段を何段上がるかで数える。
「度」は音程の単位。ド(1度目)から数えて、レは2度、ミは3度、ファは4度、ソは5度、ラは6度、シは7度、次のドは8度(オクターブ)となる。つまり「5度」とは、音階で5番目の音までの距離を意味する。例えば、ドから数えてソまでが完全5度。
「完全」という言葉は、その音程が純粋な整数比で表現でき、極めて協和的(調和して美しく響く)であることを示す。完全協和音程には、完全1度(同じ音)、完全4度、完全5度、完全8度(オクターブ)がある。これらは古代から「完璧な調和」として認識されてきた。
オクターブ(完全8度)は、音階で8番目の音までの距離。周波数がちょうど2倍の関係にある2つの音で、「ド」の1オクターブ上も「ド」と呼ばれる。人間の耳には「同じ音の高い版」として聞こえる特別な関係。ラテン語の「octo(8)」が語源。
周波数とは、音波が1秒間に振動する回数のこと。単位はHz(ヘルツ)。例えば、440Hzは1秒間に440回振動する音で、現代の標準的な「ラ」の音。周波数が高いほど音は高く聞こえる。
ピタゴラス学派は、完全5度を12回積み重ねることで音階を構築する方法を開発した。オクターブ(2:1)の次に単純な整数比である完全5度(3:2)が、最も協和的に聞こえる音程だったため、単純な整数比ほど「美しい」という彼らの哲学に基づけば、5度から音階を構築するのが自然な選択だった。
音階と12音について:
音階(スケール)とは、オクターブ内に配列された音の集まり。階段のように順番に並んだ音の列。西洋音楽では、1オクターブを12の半音に分割した「12音階」が基礎となっている。
12音とは、1オクターブを12等分した音のこと。ピアノの鍵盤では、白鍵7つと黒鍵5つで合計12の音。これが西洋音楽の基本的な「音のパレット」となる。ド、ド♯(レ♭)、レ、レ♯(ミ♭)、ミ、ファ、ファ♯(ソ♭)、ソ、ソ♯(ラ♭)、ラ、ラ♯(シ♭)、シの12音。
ピタゴラス学派がこの12という数字にたどり着いたのは、完全5度を積み重ねていくと、12回目でほぼ元の音のオクターブ上に戻るという数学的な性質による。ただし、「ほぼ」であって「完全に」ではないところに問題があった。
この手法は「ピタゴラス音律」として知られ、具体的には基音の周波数をfとすると、5度上の音はf × (3/2)となる。この操作を繰り返し、結果をオクターブ内に収めることで、12音からなる音階を生成する。しかし、ここで深刻な数学的矛盾が露呈した。12回の完全5度の積み重ねは(3/2)^12 = 531441/4096 ≈ 129.746となり、7オクターブ2^7 = 128とわずかに一致しない。この差は「ピタゴラスコンマ」と呼ばれ、約23.5セントの音程差を生じる。
この微小な差は、音楽が単旋律中心であった古代ギリシャでは理論上の問題に過ぎなかった。しかし、中世以降、複数の声部が同時に鳴る多声音楽が発展すると、この数学的矛盾は実践的な調律問題として顕在化する。純粋な5度を維持したまま、すべての音程を協和的に保つことが数学的に不可能であることが判明したのである。これが、その後1500年以上にわたる調律理論研究の出発点となった。
単旋律音楽と多声音楽:
単旋律音楽(モノフォニー)とは、1つのメロディーだけで構成される音楽。伴奏も和音もなく、ただ1つの旋律線だけが進行する。古代ギリシャの音楽や、中世初期のグレゴリオ聖歌が代表例。
多声音楽(ポリフォニー)とは、複数の独立したメロディーが同時に進行する音楽。中世後期から発展し、ルネサンス期に全盛を迎えた。複数の声部が重なり合うため、それぞれの声部間の音程関係(和声)が重要になる。
単旋律音楽では、音階の各音が順番に鳴るだけなので、わずかな音程のズレは問題にならなかった。しかし、多声音楽では、異なる高さの音が同時に鳴るため、音程のズレが「濁り」や「不協和」として明確に聞こえてしまう。これがピタゴラスコンマが実際の問題として認識されるようになった理由。
具体例:ピタゴラスコンマの計算
完全5度を12回積み重ねた場合:
(3/2)^12 = 129.746...
7オクターブ上の音:
2^7 = 128
その差:
129.746/128 = 1.01364... ≈ 23.46セント
この微小な差が、後世の調律法研究の出発点となった。
プラトン(Plato, 428-348 BCE)は、ピタゴラス学派の音楽理論を哲学的宇宙論へと拡張した。彼の哲学体系において、現実世界は完全なイデア界の不完全な模倣である。もし地上の音楽が数学的比例によって調和しているなら、より完全な天界はさらに完璧な数学的調和を体現しているはずだという論理である。これは、「小宇宙(人間)」と「大宇宙(天体)」が同じ原理によって統治されているという、古代の普遍的世界観を反映している。
彼の著作『国家』第10巻において、「天球の音楽(Musica universalis)」という概念が提示される。これは、天体の運動が数学的比例関係によって調和し、一種の音楽的協和を生み出すという思想である。プラトンによれば、私たちがこの「天球の音楽」を聞くことができないのは、生まれた時からずっとこの音を聞き続けているため、対比となる沈黙を知らず、音として認識できないからである。
プラトンの対話篇『ティマイオス』では、宇宙の創造における数学的比例が詳細に論じられる。世界霊魂は数学的比例に従って構成され、その比例関係は音楽の協和音程と同一であるとされた。具体的には、1, 2, 3, 4, 8, 9, 27という数列が用いられ、これらは完全5度(3:2)、完全4度(4:3)、全音(9:8)といった音楽的音程を生成する。この思想が2000年以上も影響力を持ち続けた背景には、宇宙が無秩序ではなく、理性によって理解可能な数学的秩序を持つという希望があった。この思想は、ケプラーの『世界の調和』(1619年)に至るまで、西洋思想の基盤であり続けた。
ピタゴラス学派の数学的音楽理論に対して、アリストクセノス(Aristoxenus, c. 375-335 BCE)は重要な批判を展開した。彼はアリストテレスの弟子として、師の経験主義哲学を音楽理論に適用しようとした。アリストテレスが「認識はすべて感覚経験から始まる」と主張したように、アリストクセノスは「音楽理論は抽象的な数学ではなく、実際の聴覚経験に基づくべきだ」と考えたのである。
彼の著作『ハルモニア原論』における主張の背景には、実践と理論の乖離という具体的な問題があった。ピタゴラス学派の理論では、例えば全音(9:8の比)を2つ重ねても純正な長3度(5:4の比)にならない。数学的には(9/8)² = 81/64 ≠ 5/4であり、計算上は正しい。しかし、実際に音楽を演奏する際、熟練した音楽家は耳で調整し、数学的に「正しくない」音程でも聴覚的に満足のいく演奏を行っていた。アリストクセノスが問題視したのは、まさにこの実践と理論の乖離だった。
アリストクセノスは、音程を連続的な量として捉え、オクターブを6つの全音に等分割することを提案した。この提案が革命的だったのは、音程を離散的な整数比ではなく、連続的な量として扱う最初の試みだったからである。この考え方は、約2000年後の平均律の思想を先取りするものであった。平均律では、オクターブを12の等しい半音に分割するが、その背後にある「音程を等分割する」という発想は、アリストクセノスに端を発している。
この論争が今日まで重要である理由は、音楽理論における「数学的厳密さ」と「聴覚的・実践的妥当性」という、現代に至るまで続く根本的な緊張関係の起源だからである。どちらが正しいかという二者択一の問題ではなく、音楽を理解する上で両方の視点が必要であることを、この論争は示している。
古代ギリシャ期のまとめ:
ピタゴラス学派は音楽の協和音程を整数比で表現し、音楽理論の数学化の基礎を築いた。しかし、ピタゴラスコンマという数学的矛盾も明らかになった。プラトンは音楽的調和を宇宙論へと拡張し、アリストクセノスは経験主義的立場から数学的還元主義を批判した。この時期に、音楽理論における数学の役割と限界という、その後2000年以上にわたって議論される主要テーマが確立された。
中世:理論化と体系化の時代
ローマの哲学者ボエティウス(Anicius Manlius Severinus Boethius, c. 480-524)は、古代ギリシャの音楽理論を中世ヨーロッパに伝える決定的な役割を果たした。彼が活動した6世紀初頭は、西ローマ帝国が崩壊し、ギリシャ語文献へのアクセスが西ヨーロッパで急速に失われつつあった時期である。ボエティウスがギリシャの知識をラテン語で体系化していなければ、ピタゴラスやプラトンの音楽理論は中世ヨーロッパでは失われていた可能性が高い。
彼の著作『音楽教程(De institutione musica)』は、中世を通じて音楽理論の標準的教科書として用いられた。この本が1000年以上も権威を保ち続けた理由は、ボエティウスが音楽を単なる娯楽ではなく、宇宙の秩序を理解するための学問として位置づけたことにある。中世の大学では、音楽は自由七科の一つとして必修科目であり、『音楽教程』はその教科書だった。音楽を学ぶことは、神が創造した宇宙の調和を理解することであり、したがって神学的にも重要だと考えられたのである。
ボエティウスは音楽を三つのカテゴリーに分類した。この三分類の背景には、キリスト教的世界観において、すべての現象を階層的に配置する必要性があった。
ボエティウスの音楽三分法:
- 世界の音楽(Musica mundana): 天体の運行や季節の変化など、宇宙的調和。神が直接創造した完全な秩序として最上位に位置づけられた。
- 人間の音楽(Musica humana): 身体と精神の調和、健康状態。神の似姿である人間は、不完全ながら宇宙の調和を内包するとして中間に位置づけられた。
- 器楽の音楽(Musica instrumentalis): 実際に演奏される音楽。人間が作る不完全な模倣に過ぎず、上位2つの調和を反映するに過ぎないとして最下位に位置づけられた。
この階層は、プラトンのイデア論を反映している。実際の音楽演奏は、より高次の調和の「影」に過ぎないという考え方である。
ボエティウスは、ピタゴラス音律の数学的基礎を詳細に解説し、音程の比率計算方法を体系化した。彼が実践的な演奏技術ではなく、数学的理論に重点を置いた背景には、当時の哲学における認識論がある。真の知識は感覚(演奏)ではなく理性(数学)によって得られると考えられていたのである。彼の著作により、音楽は自由七科の一つとして、算術、幾何、天文学とともに「四科(Quadrivium)」を構成することになった。この位置づけは、音楽を実践的技術ではなく、数学的学問として扱う中世の伝統を確立した。
グイード・ダレッツォと記譜法の革新
11世紀の修道士グイード・ダレッツォ(Guido d'Arezzo, c. 991-1033)は、音楽記譜法において画期的な革新を行った。当時、グレゴリオ聖歌の伝承は完全に口頭伝承に依存しており、聖歌隊員が全ての聖歌を暗記するには10年以上かかるとされていた。各修道院で聖歌の旋律が微妙に異なり、統一性が失われつつあった。教皇庁は、全キリスト教世界で統一された典礼音楽を確立する必要に迫られていたのである。
彼は四線譜を考案し、音高を視覚的に正確に表現する方法を確立した。それ以前のネウマ記譜法は、旋律の大まかな動き(上昇・下降)を示すだけで、正確な音程は示せなかった。つまり、すでにメロディーを知っている人の記憶を補助する道具に過ぎなかった。グイードの四線譜は、メロディーを知らない人でも、譜面だけから正確な音高を読み取れる世界初の記譜法だったのである。
さらに重要なことに、彼はソルミゼーション(階名唱法)の体系を開発した。それまで、音を教えるには実際にその音を鳴らして聞かせる必要があった。しかし、ソルミゼーションによって、音程の関係性を言葉(ウト、レ、ミ...)で表現できるようになった。これは、音楽を「聴覚的な現象」から「概念的・言語的に扱える対象」へと変換する革新だった。
これは聖ヨハネ賛歌「Ut queant laxis」の各行の開始音を用いて、6音階(ヘクサコード)の各音に名前を付けるものであった:
Ut queant laxis (ウト)- 現在のド
Resonare fibris (レ)
Mira gestorum (ミ)
Famuli tuorum (ファ)
Solve polluti (ソル)
Labii reatum (ラ)
この体系は、音楽教育における暗記と視唱を劇的に改善した。グイード自身の記述によれば、彼の方法により、聖歌の学習期間が10年から1年へと短縮されたという。これは10倍の効率化であり、教育革命と呼ぶにふさわしい。グイードの革新は、音楽理論と実践の橋渡しとして機能し、音楽知識の伝達効率を大幅に向上させた。数学的に厳密な音程関係を、実用的な教育システムへと変換した点で、彼の貢献は極めて重要である。
中世後期の多声音楽と比例記譜法
13世紀から14世紀にかけて、多声音楽(ポリフォニー)の発展に伴い、リズムと音価の数学的表現が重要になった。アルス・アンティクア期のフランコ・ケルン(Franco of Cologne, 活動期13世紀後半)は、『計量音楽論(Ars cantus mensurabilis)』において、音符の長さを数学的に定義する計量記譜法を確立した。彼のシステムでは、ロンガ(長い音符)、ブレヴィス(短い音符)、セミブレヴィス(より短い音符)の相対的長さが、完全律(3:1の比)または不完全律(2:1の比)によって規定された。
14世紀のアルス・ノヴァ期には、フィリップ・ド・ヴィトリ(Philippe de Vitry, 1291-1361)とギヨーム・ド・マショー(Guillaume de Machaut, c. 1300-1377)によって、さらに複雑なリズム体系が開発された。彼らは、異なる声部が異なるメンスーラ(拍子)で進行することを可能にし、数学的比例関係による複雑なポリリズムを実現した。例えば、ある声部が3拍子で進行する間に、別の声部が2拍子で進行するといった構造が用いられた。
中世音楽理論の主要な発展:
11世紀
グ
イード・ダレッツォの四線譜とソルミゼーション
ルネサンス:調律の探求と対数の誕生
ルネサンス期になると、多声音楽の発展により、ピタゴラス音律の限界がより明確になった。中世の音楽は、主に完全5度と完全4度を重視するオルガヌム(平行オルガヌム)が中心だった。ピタゴラス音律では5度は純正なので、中世音楽には適していた。しかし、ルネサンスでは3度の音程を含む完全な3和音(ド-ミ-ソ)が音楽の基礎となった。ここで深刻な問題が露呈する。
音程の種類についての補足:
長3度とは、音階で3番目までの距離のうち、広い方の3度。例えば、ドからミまでが長3度。「長」は「広い」という意味。
短3度とは、狭い方の3度。例えば、ミからソまでが短3度。「短」は「狭い」という意味。
半音は、西洋音楽で最も小さい音程の単位。ピアノの鍵盤で隣り合う鍵(白鍵と黒鍵を含む)の距離。例:ドとド♯、ミとファ。
全音は、半音2つ分の距離。例:ドとレ、レとミ。
セントは音程を測る単位。1オクターブを1200等分したもの。半音は100セント。人間の耳は約5〜10セントの差を聞き分けられるとされる。音程のズレを客観的に数値化できる便利な単位。
3和音(トライアド)とは、3つの音を同時に鳴らす和音。基本形は、根音(ベース)+ 長3度上の音 + 完全5度上の音。例えば、ド・ミ・ソ。ルネサンス以降の西洋音楽の基礎となった。
ピタゴラス音律では、長3度の音程比が81:64(約407.8セント)となり、純正な長3度5:4(386.3セント)から大きく外れていた。この差は約21.5セントあり、「シントニックコンマ」と呼ばれる。約20セントの差は、一般的な聴衆でも明確に「外れている」と感じる大きさである。ルネサンスの作曲家たちが追求した美しい3和音の響きは、ピタゴラス音律では実現不可能だったのである。
この問題に対処するため、15世紀から16世紀にかけて、「純正律(Just Intonation)」が理論的に整備された。「純正律」という名前は、主要な音程がすべて「純正な」整数比、つまりピタゴラス学派が理想としたシンプルな比で表現されることに由来する。純正律では、主要な3和音(トニック、ドミナント、サブドミナント)が純粋な整数比で構成されるよう調律される。
調律と和声に関する用語:
調律とは、楽器の各音の高さ(ピッチ)を設定すること。ピアノでいえば、88個の鍵盤それぞれの音の高さをどのように決めるかという問題。単に「正確な音程」というだけでなく、すべての音程の関係をどう調整するかという数学的・音楽的問題。
調(キー)とは、音楽の中心となる音とその音階。例えば「ハ長調」はドを中心とする明るい音階、「イ短調」はラを中心とする暗い音階。西洋音楽では24の調(長調12、短調12)が存在する。
転調とは、曲の途中で調を変えること。例えば、ハ長調で始まった曲がト長調に移る。転調により音楽に変化や深みが生まれるが、調律によっては転調先の調で音が外れる問題が発生する。
トニックは、その調の主音(中心となる音)の和音。ハ長調なら「ド・ミ・ソ」。
ドミナントは、主音から完全5度上の音の和音。ハ長調なら「ソ・シ・レ」。トニックに戻りたい緊張感を生む。
サブドミナントは、主音から完全4度上(または5度下)の音の和音。ハ長調なら「ファ・ラ・ド」。ドミナントへの橋渡しをする。
これら3つの和音は、西洋音楽の和声進行の基礎となる「三大和音」。
| 音程 |
周波数比(純正律) |
周波数比(ピタゴラス音律) |
差(セント) |
| 長3度 |
5:4 |
81:64 |
21.5 |
| 短3度 |
6:5 |
32:27 |
-21.5 |
| 完全5度 |
3:2 |
3:2 |
0 |
しかし、純正律には致命的な数学的矛盾があった。すべての調で純正な和音を得ることは数学的に不可能である。その理由は、ピタゴラスコンマとシントニックコンマという2つの異なる「ずれ」が存在するためである。ある調で長3度を純正(5:4)に調律すると、別の調では完全5度が純正(3:2)からずれてしまう。数学的には、2, 3, 5という3つの素数を同時に満たす整数比の系列は存在しないのである。
特定の調(例えばハ長調)では美しく響くが、転調すると「狼の5度(wolf fifth)」と呼ばれる極端に外れた音程が生じてしまう。この音程があまりに不協和で、オオカミの遠吠えのように聞こえることから、この名がついた。この問題は、調性音楽の発展、特に自由な転調を伴う音楽にとって大きな障害となった。作曲家たちは美しい響き(純正律)を取るか、調の自由(転調可能性)を取るかというジレンマに直面した。このジレンマの解決が、次の300年間の調律理論研究の中心課題となったのである。
16世紀には、純正律とピタゴラス音律のジレンマを解決するため、様々な「中全音律(Meantone temperament)」が開発された。「中全音」という名前の由来は、この調律法では全音(whole tone)が文字通り長3度の「中間(mean)」に配置されることにある。つまり、2つの全音を足すと、正確に純正な長3度になるよう設計されている。
この妥協案の基本的アイデアは、ピタゴラス音律では5度が完璧だが3度が外れる、純正律では特定の3度が完璧だが他の音程が外れる、という問題に対して、「5度を少しだけ狭くすることで、3度を純正に近づける」という発想である。つまり、完璧は諦めて、実用的な妥協点を探ったのである。
最も一般的な1/4コンマ中全音律では、完全5度をわずかに狭くすることで、主要な長3度を純正に保った。具体的には、4つの完全5度の積がちょうど長3度の2オクターブ上(周波数比5:1)になるよう調整する:
(3/2 - ε)^4 = 5
この条件から、5度の調整量εを計算すると、各5度はピタゴラス5度より約5.4セント狭くなる。「1/4コンマ」という名称は、シントニックコンマ(約21.5セント)を4つの5度で均等に分担するからである。各5度が5.4セント(≈21.5/4)ずつ狭くなることで、4つの5度を重ねたときに生じる長3度が、ちょうどシントニックコンマ分だけ狭くなり、純正な5:4の比になるのである。
中全音律の数学的導出:
1/4コンマ中全音律の完全5度の周波数比をrとすると:
r^4 = 5
r = 5^(1/4) ≈ 1.49535
これは、ピタゴラス5度(3/2 = 1.5)より約0.33%狭い。セントで表すと:
1200 × log₂[5^{1/4}] ≈ 696.6セント
純正5度(約702セント)より約5.4セント狭くなる。
この調律法の実用性は高く、16世紀から18世紀初頭まで、中全音律は鍵盤楽器の標準的調律法として広く用いられた。主要な調(♭や♯が少ない調)では、ルネサンスやバロック初期の作曲家が求めた美しい3和音の響きを実現できた。しかし、遠隔調(♭や♯が多い調)では依然として「狼の5度」が残り、自由な転調には限界があった。それでも200年以上使われ続けた理由は、当時の音楽のほとんどが限られた調域内で作曲されており、その範囲内では中全音律は純正律に匹敵する美しさを持ちながら、より多くの調で使用可能だったからである。
ジョサカンと数学的構造
ルネサンスの作曲家ジョサカン・デ・プレ(Josquin des Prez, c. 1450-1521)は、音楽作品に数学的構造を組み込むことで知られる。彼のミサ曲や世俗曲には、カノン技法、反行形、逆行形、拡大・縮小といった、幾何学的変換に相当する音楽的操作が巧みに用いられている。
例えば、彼のミサ「ラ・ソル・ファ・レ・ミ」は、そのタイトル通り、5つの音(ラ-ソ-ファ-レ-ミ)を主題音型として用い、これを様々な声部、速度、音程で変形させながら全曲を構成している。この手法は、数学的な「主題と変奏」の原理を音楽に適用したものと解釈できる。
マラン・メルセンヌ(Marin Mersenne, 1588-1648)は、音楽理論を実験的・数学的に研究した先駆者である。彼の著作『世界調和論(Harmonie universelle)』(1636-1637)では、弦の振動に関する体系的な実験結果が報告されている。メルセンヌは、弦の振動数が以下の要因に依存することを定量的に示した:
- 弦の長さに反比例
- 弦の張力の平方根に比例
- 弦の線密度の平方根に反比例
これは、振動する弦の基本周波数が次の式で表されることを意味する:
f = (1/2L) × √(T/μ)
ここで、Lは弦の長さ、Tは張力、μは線密度である。メルセンヌの研究は、音響学を経験則の集積から、数学的法則に基づく科学へと転換させる重要な一歩であった。
ルネ・デカルト(René Descartes, 1596-1650)は、若き日に『音楽提要(Compendium musicae)』(1618年執筆、1650年出版)を著し、音楽理論の数学的基礎を論じた。デカルトは、音楽の美しさは「比例の単純さ」に由来すると主張し、協和音程を整数比の単純さの順に序列化した。彼の分析は、音楽美学を数学的原理から演繹しようとする、合理主義的アプローチの典型であった。
デカルトはまた、音の高さが空気の振動数に対応することを明確に述べた最初期の理論家の一人であり、この洞察は後の音響学の発展に重要な貢献をした。
バロック・古典派:平均律への道と数学的作曲技法
ヴェルクマイスターとキルンベルガーの調律理論
17世紀後半から18世紀にかけて、鍵盤音楽のレパートリーが拡大し、全ての調で演奏可能な調律法の必要性が高まった。アンドレアス・ヴェルクマイスター(Andreas Werckmeister, 1645-1706)は、この課題に取り組んだ重要な理論家である。彼は1691年の著作において、複数の「良い調律(well temperament)」を提案した。
ヴェルクマイスターIII調律法では、12の5度のうち4つをピタゴラスコンマの1/4だけ狭くし、残り8つは純正5度のままとする。これにより、すべての調が使用可能となるが、各調は独自の「性格」を持つ。具体的には、C-G、G-D、D-A、B-F♯の4つの5度を狭くすることで、全体のピタゴラスコンマを分散させる。
ヴェルクマイスターIII調律の構造:
12の完全5度を以下のように調律:
- 4つの5度: ピタゴラス5度より1/4コンマ狭い(約696セント)
- 8つの5度: 純正5度(約702セント)
この配分により、12回の5度の循環が正確に7オクターブに一致する。
ヨハン・フィリップ・キルンベルガー(Johann Philipp Kirnberger, 1721-1783)は、バッハの弟子として、さらに洗練された不等分調律を提案した。キルンベルガーIII調律では、純正長3度とシントニックコンマの分散を巧みに組み合わせ、主要調の和音の響きを改善しつつ、すべての調での演奏を可能にした。
ヨハン・セバスティアン・バッハ(Johann Sebastian Bach, 1685-1750)の『平均律クラヴィーア曲集』第1巻(1722年)と第2巻(1742年)は、全24調(長調と短調各12)のプレリュードとフーガからなる。この作品の原題は「Das Wohltemperirte Clavier」、つまり「よく調律されたクラヴィーア」である。これは、12平均律または良い調律(well temperament)の実用性を実証するための作品だった。
音楽形式の用語:
プレリュード(前奏曲)は、自由な形式の導入的な楽曲。聴き手を次に来る音楽(フーガ)の雰囲気に導く役割。
フーガは、1つの短い主題(メロディー)を複数の声部が次々と模倣しながら展開していく、高度に構造化された楽曲形式。数学的な厳密さと音楽的な美しさが融合した、バロック音楽の最高峰。
対位法(カウンターポイント)は、複数の独立したメロディーを同時に進行させる作曲技法。各声部が独自のリズムとメロディーを持ちながら、全体として調和する。これは数学的なパズルのようなもので、すべての声部が音楽的に意味を持ちながら、同時に美しい和声を形成しなければならない。
長調と短調は、音楽の明るさ・暗さを決める音階の種類。長調は明るく楽しげ、短調は暗く悲しげな印象を与える。12の音それぞれから長調と短調を作ると、24の調ができる。
18世紀初頭、音楽家たちの間では調律法をめぐる激しい論争があった。保守派は「純正な3度の美しさ」を保持する中全音律を支持し、革新派は「全ての調での演奏可能性」を実現する平均律を主張した。多くの音楽家は、平均律の3度は「不純」で受け入れがたいと感じていた。バッハの曲集は、この論争に対する実践的な回答だった。「すべての調で美しい音楽が書けるなら、多少の不純さは許容できる」というメッセージである。
バッハの音楽には、数学的構造が深く埋め込まれている。バッハは敬虔なルター派信徒であり、神の創造した宇宙の秩序を音楽で表現しようとした。数学的構造は、神の理性の反映と考えられていた。例えば、『フーガの技法』では、主題の反行、逆行、拡大、縮小、二重対位法といった、数学的変換に対応する技法が体系的に用いられる。
特に、最後の未完のフーガでは、B-A-C-H(ドイツ音名でシ♭-ラ-ド-シ)という音型が主題に組み込まれており、作曲家の署名として機能している。これは単なる署名ではなく、「作曲家自身も神の創造の一部である」という神学的メッセージである。人間の創造性も、神から与えられた秩序の中で機能するという、バロック期の世界観を反映している。
12平均律の数学的基礎
12平均律(12-TET)とは:
12平均律は、1オクターブを数学的に完全に12等分する調律法。現代のピアノ、ギター、オーケストラなど、ほぼすべての西洋楽器で使用されている標準的な調律方法。
「平均」の意味: すべての半音の間隔が完全に等しい(平等・均等)ことを指す。英語では「Equal Temperament(等分調律)」と呼ばれる。
革命的な点:
- どの調で演奏しても同じ音程関係が得られる → 自由な転調が可能
- すべての調が「平等」に使える → 24の調(長調12、短調12)すべてで作曲可能
- 楽器を一度調律すれば、どんな曲でも演奏可能
妥協点: 純正な整数比から全ての音程がわずかにズレる。しかし、そのズレは非常に小さい(数セント)ため、ほとんどの人は気づかない。
12平均律(12-tone equal temperament)は、オクターブを数学的に厳密に12等分する調律法である。各半音の周波数比は、オクターブの12乗根となる:
r = 2^(1/12) ≈ 1.059463094359...
「平均律」という名前は、すべての半音が「平等(equal)」であることに由来する。ピタゴラス音律や中全音律では、半音にも「大きい半音」と「小さい半音」があったが、平均律ではすべての半音が完全に同じ比率である。
この値は無理数であり、どの音程も純正な整数比ではない。しかし、完全5度の誤差がわずか約2セントと、人間の聴覚の弁別閾値以下だったため、無理数でも受け入れられた。完全5度は2^(7/12) ≈ 1.498307となり、純正5度3/2 = 1.5との差はわずか約2セントであり、聴覚上ほぼ区別できない。
| 音程 |
12平均律(セント) |
純正律(セント) |
差(セント) |
| 完全5度 |
700 |
701.96 |
-1.96 |
| 長3度 |
400 |
386.31 |
+13.69 |
| 短3度 |
300 |
315.64 |
-15.64 |
| 完全4度 |
500 |
498.04 |
+1.96 |
12平均律の最大の利点は、すべての調が数学的に等価であり、自由な転調が可能なことである。それまでの調律法では、調ごとに「性格」があり、ある調は明るく、ある調は暗く聞こえた。しかし平均律では、すべての調が同じ音程関係を持つため、「調の平等」が実現した。これにより、ベートーヴェンやショパンのような、遠隔転調を多用する19世紀ロマン派音楽が可能になったのである。
しかし、長3度と短3度は純正律から比較的大きく外れており、この「不純さ」は19世紀まで批判の対象となり続けた。それでも批判されながらも普及した理由は、音楽の複雑化と転調の自由が、和音の純粋さよりも重要になったからである。作曲家たちは、より表現豊かな音楽のために、若干の音響的純粋さを犠牲にすることを選んだのである。
ラモーと和声理論の数学的基礎
ジャン=フィリップ・ラモー(Jean-Philippe Rameau, 1683-1764)は、『和声論(Traité de l'harmonie)』(1722年)において、和声進行の原理を数学的・物理学的基礎から導出しようと試みた。ラモーは、すべての和音が「基底音(fundamental bass)」を持ち、和声進行の論理は基底音の動きによって説明できると主張した。
ラモーの理論の核心は、「倍音列(harmonic series)」の発見にある。彼は、振動する弦が基音だけでなく、その整数倍の周波数を持つ倍音も同時に発することを指摘した。倍音列の最初の数項は:
f, 2f, 3f, 4f, 5f, 6f, 7f, 8f, ...
これを音程で表すと、基音からオクターブ、5度、4度、長3度...という協和音程が現れる。ラモーは、長3和音(ド-ミ-ソ)が倍音列の4番目、5番目、6番目の音(比率4:5:6)に対応することを指摘し、長3和音の「自然さ」を物理学的に説明しようとした。
注:ラモーの
倍音列理論は、後の音響学によって部分的に修正されたが、和声進行を自然現象から説明しようとする試みは、
音楽理論における重要な
パラダイムシフトであった。
19世紀:フーリエ解析と音響学の数学的革命
ジョゼフ・フーリエ(Joseph Fourier, 1768-1830)の『熱の解析的理論(Théorie analytique de la chaleur)』(1822年)は、音響学にとって革命的意義を持つ数学的成果を含んでいた。熱に関する論文が音楽に影響した理由は、フーリエの発見が数学的には熱伝導の問題を解くためのものだったが、その本質は「複雑な波形を単純な正弦波の和として表現する」という普遍的な数学的手法だったからである。この手法は、熱だけでなく、音波、光波、あらゆる波動現象に適用できる。
フーリエは、任意の周期関数が正弦波の和として表現できることを示した。正弦波とは、最も単純な波の形で、サインカーブ(sin曲線)を描く波である。音で言えば、純音(チューニングに使う「ピー」という音)が正弦波に相当する。この「フーリエ級数展開」は、複雑な音波を単純な正弦波成分に分解する数学的基礎となった。
この発見が画期的だった理由を理解するために、具体例で考えてみよう。フルートとヴァイオリンが同じ音高(例えば「ド」)を奏でても「音色が違う」理由は、経験的には誰もが知っていた。しかし、数学的には説明できなかった。フーリエ理論により、初めて音色を客観的・定量的に記述できるようになったのである。
音波の波形f(t)は、フーリエ級数として次のように展開される:
f(t) = a₀ + Σ[aₙ cos(nωt) + bₙ sin(nωt)]
ここで、ω = 2πf₀は基本角周波数(基音の周波数に関係する値)であり、係数aₙ、bₙは各倍音成分の振幅(大きさ)を表す。倍音とは、基音の整数倍の周波数を持つ音のことである。例えば、基音が440Hz(ラの音)なら、第2倍音は880Hz、第3倍音は1320Hz...となる。
この式の意味を日常的な言葉で説明すると、どんなに複雑な音でも、それは基音(f₀)とその整数倍の周波数を持つ倍音(2f₀, 3f₀, 4f₀,...)の重ね合わせとして表現できるということである。料理に例えれば、複雑な味は基本的な味(塩味、甘味、酸味など)の組み合わせとして理解できるようなものである。
この数学的枠組みにより、音色(timbre)の概念が科学的に理解可能になった。同じ基音を持つ楽器でも、倍音成分の相対的強度が異なるため、異なる音色として知覚される。フルートは柔らかく、ヴァイオリンは明るく聞こえる理由は、倍音の構成比が異なるからだと、フーリエ理論によって初めて定量的に説明できるようになったのである。
具体例:フルートとヴァイオリンの音色の違い
フルート: 基音と第2倍音が強く、高次倍音は弱い
f(t) ≈ sin(ωt) + 0.3sin(2ωt) + 0.1sin(3ωt) + ...
ヴァイオリン: 多くの倍音成分がバランスよく存在
f(t) ≈ sin(ωt) + 0.5sin(2ωt) + 0.4sin(3ωt) + 0.3sin(4ωt) + ...
このスペクトル構造(倍音の構成)の違いが、両楽器の音色の違いを生み出す。フルートは高次倍音が少ないため「純粋」で「柔らかい」音色となり、ヴァイオリンは多くの倍音を持つため「豊かで」「明るい」音色となる。
ヘルマン・フォン・ヘルムホルツ(Hermann von Helmholtz, 1821-1894)は、『音感覚論(Die Lehre von den Tonempfindungen)』(1863年)において、聴覚の生理学的メカニズムとフーリエ理論を統合した。この統合が重要だった理由は、フーリエが音を数学的に分解する方法を示したものの、「なぜ人間の耳が音色を区別できるのか」という生理学的メカニズムは未解明だったからである。ヘルムホルツは、耳自体が生物学的なフーリエ分析器として機能していることを示したのである。
ヘルムホルツは、内耳の蝸牛(かたつむりのような形をした器官)が周波数分析器として機能し、複雑な音波をその倍音成分に分解して知覚すると提唱した。具体的なメカニズムはこうである。蝸牛内の基底膜には、異なる周波数に共鳴する部位が場所的に配列されている。低い周波数は蝸牛の先端部で、高い周波数は入り口付近で最大振幅を生じる。つまり、物理的な音波の周波数成分が、基底膜上の位置情報に変換されるのである。これはピアノの鍵盤に似ている—左側の鍵盤は低い音、右側の鍵盤は高い音に対応するように、基底膜も周波数によって場所が決まっている。
この「共鳴理論」は、聴覚を数学的スペクトル分析(周波数成分への分解)の生物学的実装として理解する基礎となった。音楽理論にとって重要な理由は、「協和」と「不協和」という主観的に思える音楽的概念が、実は客観的な生理学的基盤を持つことを示したからである。
ヘルムホルツはまた、協和と不協和の現象を、倍音の相互作用によって説明した。2つの音が協和するのは、それらの倍音列が多くの共通成分を持つ場合であり、不協和は倍音間の「うなり(beat)」によって生じると説明した。
うなりが不協和を生む理由を理解するために、まずうなりとは何かを見てみよう。周波数がわずかに異なる2つの正弦波が同時に鳴ると、その差の周波数で振幅が変動する「うなり」が生じる。例えば、440Hzと442Hzの音を同時に鳴らすと、1秒間に2回(442-440=2Hz)、音が大きくなったり小さくなったりする現象である。
このうなりの現象は数式で次のように表現できる:
sin 2πf₁t + sin 2πf₂t = 2cos[π·Δf·t] × sin[π·Σf·t]
※ Δf = f₁ - f₂(差音)、Σf = f₁ + f₂(和音)
差音Δf が約20〜30Hzを超えると不快な「粗さ(roughness)」として知覚され、これが不協和の原因となる。この範囲が臨界である理由は、人間の聴覚システムの時間分解能に関係している。約20Hz以下では、うなりは個別のパルス(波打つような感じ)として知覚され、不快感は少ない。約20〜30Hzを超えると、うなりは「粗い」「ざらざらした」音質として知覚され、不協和感が最大になる。さらに高くなると、差音自体が独立した音として知覚され、不協和感は減少する。
ヘルムホルツのこの発見により、ピタゴラス以来2000年以上探求されてきた「なぜある音程は協和的で、ある音程は不協和なのか」という問いに、科学的な答えが与えられたのである。完全5度(周波数比3:2)が協和的に聞こえる理由は、2つの音の倍音列に多くの共通成分があり、うなりが少ないからである。一方、短2度(半音)が不協和的に聞こえる理由は、基音同士が近すぎてうなりを生じ、さらに倍音間でも多くのうなりが発生するからである。
オームとデーヴィスの音響学的発見
ゲオルク・オーム(Georg Ohm, 1789-1854)は、電気のオームの法則で知られるが、音響学にも重要な貢献をした。1843年、彼は「オームの音響学的法則」を提唱し、人間の耳は複雑な音波をその正弦波成分に分解して知覚すると主張した。これは、聴覚がフーリエ分析を実行しているという、現代の聴覚理論の先駆的洞察であった。
また、19世紀後半には、音の強さ(ラウドネス)の知覚が物理的強度の対数に比例するという「ウェーバー=フェヒナーの法則」が音響学に適用された。音の強さをデシベル(dB)で表す慣習は、この対数的知覚特性を反映している:
L = 10 log₁₀(I/I₀) dB
ここで、Iは音の強度、I₀は基準強度(通常、聴覚閾値)である。
19世紀の作曲家と数学的構造
ロマン派の作曲家たちは、必ずしも明示的に数学を意識していたわけではないが、その作品には数学的構造が埋め込まれていることが多い。フレデリック・ショパン(Frédéric Chopin, 1810-1849)のエチュード作品25-11「木枯らし」では、半音階的進行が黄金比的な構造を形成していると分析される。
リヒャルト・ワーグナー(Richard Wagner, 1813-1883)のライトモティーフ(示導動機)技法は、数学的な「関数」の概念に類似している。特定の人物、概念、状況に対応する音楽的動機を定義し、それらを様々な形で変形・組み合わせて楽劇を構築する手法は、抽象的な構造操作として理解できる。
20世紀前半:無調音楽と12音技法
アルノルト・シェーンベルク(Arnold Schoenberg, 1874-1951)は、1920年代初頭に「12音技法(twelve-tone technique)」または「音列技法(serial technique)」を確立した。この革命的な技法が開発された背景には、19世紀後半からの音楽史における大きな危機があった。
ロマン派音楽が頂点に達し、調性音楽の和声的可能性が尽きかけていたという危機感である。19世紀後半、ワーグナーやマーラーは極端な半音階主義を追求した。半音階主義とは、ドからド♯へ、ド♯からレへと、半音ずつ移動する音楽である。通常の長調や短調の音階(全音と半音の組み合わせ)ではなく、12の半音すべてを頻繁に使う。これにより、調性の境界が曖昧になる。しかし、これ以上進めば調性感が完全に崩壊してしまう。シェーンベルク自身も初期には後期ロマン派様式で作曲していたが、1908年頃から「無調音楽」に移行した。
しかし、無調音楽には深刻な問題があった。調性という「重力」を失った音楽は、統一性と構造を保つことが極めて困難だったのである。調性音楽では、主音(トニック)という「中心」があり、そこから離れて戻るという構造が音楽に方向性を与えていた。例えば、ハ長調の曲は「ド」が中心で、他の音はすべて「ド」との関係で意味を持つ。しかし無調音楽では、このような階層的構造がない。どうすれば、特定の音を特権化せずに、しかも統一感のある音楽を作れるのか?この矛盾した要求に答えるために、シェーンベルクは約12年間研究を重ね、12音技法を開発したのである。
この技法は、12の半音を特定の順序に並べた「音列(tone row)」を作品の基礎とし、すべての音が平等に扱われることを保証する。ある音が他の音より頻繁に使われると、その音が「主音」のように機能し、調性感が生じてしまう。12音すべてを等しく使うことで、どの音も特権的地位を持たず、真の「無調性」が達成できると考えたのである。
12音技法の基本原則は:
- 12の半音すべてを含む音列を設定する(同じ音が2回出る前に、12音すべてが1回ずつ出現する)
- 音列は、原型(P)、反行型(I)、逆行型(R)、逆行反行型(RI)の4つの基本形を持つ
- 各基本形は12の移高(transposition、音列全体を上下に移動すること)が可能であり、合計48の音列形が利用可能
- 音列内の音の順序は厳密に守られる
12音技法の数学的構造:
音列は、12個の要素の順列(並べ替えのパターン)として扱える。12音技法で使用される4つの基本変換は、バッハ以来の対位法(複数の旋律を同時に進行させる作曲技法)の伝統的技法を継承している。シェーンベルクは革命的であると同時に、伝統の継承者でもあろうとした。
4つの基本変換を音楽用語で説明すると:
- P (原型): 元の音列そのまま。例: ド-ミ♭-ソ-シ...
- I (反行): 音程の方向を逆にする。上がる音程は下がり、下がる音程は上がる。例: 元の音列が「ド→上に3半音→ミ♭」なら、反行形は「ド→下に3半音→ラ」
- R (逆行): 音列を後ろから読む。例: ド-ミ♭-ソ-シ → シ-ソ-ミ♭-ド
- RI (逆行反行): 反行形を逆行させる(または逆行形を反行させる)
これらの変換は、群論(数学の一分野)におけるクライン四元群K₄と同型である。つまり、12音技法は数学的に厳密な対称性を持つ構造なのである。
シェーンベルクの弟子、アントン・ヴェーベルン(Anton Webern, 1883-1945)は、12音技法をさらに厳格に適用し、極度に凝縮された音楽言語を創造した。彼は、12音技法の数学的可能性を極限まで追求することで、新しい音楽的美学を創造できると信じていた。ヴェーベルンの作品では、音列の対称性や数学的性質が作品構造と密接に関連している。例えば、彼はしばしば対称的な音列(反行形が原型と同じ形になる音列)を用いることで、音楽に鏡のような対称性を与えた。
12音技法は成功したのだろうか?これは議論の余地がある。確かに、調性の枠を超えた新しい音楽言語を確立した。しかし、一般聴衆には受け入れられにくく、「わかりにくい」「無味乾燥」という批判も受けた。理解されにくかった理由は、聴衆が数世紀にわたって慣れ親しんだ調性音楽の聴き方(主音への期待、和声進行の予測など)が、12音音楽では全く通用しないからである。新しい聴き方を学ぶ必要があったのだが、多くの聴衆はその努力を払わなかった。それでも、12音技法は20世紀音楽に計り知れない影響を与え、現代音楽の基盤の一つとなっている。
ベーラ・バルトーク(Béla Bartók, 1881-1945)の音楽には、黄金比φ = (1 + √5)/2 ≈ 1.618に基づく構造が頻繁に見られる。音楽学者エルネー・レンドヴァイ(Ernő Lendvai)は、バルトークの多くの作品において、楽章の長さ、主題の出現位置、形式的転換点などが黄金分割点に配置されていることを指摘した。
具体例:バルトーク『弦楽器、打楽器とチェレスタのための音楽』第1楽章
全89小節のうち:
- クライマックス(最強音): 第55小節 (55/89 ≈ 0.618)
- 形式的中心: 第55小節
- 主題の最高点: フィボナッチ数に対応する位置
また、音程構造においても、増4度(♯4/♭5)が重要な役割を果たし、これは12平均律において黄金比に最も近い音程(6/12 = 0.5、理論的黄金分割点は約7.4半音)である。
バルトークはまた、「軸システム(axis system)」と呼ばれる独自の調性理論を展開した。これは、12の半音を3つの軸(トニック、ドミナント、サブドミナント)を中心に4つのグループに分類し、各グループ内の音を機能的に等価と見なすものである。この体系は、12元素の対称群の部分群として数学的に記述できる。
メシアンとリズムの数学的探求
オリヴィエ・メシアン(Olivier Messiaen, 1908-1992)は、リズムの数学的・理論的探求において独創的な貢献をした。彼の「付加リズム(added rhythms)」、「非可逆リズム(non-retrogradable rhythms)」、「リズム・カノン」などの技法は、数学的な対称性と変換の原理に基づいている。
メシアンの「制約された移調の旋法(modes of limited transposition)」は、群論的構造を持つ。例えば、第1旋法(全音音階)は2回の移高、第2旋法(減7/増4音階)は3回の移高で元に戻る。これらの旋法は、12元環Z₁₂の部分群として理解できる。
また、メシアンは鳥の歌を音楽的に記譜する際に、複雑なリズム構造を数学的に分析し、素数や非整数比のリズムを積極的に用いた。彼の『時の終わりのための四重奏曲』(1941年)では、17拍子、29拍子といった素数拍子が使用され、周期的反復からの逸脱が意図的に追求されている。
20世紀後半:電子音楽とコンピュータ音楽
セリエル音楽の総体化
第二次世界大戦後、シェーンベルクの12音技法は「トータル・セリエリズム(total serialism)」へと発展した。ピエール・ブーレーズ(Pierre Boulez, 1925-2016)、カールハインツ・シュトックハウゼン(Karlheinz Stockhausen, 1928-2007)らは、音高だけでなく、音価(リズム)、強弱、音色、奏法などすべてのパラメータを数列によって組織化しようとした。
ブーレーズの『ストラクチュールIa』(1951-52)は、トータル・セリエリズムの典型例である。この作品では:
すべてのパラメータが厳密な数学的規則に従って構成され、作曲は数列の操作と排列組合せの問題となった。
批評:トータル・セリエリズムは、音楽を完全に数学化しようとする極端な試みであったが、その結果生じた音楽は、しばしば無作為(ランダム)な音楽と聴覚上区別が困難であった。この
パラドックスは、数学的構造と聴覚的知覚の間の複雑な関係を浮き彫りにした。
ヤニス・クセナキス(Iannis Xenakis, 1922-2001)は、建築家であり作曲家でもあり、数学と音楽の融合において最も徹底した実践者の一人であった。第二次世界大戦中にギリシャのレジスタンス運動に参加し、顔面に重傷を負った経験を持つ。戦後、ル・コルビュジエの建築事務所で働きながら作曲を学んだが、彼の経験と工学的訓練は、既存の音楽理論とは根本的に異なる視点を彼に与えた。
クセナキスは、戦闘や暴動の音響体験から、「群衆の音」「多数の個別事象が生み出す全体的効果」に興味を持った。例えば、雨粒が屋根を打つ音、群衆の叫び声、蝉の大合唱—これらは個々の音事象は予測不可能だが、全体としては統計的な秩序を持つ。しかし、従来の音楽理論では、このような「多数の音事象の統計的振る舞い」を扱う方法がなかった。シェーンベルクの12音技法は個々の音を厳密に制御するが、それでは「確率的な雲のような音」は作れない。そこでクセナキスは、確率論と統計力学を音楽に導入したのである。
彼は確率論、ゲーム理論、群論、集合論などの数学的手法を作曲に直接適用した。彼が目指したのは、「個々の音は予測不可能だが、全体としては制御された効果を生む」音楽だった。これは、統計力学が気体分子の運動を扱うのと同じアプローチである。気体の中で個々の分子がどこにあるかは予測できないが、温度や圧力といった全体的な性質は制御できる。クセナキスは、音楽にも同じ考え方を適用したのである。
クセナキスの「確率論的音楽(stochastic music)」では、個々の音事象は確率分布によって決定される。確率分布とは、簡単に言えば「どの結果がどのくらいの確率で起きるか」を示す表のようなものである。例えば、サイコロを振ると1から6のどの目も同じ確率(1/6)で出る—これが「一様分布」である。
クセナキスはオーケストラ作品『メタスタシス』(1953-54)で、グリッサンド(連続的に音高が変化する奏法)の密度と分布をポアソン分布に従わせた:
P(k events in interval t) = (λt)^k × e^(-λt) / k!
ポアソン分布は、ランダムに発生する事象を記述する標準的な確率分布である。例えば、1時間にお店に何人の客が来るか、1日に何件の電話がかかってくるか、といった「ランダムだが、平均的な頻度は決まっている」現象を記述する。クセナキスは、音事象にこの性質を適用することで、「混沌としているが、制御された混沌」を生み出したのである。
また、クセナキスは「マルコフ連鎖」を用いて音列を生成した。マルコフ連鎖とは、「次に何が起きるかは、今の状態だけで決まる」という性質を持つ確率的プロセスである。日常的な例で言えば、天気予報がこれに近い。明日が晴れか雨かは、今日の天気に大きく影響されるが、1週間前の天気はあまり関係ない。同様に、音楽でも次の音は直前の音に影響されるが、10音前の音を厳密には覚えていない。クセナキスは、この「限定的な記憶」を数学的にモデル化したのである。
例えば、ある音から次の音への遷移確率(ある状態から別の状態に移る確率)を表で表現する:
| 現在の音 |
次の音がCである確率 |
次の音がD♯である確率 |
... |
| C |
0.1 (10%) |
0.3 (30%) |
... |
| D♯ |
0.2 (20%) |
0.05 (5%) |
... |
クセナキスは、コンピュータを用いてこれらの確率的プロセスをシミュレーション(模擬実験)し、楽譜を生成した。数千の音事象の確率的生成を手計算で行うのは事実上不可能だったため、コンピュータが必要だった。クセナキスは、1956年にIBMコンピュータにアクセスし、作曲にコンピュータを使用した最初の作曲家の一人となった。
彼の1962年の論文集『形式化された音楽(Formalized Music)』は、数学的作曲理論の古典となっている。この本が重要である理由は、音楽を「芸術的直感」ではなく「形式的な数学的プロセス」として扱うことの可能性と限界を、初めて体系的に論じたからである。クセナキスは、「数学は音楽の創造性を制限するのではなく、新しい創造の道具を提供する」ことを示したのである。
電子音楽とデジタル信号処理
1950年代以降、電子音楽の発展により、音響合成の数学的基礎が実用的重要性を持つようになった。加算合成(additive synthesis)は、フーリエ理論の直接的応用であり、複数の正弦波を加算して複雑な音色を生成する:
y(t) = Σ Aₙ sin(nω₀t + φₙ)
ここで、Aₙは各倍音の振幅、φₙは位相である。
周波数変調(FM)合成は、ジョン・チャウニング(John Chowning)が1967年に発見した手法で、ある正弦波の周波数を別の正弦波で変調する:
y(t) = sin[ω_c·t + I·sin(ω_m·t)]
ここで、ω_cはキャリア周波数、ω_mはモジュレータ周波数、Iは変調指数である。この単純な式から、ベッセル関数によって記述される複雑な倍音構造が生成される。FM合成は、ヤマハDXシリーズシンセサイザーで実用化され、1980年代のポピュラー音楽に革命をもたらした。
1965年、ジェームズ・クーリー(James Cooley)とジョン・テューキー(John Tukey)が高速フーリエ変換(FFT)アルゴリズムを発表した。このアルゴリズムは、N点の離散フーリエ変換をO(N²)からO(N log N)の計算量で実行可能にし、デジタル音響処理を実用的なものにした。
FFTの登場により、以下の応用が可能になった:
これらの技術は、現代の音楽制作、音響分析、音声処理の基盤となっている。
1980年代、ベノワ・マンデルブロ(Benoît Mandelbrot)のフラクタル理論が音楽に応用され始めた。フラクタル音楽では、自己相似的な構造を持つメロディーやリズムが生成される。例えば、カントール集合を用いたリズム生成では、区間を再帰的に分割することで、あらゆる時間スケールで類似したパターンを持つリズムが生成される。
1/fノイズ(ピンクノイズ)もフラクタル的性質を持ち、多くの自然音や音楽がこのスペクトル特性を示すことが知られている。パワースペクトル密度が:
S(f) ∝ 1/f^α
の形を取る音は、α = 0でホワイトノイズ、α = 1でピンクノイズ、α = 2でブラウンノイズとなる。音楽的に心地よく感じられる音は、しばしばα ≈ 1のスペクトル特性を持つことが実証されている。
ノーム・チョムスキー(Noam Chomsky)の生成文法理論は、音楽理論にも影響を与えた。フレッド・レーデル(Fred Lerdahl)とレイ・ジャッケンドフ(Ray Jackendoff)の『音楽認知の生成理論(A Generative Theory of Tonal Music)』(1983年)は、調性音楽の構造を形式文法によって記述しようとした野心的試みである。
彼らの理論では、音楽構造が以下の4つの階層的規則体系によって生成される:
- グルーピング構造規則: 音符をフレーズ、セクションに分節化
- メトリカル構造規則: 拍節構造を規定
- タイム・スパン縮減規則: 各時間区間における構造的に重要な音を特定
- 長延縮減規則: 音楽の階層的構造を樹形図で表現
この理論は、音楽分析に形式的厳密さをもたらし、音楽認知の計算モデル構築の基礎となった。
1990年代以降、様々なアルゴリズム作曲システムが開発された。デイヴィッド・コープ(David Cope)の「EMI(Experiments in Musical Intelligence)」は、既存の作曲家の様式を学習し、その様式による新曲を生成するシステムである。EMIは、楽曲を統計的にパターンとして分析し、マルコフモデルや文法的規則を抽出して新曲を生成する。
コープのシステムは、バッハ、モーツァルト、ショパンなどの様式による数千曲を生成し、中には専門家でも真作と区別困難な作品も含まれていた。これは、音楽的「様式」が統計的パターンとして捉えられる可能性を示した。
機械学習と深層学習による音楽生成
2010年代以降、深層学習の急速な発展が音楽生成に革命をもたらした。深層学習が音楽生成に適している理由を理解するために、まず従来の方法との違いを見てみよう。従来のアルゴリズム作曲では、明示的なルールを人間が設計する必要があった。「バッハ様式ならこの和声進行を使う」といった規則を、すべて人間がプログラムしなければならなかった。しかし深層学習では、大量の音楽データから統計的パターンを自動的に学習できる。つまり、「バッハの作品1000曲」を与えれば、アルゴリズム自身がバッハ様式の特徴を抽出するのである。
特に、以下の技術が重要である:
音楽は時系列データ、つまり時間の流れに沿って変化するデータである。そのため、RNN(リカレントニューラルネットワーク)、特にLSTM(Long Short-Term Memory、長短期記憶)と呼ばれる技術が音楽生成に適している。
RNNがなぜ時系列データに適しているかを理解するために、通常のニューラルネットワークとの違いを考えてみよう。通常のニューラルネットワークは、各入力を独立に処理する。例えば、画像認識では、1枚の写真を見て「これは猫だ」と判断する。しかし音楽では、現在の音は過去の音の文脈に依存する。例えば、ド-ミ-ソという和音(I度の和音)の後では、次の音はファである確率が高い(IV度の和音への進行)。RNNは、過去の情報を「隠れ状態」という形で保持し、次の音の予測に使用する。言い換えれば、RNNは「記憶」を持っているのである。
しかし、通常のRNNには問題があった。長期的な依存関係、つまり遠く離れた音同士の関係を学習するのが困難だったのである。例えば、楽曲の冒頭で提示された主題が、200小節後に再現される—このような長距離の構造的関係を、通常のRNNは学習できなかった。この問題は「勾配消失問題」と呼ばれ、技術的には、長い時間をさかのぼって学習しようとすると、学習信号が弱くなりすぎて消えてしまうという現象である。
LSTMは、この問題を解決するために設計された。LSTMは、「記憶セル」と「ゲート機構」を持ち、どの情報を長期記憶に保持し、どの情報を忘れるかを学習できる。人間の脳が重要な情報は覚えていて、些細な情報は忘れるのと似ている。これにより、主題の再現のような長期的構造を学習できるようになった。
例えば、Google MagentaプロジェクトのPianoRollLanguageModelは、MIDI形式のピアノ曲を学習し、新しい楽曲を生成する。MIDIとは、音楽の演奏情報(どの音をいつ、どのくらいの強さで弾くか)をデジタルデータとして記録する規格である。このシステムは、学習データの音符列を入力とし、次の音符の確率分布を出力する:
P(note_t | note₁, note₂, ..., note_{t-1})
これは「これまでの音符の並び(note₁からnote_{t-1}まで)が与えられたとき、次の音符(note_t)がそれぞれの音である確率」を表している。この確率分布をどう使うかも興味深い。最も確率の高い音を常に選べば、最も「典型的」な音楽が生成される。しかし、これでは創造性がない。そこで、確率分布からランダムにサンプリング(選択)することで、「ありそうだが、予測不可能」な音楽を生成するのである。
変分オートエンコーダ(VAE)とGAN
変分オートエンコーダ(VAE)は、音楽を低次元の「潜在空間(latent space)」にエンコード(符号化)し、そこから新しい音楽をデコード(復号化)する技術である。この仕組みを理解するために、日常的な例で考えてみよう。
音楽データは高次元である。MIDIデータだけでも、音高×時間×音量など多数のパラメータがある。1分間の曲でも、数千個の数値が必要になる。しかし、「音楽的に意味のある」変化は、実はもっと少ない次元で表現できるはずである。例えば、「明るさ」「テンポ」「複雑さ」といった少数の概念で、音楽の本質的な特徴を捉えられるかもしれない。これは、写真を説明するのに、すべてのピクセル(画素)の値を列挙するのではなく、「海辺で撮った夕焼けの写真」と言えば十分なのと似ている。
VAEは、高次元の音楽データを、このような低次元の「意味空間」に圧縮することを学習する。この圧縮された空間を「潜在空間」と呼ぶ。潜在空間では、音楽の「補間」が可能になる。例えば、モーツァルト様式の点とベートーヴェン様式の点を潜在空間で結ぶ直線上を移動すれば、「モーツァルトから徐々にベートーヴェンに変化する」音楽を生成できるのである。これは、2つの色の間のグラデーションを作るのと似ている。
生成的敵対ネットワーク(GAN)は、全く異なるアプローチを取る。GANは、生成器(Generator)Gと識別器(Discriminator)Dという2つのニューラルネットワークが競合的に学習するシステムである:
- 生成器G: ランダムなノイズzから音楽x = G(z)を生成する。偽札を作る偽造犯のようなものである。
- 識別器D: 本物の音楽と生成された音楽を識別する。偽札を見破る鑑定士のようなものである。
この「対抗」が有効である理由は、ゲーム理論における「ミニマックス均衡」という概念を利用しているからである。生成器は「識別器を騙せるほどリアルな音楽」を作ろうとし、識別器は「本物と偽物を正確に見分ける」ことを学習する。偽造犯が技術を向上させれば、鑑定士もより鋭い目を養う必要がある。逆に、鑑定士が厳しくなれば、偽造犯はさらに精巧な偽札を作らなければならない。この競争により、生成器は極めてリアルな音楽を生成するようになる。
最適化目標は以下の数式で表される:
min_G max_D E[log D(x)] + E[log{1 - D·G(z)}]
この数式を日常的な言葉で説明すると、識別器Dの視点では「本物を本物と認識し、偽物を偽物と認識する」ことを意味する(log D(x)を最大化し、log{1-D·G(z)}を最大化)。生成器Gの視点では「識別器が偽物を本物と誤認するような音楽を生成する」ことを意味する(D·G(z)を最大化、つまりlog{1-D·G(z)}を最小化)。
MuseGANなどのシステムは、多楽器の楽曲を生成可能である。複数楽器の生成が難しい理由は、各楽器のパートが独立ではなく、和声的・リズム的に協調する必要があるからである。オーケストラでヴァイオリンとチェロが勝手にバラバラの曲を弾いていたら、音楽にならない。MuseGANは、複数の生成器を協調させることで、この問題を解決している。
2017年に提案されたTransformerアーキテクチャは、自然言語処理(機械翻訳や文章生成など)だけでなく音楽生成でも優れた性能を示している。Transformerが従来のRNNより優れている点を理解するために、それぞれのアプローチの違いを見てみよう。
RNNは時系列を順番に処理する。つまり、1番目の音を処理してから2番目の音、次に3番目の音...という具合に、順番に進んでいく。これには2つの問題がある。第一に、並列化が困難で、学習が遅い。第二に、長距離依存関係の学習も限定的である。LSTMで改善されたとはいえ、500音前の音と現在の音の関係を学習するのは難しい。
Transformerは、「Attentionメカニズム」により、時系列のすべての位置を同時に参照できる。人間が文章を読むときを想像してみよう。RNNは、1文字ずつ順番に読んでいくようなものである。しかしTransformerは、ページ全体を一度に見て、重要な部分に注意(Attention)を向けることができる。例えば、「太郎は花子に会った。彼は嬉しかった。」という文で、「彼」が誰を指すかを理解するには、前の文の「太郎」に注意を向ける必要がある。Transformerは、このような遠く離れた要素間の関係を効率的に学習できる。
OpenAIのJukeboxやMuseNetは、Transformerベースであり、長期的な構造を持つ音楽を生成できる。AttentionメカニズムがどのようにTに長期構造を学習するかを、もう少し詳しく見てみよう。Attentionメカニズムは、入力系列の異なる部分間の関係を学習する:
Attention(Q, K, V) = softmax(QK^T / √d_k) V
この数式は難しく見えるが、実はシンプルな概念である。Q(Query, 問い合わせ)、K(Key, 鍵)、V(Value, 値)は、それぞれ入力を異なる視点から変換したものである:
- Query(問い合わせ): 「現在、何を知りたいか」を表す。例えば、楽曲の200小節目で「冒頭の主題と関連する音はあるか?」という問い合わせ。
- Key(鍵): 各位置が「何を持っているか」を表す。例えば、楽曲の各小節が「私は主題の一部です」「私はつなぎの部分です」といった情報を持つ。
- Value(値): 実際の情報内容。各位置の音符や和声情報など。
QK^Tは、各位置のQueryが各位置のKeyとどれだけ「関連しているか」を計算する。図書館で本を探す例えで言えば、Queryは「量子力学について知りたい」という問い合わせで、Keyは各本の目次や索引である。関連性の高い本(Keyが一致する本)を見つけたら、その本の内容(Value)を読む。
softmax関数により、最も関連性の高い位置に高い重み(注意の強さ)が付く。そしてV(実際の情報)を、この重みで重み付け平均する。これにより、現在の位置にとって重要な情報だけを選択的に取り出すことができる。
音楽でこれが何を意味するかを具体例で見てみよう。例えば、楽曲の200小節目の音(Query)が、冒頭の主題(Key)と高い関連性を持つことを学習すれば、主題の再現を生成できる。つまり、Attentionメカニズムにより、楽曲の遠く離れた部分間の構造的関係(主題の再現、和声的呼応、リズムパターンの繰り返しなど)を捉えることが可能になるのである。
これらの技術が音楽生成を変えた理由は、初めて「人間に匹敵するレベルで、構造的一貫性を持つ長い楽曲」を自動生成できるようになったからである。それ以前のアルゴリズム作曲は、短い断片や、単純な構造の曲に限られていた。深層学習により、ソナタ形式(提示部、展開部、再現部という複雑な構造)のような複雑な構造を持つ楽曲、数分間にわたる一貫性のある音楽を生成することが可能になったのである。
音楽情報検索(MIR)と信号処理
音楽情報検索(Music Information Retrieval, MIR)分野では、音楽データから意味のある情報を自動抽出する数学的手法が研究されている:
- クロマグラム(Chromagram): 12の音名別に音響エネルギーを集計し、和音認識に利用
- メル周波数ケプストラム係数(MFCC): 音色の特徴量として広く使用
- テンポ・拍検出: 自己相関関数やフーリエ変換を利用
- 音源分離: 非負値行列因数分解(NMF)や深層学習による分離
非負値行列因数分解では、スペクトログラム行列Vを2つの非負行列W(基底スペクトル)とH(活性化係数)の積として近似する:
V ≈ WH
これにより、混合音から各楽器の音を分離することが可能になる。
量子コンピューティングと音楽
最先端の研究として、量子コンピュータを用いた音楽生成も探索されている。量子状態の重ね合わせと量子もつれを利用することで、従来不可能だった複雑な最適化問題(例:制約条件下での作曲)を解く可能性がある。
量子アニーリングを用いて、複数の制約条件(旋律の滑らかさ、和声進行の規則、リズムの一貫性など)を同時に満たす楽曲を生成する試みが報告されている。これは、作曲問題をエネルギー最小化問題として定式化し、量子システムの基底状態を求めることに対応する。
現代の音楽と数学:
現代では、機械学習、特に深層学習が音楽生成の主要な手法となっている。これらの技術は、膨大な音楽データから統計的パターンを学習し、人間に匹敵する、あるいは人間が生成し得ない新しい音楽を創造する。同時に、これらの技術は「音楽とは何か」「創造性とは何か」という根本的な問いを投げかけている。
総括:2500年の対話が示すもの
ピタゴラスの弦長比の発見から、現代のAI作曲まで、数学と音楽は2500年にわたって相互に影響を与え合ってきた。この歴史を振り返ることの意義は、現代の音楽技術や音楽理論が突然現れたものではなく、長い歴史的プロセスの積み重ねであることを理解するためである。各時代の音楽家と数学者は、前の世代が残した問題に取り組み、部分的な解決を提示し、次の世代に新たな課題を残してきた。この連続性を理解することで、未来の音楽と数学の関係も展望できる。
この歴史を振り返ると、いくつかの重要なテーマが浮かび上がる。
数学的構造と聴覚的経験の緊張関係
古代ギリシャのアリストクセノスによる批判から、現代のセリエル音楽の聴覚的困難まで、数学的厳密さと聴覚的満足の間には常に緊張関係が存在してきた。この緊張が避けられない理由は、数学が「理性的・論理的秩序」を扱うのに対し、音楽は「感覚的・情動的経験」だからである。ピタゴラスコンマは数学的には小さな誤差だが、聴覚的には重要な問題となる。トータル・セリエリズムは数学的には完璧な秩序を持つが、聴覚的にはランダムに聞こえる。
しかし、この緊張は必ずしも否定的ではない。平均律の成功は、「数学的完全さ」を犠牲にすることで「実用的な自由」を得た例である。FM合成は、単純な数式から予想外の美しい音色を生み出した。深層学習による音楽生成は、明示的な数学的規則なしに、統計的学習によって音楽的に説得力のある結果を達成した。
この歴史が教える教訓は、数学と音楽の関係において、「正しい」アプローチは一つではないということである。数学を音楽の「説明」として用いる場合(ヘルムホルツの協和理論)と、「生成ツール」として用いる場合(クセナキスの確率論的作曲)では、要求される数学の性質も異なる。重要なのは、目的に応じて適切な数学的アプローチを選択することである。
技術革新による新しい音楽の可能性
フーリエ解析、FFT、デジタル信号処理、機械学習など、数学的手法の発展は常に新しい音楽表現の可能性を開いてきた。新しい数学的道具が音楽的革新につながる理由は、以前は不可能だった音響操作や作曲手法を可能にするからである。
フーリエ解析がなければ、音色を定量的に理解することはできず、電子音楽の発展も大きく遅れていただろう。FFTがなければ、リアルタイム音響処理は実用的ではなく、現代のデジタル音楽制作は存在しなかった。深層学習がなければ、AI作曲は規則ベースの限定的なものにとどまっていた。
今後も、新しい数学的・技術的発展が音楽に革新をもたらすだろう。量子コンピューティングは、古典的コンピュータでは解けない最適化問題を解き、複雑な制約条件を満たす作曲を可能にするかもしれない。神経科学的音楽認知モデルの発展は、個人の脳活動パターンに最適化された音楽を生成可能にするかもしれない。さらに高度な生成モデルは、人間とAIの協調作曲を実現するかもしれない。
音楽理論は、ピタゴラス以来、経験的観察から数学的法則へ、さらには計算可能な形式体系へと進化してきた。この形式化が進んだ背景には、音楽を「再現可能で、伝達可能で、分析可能な」知識体系にしたいという欲求がある。
ボエティウスが音楽を四科に位置づけたのは、音楽を学問として確立するためだった。グイードの記譜法は、音楽を口頭伝承から解放し、正確な伝達を可能にした。シェーンベルクの12音技法は、無調音楽に形式的秩序を与えた。生成文法理論は、音楽構造を言語のように規則で記述しようとした。深層学習は、様式を数百万のパラメータとして形式化した。
しかし、形式化には限界もある。演奏の微妙なニュアンス、文化的文脈、個人的感情的反応—これらを完全に形式化することはおそらく不可能である。音楽の本質—人間の感情、文化、社会的相互作用との深い結びつき—は、数学的還元を超えている。
この認識こそが、2500年の数学と音楽の対話から得られる最も重要な教訓である。数学は音楽を理解し、分析し、創造するための強力な道具である。しかし、音楽を完全に「還元」したり「代替」したりすることはできない。数学と音楽の最良の関係は、数学が音楽の可能性を拡張し、音楽が数学に新しい問いを投げかける、相互的な対話である。この対話は、今後も続いていくだろう。
未来への展望
AI作曲技術の発展により、「誰が作曲したか」よりも「何が表現されているか」が重要になる時代が近づいている。GPT-4やClaude のような大規模言語モデルが音楽生成にも応用され、テキスト指示から直接音楽を生成することが可能になりつつある。
同時に、脳科学との統合により、音楽聴取時の脳活動パターンを解析し、個人の好みに最適化された音楽を生成する「神経音楽学(neuromusicology)」も発展している。fMRI、EEGなどの計測データと機械学習を組み合わせることで、音楽が引き起こす感情や認知プロセスを定量化する試みが進んでいる。
しかし、技術がどれほど進歩しても、音楽の本質—人間の感情、文化、社会的相互作用との深い結びつき—は変わらないだろう。数学は音楽を豊かにする強力な道具であるが、音楽を完全に「還元」することはできない。この認識こそが、2500年の数学と音楽の対話から得られる最も重要な教訓である。
参考文献
- Barbour, J. M. (1951). Tuning and Temperament: A Historical Survey. Michigan State College Press.
- Barker, A. (1989). Greek Musical Writings, Vol. 2: Harmonic and Acoustic Theory. Cambridge University Press.
- Boethius, A. M. S. (c. 520/1989). Fundamentals of Music (C. M. Bower, Trans.). Yale University Press.
- Boulanger, R., & Lazzarini, V. (2010). The Audio Programming Book. MIT Press.
- Boulez, P. (1971). Boulez on Music Today (S. Bradshaw & R. R. Bennett, Trans.). Harvard University Press.
- Chowning, J. (1973). The Synthesis of Complex Audio Spectra by Means of Frequency Modulation. Journal of the Audio Engineering Society, 21(7), 526-534.
- Cope, D. (2001). Virtual Music: Computer Synthesis of Musical Style. MIT Press.
- Fourier, J. (1822/1878). The Analytical Theory of Heat (A. Freeman, Trans.). Cambridge University Press.
- Helmholtz, H. von (1863/1954). On the Sensations of Tone as a Physiological Basis for the Theory of Music (A. J. Ellis, Trans.). Dover Publications.
- Isacoff, S. (2001). Temperament: How Music Became a Battleground for the Great Minds of Western Civilization. Vintage Books.
- Jedrzejewski, F. (2006). Mathematical Theory of Music. Editions Delatour France / Ircam.
- Lendvai, E. (1971). Béla Bartók: An Analysis of His Music. Kahn & Averill.
- Lerdahl, F., & Jackendoff, R. (1983). A Generative Theory of Tonal Music. MIT Press.
- Messiaen, O. (1944/1956). The Technique of My Musical Language (J. Satterfield, Trans.). Leduc.
- Müller, M. (2015). Fundamentals of Music Processing: Audio, Analysis, Algorithms, Applications. Springer.
- Rameau, J.-P. (1722/1971). Treatise on Harmony (P. Gossett, Trans.). Dover Publications.
- Roads, C. (1996). The Computer Music Tutorial. MIT Press.
- Schoenberg, A. (1975). Style and Idea: Selected Writings of Arnold Schoenberg (L. Stein, Ed.). University of California Press.
- Temperley, D. (2001). The Cognition of Basic Musical Structures. MIT Press.
- Toussaint, G. T. (2013). The Geometry of Musical Rhythm: What Makes a "Good" Rhythm Good? CRC Press.
- Xenakis, I. (1971/1992). Formalized Music: Thought and Mathematics in Composition (Rev. ed.). Pendragon Press.
- Briot, J.-P., Hadjeres, G., & Pachet, F. (2020). Deep Learning Techniques for Music Generation. Springer.
- Dong, H.-W., et al. (2018). MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment. Proceedings of the AAAI Conference on Artificial Intelligence, 32(1).
- Huang, C.-Z. A., et al. (2019). Music Transformer: Generating Music with Long-Term Structure. International Conference on Learning Representations (ICLR).
- Sturm, B. L., et al. (2019). Machine Learning Research That Matters for Music Creation: A Case Study. Journal of New Music Research, 48(1), 36-55.