古い土地

暗い穴

確率変数の「気持ち悪さ」について(幾何と解析の視点から)

 リハビリ用の記事。記事を書くという意味でも数学について書くという意味でも。

 

 統計検定1級に向けて数理統計学を勉強している。

www.kyoritsu-pub.co.jp

 

 久保川『現代数理統計学の基礎』は現代的で大方よく書けている教科書だと思う(なにより演習問題が200近くありサポートページで解答・補足・擬似テストまで入手できるのがありがたい。統計検定に対してはオーバーパワー気味だとしても)。しかし、確率変数の扱いに戸惑うことがたびたびあった。確率変数の測度論定義や各収束概念の定義が生半可しっかり書かれているがためにかえって、実際の扱いとの間でギャップを感じたのである。この点で煩わされたくないならうまく誤魔化している竹村『現代数理統計学』の方がよいのかもしれない。

 ともかく、自分なりに「確率変数」の「気持ち悪さ」の原因を特定して言語化したので、ここに紹介する。自分の専門に引き寄せて書いているため、似た問題を抱えた方の躓きの石をどれほど取り除けるかは不明である。

 

 「確率変数の扱いが気持ち悪い」という感覚は、ある程度数学の訓練を受けてから数理統計学(ないし確率論)を勉強した方は多かれ少なかれ持つのかもしれない。次の記事は大いに参考にさせていただいた。

 

m-hiyama.hatenablog.com

 

 今回進むのは圏論型理論の道ではなく、ミハイル・グロモフ*1がいうところの「幾何」と「解析」の道である。「確率空間  \Omega 上の解析」だと思っていたものが「 \mathbb{R} 上の幾何」だと判明し、最終的には「 \mathbb{R} 上の解析」となる。

 

 

確率変数の測度論的定義

 

 確率論はどう理論立てれば厳密になるのだろうか。1930年代にコルモゴロフが出した結論は、測度論で基礎づけることだった。

 確率変数は次のように定義される。

 

確率空間  (\Omega, B_{\Omega}, \mu) と可測空間  (E, B_{E})に対して、写像  X : \Omega \rightarrow E が可測であるとき確率変数という。

確率変数 - Wikipedia

 

 「確率空間」「可測」等の用語の説明はここではしない。今回はこの定義に対して「なるほど! たしかに測度論の言葉を使えば確率変数に関する曖昧さはすべて消えるな」と納得した後に起こる躓きを考えていきたい。

 以下では値域の  E実数体  \mathbb{R} に限定する。

 

確率変数  X : \Omega \rightarrow \mathbb{R}確率密度関数  f : \mathbb{R} \rightarrow \mathbb{R}とは、 \Omega 上の確率測度  \mu X によってpushした  \mathbb{R} 上の確率測度  X_{*}(dμ) に対して、  X_{*}(dμ) = f(x)dx を満たすものである(ただし  dx は通常の  \mathbb{R} 上のルベーグ測度)。

 補足:実は上の定義をそのまま「離散型確率変数( X の値域が高々可算なもの)」に適用すると、  f は(シュワルツの)超関数になってしまう。『現代数理統計学の基礎』の場合、離散型確率変数に対しては別途で「確率質量関数」を定義してデルタ関数性を取り除いていたが、一般的な確率論がやりたいなら超関数まで定義を拡張してしまうべき。

 以下では  X を「連続型確率変数」とする。すなわち  f が通常の関数の場合のみ扱う(つもりだったが具体例では離散型確率変数が出てしまった。 f が超関数でも本稿の議論はほぼ変わらないが、超関数の知識を前提にするのもだいぶ不親切なので、なあなあで済ませることにする)

 

 ( 超関数まで許した)確率密度関数を指して確率分布と呼ぶこともある。言い換えれば、 \mathbb{R} 上の確率測度が確率分布である。

 

 

躓き①:記法の濫用(abuse)

 

 たとえば、確率変数  \Theta : \Omega \rightarrow \mathbb{R} とその確率密度関数  f : \mathbb{R} \rightarrow \mathbb{R} の引数  f(\theta) で同じ  \theta を当ててしまうのは(自分も演習問題解く過程で自然とこの手のabuseをするようになったが)、教科書としてよろしくない。さらに、『現代数理統計学の基礎』では( \theta をボールド体として区別すらせず)確率変数  f(\Theta) を考える――というのはつまり写像の合成  f \circ \Theta : \Omega \rightarrow \mathbb{R} のことなのだが――場面さえあった気がする。「変数の確率変数化」とでも呼べるようなクソ雑な作業である*2

 この記事の立場では確率変数はあくまで写像/関数であり、引数(変数)と全く関係がない。「変数の確率変数化」に見えたものは不親切な記法がもたらした不幸な混乱である、とみなす。ここまでやるなら確率変数の方を  \Theta にしたり  f の引数を  t にしたりすべきだ。

 あとは関数  g(x) : \mathbb{R} \rightarrow \mathbb{R} を新しく定義するとき、最終的には  X と合成して確率変数  g(X):\Omega \rightarrow \mathbb{R} を考えるため、最初から形式的に  X がただの変数であるかのように  g(X) を定義してしまう場面があった。初学者には不親切な怠惰でしかない。

 

 慣れと怠惰は、確立変数を厄介にしている原因の一つであるらしい。

 

 

躓き②:定義域を考えないこと

 

 現代数学において、「幾何」「解析」「代数」といった区分はどれほど役立っているのだろうか。雰囲気でカテゴリー分けしつつ、分類が不可能なほど混淆していることも了解しているのが実情である。

 特に幾何学の研究においては、グロタンディーク以降「幾何」と「解析」が双対になることを積極的に活用するようになった(多様体  M に対してその上の関数環  C(M) を対応させるなど)。複素幾何や代数幾何など構造が盛られた幾何ではもはや「 M 上の幾何」より「 M 上の解析」を扱うことの方がずっと多い気がする。

 

定義(M. Gromov): M多様体とする。

 M 上の幾何 = 別の空間  \Sigma から  M への写像の研究

 M 上の解析 =  M から別の空間  \Sigma への写像の研究

 

深谷賢治『1997.10 「位相的場の理論」 集中講義ノート』p22

https://www.math.kyoto-u.ac.jp/~fukaya/shzuok.pdf

   \Sigma はふつう、十分よく知っていて研究の基礎におくことができるシンプルな対象である。

  M 上の幾何はたとえば結び目論( \Sigma は円周)や特異ホモロジー論( \Sigma は特異n-単体)であり、 M 上の解析はたとえば関数環( \Sigma実数体)や層係数コホモロジー論( \Sigma は層空間)である。以下で「幾何」「解析」というときはすべてグロモフの定義に従っている。

 

 幾何の話を長々として何が言いたかったのかというと、確率変数の定義  X : \Omega \rightarrow \mathbb{R} を見たとき私は、これから「確率空間  \Theta 上の解析」が始まると期待していたのである。伝統的に確率論は「解析」に分類されるし。

 ところが『現代数理統計学の基礎』を眺めると、 X の定義以降は  \Omega の情報がどこにも書かれておらず、 X \Omega からの写像であることは巧妙にマスクされているのである。

 確率変数という写像に対して定義域を明記しないのはかなり気持ち悪い。和や独立性やその他もろもろの定義では暗に定義域の性質を使っているにもかかわらず、書かないのだ*3。逆に考えると、数理統計学の文脈では定義域を書かなくてもよい/不定のままにした方がよいという価値観が働いている。これはまるで、数理統計学が「(確率空間で測る) \mathbb{R} 上の幾何」であるかのようだ。

 

 確率変数の「定義域が不定写像」という性格を数学的に定式化するならば、あるいは躓き①の「変数の確率変数化」を真剣に受け止めるなら、冒頭に紹介した記事のように確率空間の圏を持ち出して米田埋め込みとみなすのは良いアイディアである*4

 以下では、確率変数の定義域をマスクする価値観そのものがどうして生まれたかを考えよう。「実学との衝突」仮説とでも呼ぶべきものである。

 

 たとえば、「コインを100回投げて表が出た回数を  X」とする。 X: \Omega \rightarrow \mathbb{R} は確率変数の例である。このとき全事象空間  \Omega 2^{100} 通りの投げ上げの結果を集めた集合とするのが妥当であり、確率測度は(もしコインに偏りと厚みがなければ)一様になる。Xの値域は  \{ 0 , … , 100 \} となる。

 これを「現実的」な設定で考えたい。

 ① 全事象空間  2^{100} \simeq 10^{30} は大きすぎる。コンピューターにもそのままでは乗らない。ここから余分な情報を削り必要な情報のみを取り出すのは数理統計学の目的の一つである。

 ② 実験したとき、風や温度の影響、コインを投げる人/機械の癖、コインが縁で立つ可能性、等々を考慮せねばならない。 \Omega 2^{100} とは別の何かでモデリングすべき可能性があるということ。さらには「表が出る確率は  1/2 かどうか」という興味深い問題が残っている(検定は数理統計学の目的の一つ)。これは  \Omega = 2^{100} のまま測度が取り替えられる可能性を示唆する。

 

 数理統計学は現実のモデリングを問題にしている。「真の現実」(真の  \Omega)なるものは完全に未知だし、現実を近似するモデル  \Omega はどのような情報を抽出したかで次々と取り替えうる。また、実験の測定結果(実現値)は値域の側の情報である。だから、定義域より値域の側で理論を作りたい。

 少なくとも定義域  \Omega の台集合を  \mathbb{R} \mathbb{R}^n などの都合の良い集合で固定したい、というモチベーションが生じる。 X : (\Omega , dμ) \rightarrow \mathbb{R} id: (\mathbb{R}, f(x)dx) \rightarrow \mathbb{R} の2つの確率変数は(ただし  f X確率密度関数)、同じ確率分布=同じ実験結果をもたらすのだから、「現実的」には区別できないだろう。確率密度関数が同じ確率変数は区別しない(同値関係を入れる)のが数理統計学の立場だと言ってもよい。数理統計学において確率変数と確率密度関数は同程度の情報量を持っていることになる。

 

 そしてまた、すべての確率変数の定義域を  \Omega = \mathbb{R}(あるいは \mathbb{R}^n)に帰着させるので、数理統計学は「(確率空間で測る) \mathbb{R} 上の幾何」であると同時に「確率空間  \mathbb{R} 上の解析」なのだろう。これは勉強上の実感とも一致する。

 定義域がマスクされており、幾何と解析両方の側面を持つこと。数理統計学イデオロギーに関わる根本的な確率変数の厄介さである。

 

 

 補足1:確率変数の収束概念で弱い方から強い方に移行する例。「概収束表現」という命題によると、確率変数の「分布収束」列  X_{n} に対し、定義域は同じと限らないが確率分布は同じ新しい列  Y_{n} で「概収束」するものが存在するらしい。純理論的に面白く、かつ定義域の変更に関して示唆するところがある。

確率変数の収束 - Wikipedia

 

 補足2:本一冊読んだだけなので数理統計学のもっと進んだところではどうなのか、あるいは隣接分野の確率論ではどうなのか、不明である。たまたま手許にあった確率論の教科書を眺める限り、確率変数の定義域はほぼ明記されていない。連続確率過程(ウィーナー過程/ブラウン運動など)の存在証明の際は  \mathbb{R}^n に帰着できないほどデカい  \Omega \mathbb{R} の可算無限直積)*5が出てくると思うのだが……。

 「(一部の)初学者に心理的な負荷がかかるだけで、定義域に関してはよほど非自明でない限り一々明記して紙幅をとるほどの問題は起こらない。要するに慣れろ。気になるなら自分で補え」という立場も分かる気はする。

 

 

追記

 

 よくよく考えると、「確率密度関数が同じ確率変数は区別しない(同値関係を入れる)のが数理統計学の立場だと言ってもよい」という本稿の結論は、半分は正しいが半分は間違っていることに気づいた*6

 二つ以上の確率変数  X, Y, ... の関係を考えるときに問題が起こる。 X Y をそれぞれ同じ分布を持つ確率変数の同値類  \lbrack X \rbrack , \lbrack Y \rbrack の中で動かしていくと、二つは独立になったり、正/負の相関を持ったりと、様々な関係性を築きうる。確率変数同士の「関係」を問題にするなら、確率分布による同一視を入れてはいけないのだ。そして、「関係」の研究は数理統計学の主要な目的の一つである。

 以上は純理論的な説明である。結局何が悪いかというと、定義域が問題になる場面が度々あるのに横着して定義域を書かない習慣にしてしまったのが悪い、と言い切ってしまおうか。

 だが、本稿の躓き②と同様の議論をここで繰り返せば、複数の確率変数(「多変量解析」)を「現実的」に扱う場合にもやはり、定義域の設定を宙に浮かせた方が都合のよいことがわかる。

 例:夫婦を対象に内閣の支持/不支持を調査する。支持/不支持を0 / 1 に対応させて  X を夫の回答、 Y を妻の回答とすれば、 (X, Y) は確率変数になる。 X , Y の相関や独立性は調査の対象になる。これを数理的に扱うとすれば全事象空間  \Omega として  \mathbb{R}^2 をとり(測度をpushして  \mathbb{R}^2 に帰着させて)、 (X, Y): \mathbb{R}^2 \rightarrow \mathbb{R}^2 とする。

 つまるところ多変量解析でも確率密度関数による同一視は入れたくなるらしい。この同値類の中では、成分である変数同士の「関係」(独立性、相関性、etc...)は不変である、と思う。言い換えると、同値類   \lbrack X \rbrack \lbrack Y \rbrack の間の「関係」は一般に ill-defined だが(代表元のとり方に依存する)、同値類  \lbrack (X, Y) \rbrack について成分同士の「関係」は well-defined である(代表元のとり方に依存しない)。

 この方向で考えを深めていっても大して旨味はないし、むしろ心理的負荷が増すだけだろう。ある種の「確率分布主義」であることは間違いないと思うのだが……*7

 

 厳密性に由来する要請(私が重きを置いているパート)と、実学に由来する要請(数理統計学のモチベーション)と、人間の習慣に由来する要請(慣れと怠惰)の間で、確率変数の記述は揺れ動いている。

 

 

 

 

 

 

 

 

*1:偉大な数学者。粗幾何からシンプレクティック幾何、幾何学群論から偏微分方程式まで。フィールズ賞もらってないのが不思議なぐらいだが、アーベル賞は受賞している。

ミハイル・グロモフ - Wikipedia

*2:場の量子論における「第二量子化」をどことなく思い出させる。「第一量子化」(=物理量の作用素化:運動量を微分作用素に置換するなど)では一粒子の波動関数  \phi が満たすべきシュレディンガー方程式を導出し、「第二量子化」では波動関数  \phi を古典場とみなし量子場  \Phi に置換する(つまり場を作用素化する)ことで量子場の運動方程式を得る。結果として粒子の生成消滅を扱えるようになる。以上は量子場の導入に関する歴史的説明であって現代的取り扱いではない。

*3:例:「(定義域がそもそも異なるという意味で)独立な」確率変数  X, Y の和  X+Y を定義する際、次のような作業が行われている。 X : \Omega_{1} \rightarrow \mathbb{R}, Y: \Omega_{2} \rightarrow \mathbb{R} とする。

①(定義域の共通化/独立性の担保) X' : \Omega_{1} \times \Omega_{2} \rightarrow \mathbb{R} X'(x,y) = X'(x) で定める。同様に  Y' : \Omega_{1} \times \Omega_{2} \rightarrow \mathbb{R} Y' (x , y) = Y (y) で定める。

②(和)   X + Y : \Omega_{1} \times \Omega_{2} \rightarrow \mathbb{R} (X + Y) (x , y) = X' (x , y) + Y' (x , y) により定める。

実際には  \Omega_{1} = \Omega_{2} = \mathbb{R} であることが多く、 X + Y の定義域も  \mathbb{R}^2 から  \mathbb{R} に変更することが多い(同じ確率分布を定める確率変数との同一視によって。後述)。また「畳み込み」で  X+Y を定義することもできるが、この場合は最初から一変数関数  \mathbb{R} \rightarrow \mathbb{R} として  X+Y が捉えられている。

*4:この方向性とどれほど関係あるのかは知らないが、「圏論的確率論」や「マルコフ圏」と呼ばれるものも近年研究されている。

*5:メモ:一般の測度はともかく確率測度なら無限直積もうまく定義できる

*6:以下で述べる問題は確率変数を米田埋め込みとみなす場合にも共通すると思われる。「米田埋め込み」にせよ「同値関係」にせよ、人間の怠惰な習慣まで数学的定式化に取り込もうとするのは無理があったのかもしれない。数学は数学、怠惰は怠惰。

*7:メモ:統計検定の過去問を解く過程で、「正規分布  X, Y は無相関ならば独立」という記述に巡りあった。 (X, Y) が多変量正規分布を形成しているならばこの主張は正しいし、過去問ではおそらくそうだったろう(直ちには明らかでない)。しかし、完全に一般の (X, Y) に対しては正しくない。実用的にそのようなケースに出くわすことはまずないにせよ、ここら辺の無防備さは扱いあぐねているところではあるが、「数理統計学は純数学ではない。応用数学である」ことを考慮すれば仕方ないのかもしれない(差別的?)。数学っぽい物理の対処には慣れていても応用数学には慣れていなかったことが、この記事が長くなった遠因と言える。