正規分布の式の導出
正規分布の式
N ( μ , σ ) = 1 2 π σ 2 exp ( − ( x − μ ) 2 2 σ 2 ) N(\mu,\sigma)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) N ( μ , σ ) = 2 π σ 2 1 exp ( − 2 σ 2 ( x − μ ) 2 )
の導出をします。
歴史的にはドモアブルが二項分布の極限として正規分布を発見し、ラプラスが拡張して厳密な証明を与えたのが起源ですが、その後ガウスによって全く別の方法で導出されます。
今回はそのガウスの方法に倣って導出をしていきます。
ガウスの公理
ある棒の長さを複数回計測するとします。このとき、棒の真の長さを θ \theta θ 、 i i i 回目の計測値を x i x_i x i とすると、各計測には計測誤差 ε i \varepsilon_i ε i が生じるため、
x i = θ + ε i \begin{align}
x_i = \theta+\varepsilon_i
\end{align} x i = θ + ε i
と表すことができます。この誤差 ε \varepsilon ε の従う分布を考えます。もし系統的に生じている誤差であれば取り除くことができるので ε \varepsilon ε は偶然誤差であるとします。
ここでガウスの公理と呼ばれる前提条件を設定します(公理とは、論証抜きで真と仮定する前提条件のことです)。
いくつかの参考にしたページで説明にばらつきがあったので、原文を見てみることにします。
Let us suppose, in the first place, the state of things in all the observations to have been such, that there is no reason why we should suspect one to be less exact than another, or that we are bound to regard errors of the same magnitude as equally probable in all . Accordingly, the probability to be assigned to each error Δ \Delta Δ will be expressed by a function of A which we shall denote by φ ( Δ ) \varphi(\Delta) φ ( Δ ) . Now although we cannot precisely assign the form of this function, we can at least affirm that its value should be a maximum for Δ = 0 \Delta = 0 Δ = 0 , equal, generally, for equal opposite values of Δ \Delta Δ , and should vanish, if, for Δ \Delta Δ is taken the greatest error, or a value greater than the greatest error : φ ( Δ ) \varphi(\Delta) φ ( Δ ) , therefore, would appropriately be referred to the class of discontinuous functions, and if we undertake to substitute any analytical function in the place of it for practical purposes, this must be of such a form that it may converge to zero on both sides , asymptotically, as it were, from Δ = 0 \Delta= 0 Δ = 0 , so that beyond this limit it can be regarded as actually vanishing.
-「Theory of the motion of the heavenly bodies moving about the sun in conic sections 」Book II Section 3 175, Carl Friedrich Gauss
まとめると
誤差は全て同じ確率分布に従う
誤差が0のとき確率は最大となる
大きさの等しい正と負の誤差は等しい確率で生じる
ある限界値より大きな誤差が起こる確率は0
ただし実用目的で解析的な関数として置き換える場合は、両端で0に収束するような形式とできる
といったところでしょうか。
これらの前提条件のもと、偶然誤差が従う分布が正規分布であることを証明します。
関数形の決定
ε \varepsilon ε について考えていきましょう。
見通しを良くするために最初に方針を示しておくと、最尤法によって求められる θ \theta θ の値が観測値の平均値と一致するような関数形を求めます。
ε \varepsilon ε の従う確率密度関数 を f ( ε ) f(\varepsilon) f ( ε ) とすると、 ε i \varepsilon_i ε i の生起する確率は f ( ε i ) d ε f(\varepsilon_i)d\varepsilon f ( ε i ) d ε です。
また、(1)式より
ε i = x i − θ \begin{align}
\varepsilon_i = x_i-\theta
\end{align} ε i = x i − θ
であり、 n n n 回の計測結果 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x 1 , x 2 , ⋯ , x n がそれぞれ独立なので、 ε i \varepsilon_i ε i も独立です。
よって、尤度 L ( θ ) L(\theta) L ( θ ) は、
L ( θ ) = f ( ε 1 ) d ε f ( ε 2 ) d ε ⋯ f ( ε n ) d ε = ( d ε ) n ∏ i = 1 n f ( x i − θ ) \begin{align*}
L(\theta)=f(\varepsilon_1)d\varepsilon f(\varepsilon_2)d\varepsilon\cdots f(\varepsilon_n)d\varepsilon=(d\varepsilon)^n\prod_{i=1}^n f(x_i-\theta)
\end{align*} L ( θ ) = f ( ε 1 ) d ε f ( ε 2 ) d ε ⋯ f ( ε n ) d ε = ( d ε ) n i = 1 ∏ n f ( x i − θ )
となります。対数尤度にすると
ln L ( θ ) = ∑ i = 1 n ln f ( x i − θ ) + n ln d ε \begin{align}
\ln L(\theta)=\sum_{i=1}^n \ln f(x_i-\theta) + n\ln d\varepsilon
\end{align} ln L ( θ ) = i = 1 ∑ n ln f ( x i − θ ) + n ln d ε
です。
対数尤度最大となるような θ \theta θ の値は、θ \theta θ で微分して0とおいて
− ∑ i = 1 n ϕ ( θ ) = 0 \begin{align}
-\sum_{i=1}^n \phi(\theta) = 0
\end{align} − i = 1 ∑ n ϕ ( θ ) = 0
を満たします。ただし、 ϕ ( θ ) = f ′ ( x i − θ ) f ( x i − θ ) \phi(\theta) = \frac{f'(x_i-\theta)}{f(x_i-\theta)} ϕ ( θ ) = f ( x i − θ ) f ′ ( x i − θ ) です。
ここで、ガウスは「θ \theta θ が観測値の平均値 μ \mu μ と一致するとき、尤度最大となる 」、すなわち
θ = μ = x 1 + x 2 + ⋯ + x n n \begin{align}
\theta=\mu=\frac{x_1+x_2+\cdots+x_n}{n}
\end{align} θ = μ = n x 1 + x 2 + ⋯ + x n
という仮定を置きました。
引用すると以下です。
Since this cannot be defined a priori, we will, approaching the subject from another point of view, inquire upon what function, tacitly, as it were, assumed as a base, the common principle, the excellence of which is generally acknowledged, depends. It has been customary certainly to regard as an axiom the hypothesis that if any quantity has been determined by several direct observations, made under the same circumstances and with equal care, the arithmetical mean of the observed values affords the most probable value , if not rigorously, yet very nearly at least, so that it is always most safe to adhere to it.
-「Theory of the motion of the heavenly bodies moving about the sun in conic sections 」Book II Section 3 177, Carl Friedrich Gauss
公理「大きさの等しい正と負の誤差は等しい確率で生じる」から、十分大きい n n n のとき
μ = x 1 + x 2 + ⋯ + x n n = ( ε 1 + θ ) + ( ε 2 + θ ) + ⋯ + ( ε n + θ ) n = ε 1 + ε 2 + ⋯ + ε n n + θ ≃ θ \begin{align*}
\mu &= \frac{x_1+x_2+\cdots+x_n}{n}\\
&=\frac{(\varepsilon_1+\theta)+(\varepsilon_2+\theta)+\cdots+(\varepsilon_n+\theta)}{n}\\
&=\frac{\varepsilon_1+\varepsilon_2+\cdots+\varepsilon_n}{n}+\theta\\
&\simeq\theta
\end{align*} μ = n x 1 + x 2 + ⋯ + x n = n ( ε 1 + θ ) + ( ε 2 + θ ) + ⋯ + ( ε n + θ ) = n ε 1 + ε 2 + ⋯ + ε n + θ ≃ θ
となるので μ \mu μ は厳密ではないにしろ、真値にとても近い値となります。
よって、この仮定が無理のないものであることがわかるかと思います。
さて、ここからは再度 ε \varepsilon ε を変数として扱い (4)(5)式を同時に満たすような f ( ε ) f(\varepsilon) f ( ε ) の関数形を求めていきます。
ϕ ( θ ) \phi(\theta) ϕ ( θ ) も ϕ ( ε ) \phi(\varepsilon) ϕ ( ε ) として改めます。
(4)式より
ϕ ( ε 1 ) + ϕ ( ε 2 ) + ⋯ + ϕ ( ε n ) = 0 \begin{align}
\phi(\varepsilon_1)+\phi(\varepsilon_2)+\cdots+\phi(\varepsilon_n)=0
\end{align} ϕ ( ε 1 ) + ϕ ( ε 2 ) + ⋯ + ϕ ( ε n ) = 0
また、(5)式より
ε 1 + ε 2 + ⋯ + ε n = 0 \begin{align}
\varepsilon_1+\varepsilon_2+\cdots+\varepsilon_n=0
\end{align} ε 1 + ε 2 + ⋯ + ε n = 0
です。
(6)(7)式を満たすような ϕ ( ε ) \phi(\varepsilon) ϕ ( ε ) の関数形は ϕ ( ε ) = c ε \phi(\varepsilon)=c\varepsilon ϕ ( ε ) = c ε ( c c c は定数)となります。
証明
(7)式より
ε n = − ∑ i = 1 n − 1 ε i \varepsilon_n=-\sum_{i=1}^{n-1}\varepsilon_i ε n = − i = 1 ∑ n − 1 ε i
(6)式に代入して、両辺 ε 1 \varepsilon_1 ε 1 で偏微分すると、
∂ ϕ ( ε 1 ) ∂ ε 1 + ∂ ϕ ( ε n ) ∂ ε n ∂ ε n ∂ ε 1 = 0 \frac{\partial\phi(\varepsilon_1)}{\partial\varepsilon_1}+\frac{\partial\phi(\varepsilon_n)}{\partial\varepsilon_n}\frac{\partial\varepsilon_n}{\partial\varepsilon_1}=0 ∂ ε 1 ∂ ϕ ( ε 1 ) + ∂ ε n ∂ ϕ ( ε n ) ∂ ε 1 ∂ ε n = 0
∂ ε n ∂ ε 1 = − 1 \frac{\partial\varepsilon_n}{\partial\varepsilon_1}=-1 ∂ ε 1 ∂ ε n = − 1 より
∂ ϕ ( ε 1 ) ∂ ε 1 = ∂ ϕ ( ε n ) ∂ ε n \frac{\partial\phi(\varepsilon_1)}{\partial\varepsilon_1}=\frac{\partial\phi(\varepsilon_n)}{\partial\varepsilon_n} ∂ ε 1 ∂ ϕ ( ε 1 ) = ∂ ε n ∂ ϕ ( ε n )
同様にして、 ∂ ϕ ( ε 2 ) ∂ ε 2 = ∂ ϕ ( ε n ) ∂ ε n \frac{\partial\phi(\varepsilon_2)}{\partial\varepsilon_2}=\frac{\partial\phi(\varepsilon_n)}{\partial\varepsilon_n} ∂ ε 2 ∂ ϕ ( ε 2 ) = ∂ ε n ∂ ϕ ( ε n ) が言えるので、
ϕ ′ ( ε 1 ) = ϕ ′ ( ε 2 ) \begin{align}
\phi'(\varepsilon_1)=\phi'(\varepsilon_2)
\end{align} ϕ ′ ( ε 1 ) = ϕ ′ ( ε 2 )
である。
ε 1 , ε 2 \varepsilon_1,\varepsilon_2 ε 1 , ε 2 はそれぞれ独立で動くので、(7)式が恒等的に成立するためには
ϕ ′ ( ε ) = c \phi'(\varepsilon)=c ϕ ′ ( ε ) = c
となる事が必要( c c c は定数)。両辺積分して
ϕ ( ε ) = c ε + d \phi(\varepsilon)=c\varepsilon+d ϕ ( ε ) = c ε + d
これを(6)式に代入して、(7)式を用いることで d = 0 d=0 d = 0 がわかるので、
ϕ ( ε ) = c ε \phi(\varepsilon)=c\varepsilon ϕ ( ε ) = c ε
となる。
ゆえに、
ϕ ( ε ) = f ′ ( ε ) f ( ε ) = c ε \begin{align*}
\phi(\varepsilon)=\dfrac{f'(\varepsilon)}{f(\varepsilon)}=c\varepsilon
\end{align*} ϕ ( ε ) = f ( ε ) f ′ ( ε ) = c ε
この変数分離形の微分方程式を解くと、
∫ 1 f ( ε ) d f ( ε ) = ∫ c ε d ε ∴ f ( ε ) = exp ( c 2 ε 2 + d ) \begin{align*}
\int \frac{1}{f(\varepsilon)}df(\varepsilon) &= \int c\varepsilon d\varepsilon\\
\therefore f(\varepsilon)&=\exp\left(\frac{c}{2}\varepsilon^2+d\right)
\end{align*} ∫ f ( ε ) 1 df ( ε ) ∴ f ( ε ) = ∫ c ε d ε = exp ( 2 c ε 2 + d )
c , d c,d c , d は定数です。 e d = k e^d=k e d = k と改めて置くと、 f ( ε ) f(\varepsilon) f ( ε ) の関数形は
f ( ε ) = k exp ( c 2 ε 2 ) f(\varepsilon)=k\exp\left(\frac{c}{2}\varepsilon^2\right) f ( ε ) = k exp ( 2 c ε 2 )
となります。
ようやくそれらしいものが出てきました。
係数の決定
公理「両端で0に収束する」より、
lim ε → ± ∞ f ( ε ) = 0 \lim_{\varepsilon\rightarrow\pm\infty}f(\varepsilon)=0 ε → ± ∞ lim f ( ε ) = 0
なので、 c < 0 c < 0 c < 0 です。わかりやすさのため、 c ′ = − c ( c ′ > 0 ) c'=-c\hspace{3mm}(c'>0) c ′ = − c ( c ′ > 0 ) として置き換えます。
f ( ε ) = k exp ( − c ′ 2 ε 2 ) \begin{align}
f(\varepsilon)=k\exp\left(-\frac{c'}{2}\varepsilon^2\right)
\end{align} f ( ε ) = k exp ( − 2 c ′ ε 2 )
次に、「確率密度関数が ∫ − ∞ ∞ f ( ε ) d ε = 1 \int_{-\infty}^\infty f(\varepsilon)d\varepsilon=1 ∫ − ∞ ∞ f ( ε ) d ε = 1 を満たす 」と、「分散が σ 2 \sigma^2 σ 2 である 」という束縛条件を考えることで定数 c ′ , k c',k c ′ , k の値を決定していきます。
なお、以降の計算では、ガウス積分
∫ − ∞ ∞ exp ( − a x 2 ) d x = π a \int_{-\infty}^\infty \exp(-ax^2)dx=\sqrt{\frac{\pi}{a}} ∫ − ∞ ∞ exp ( − a x 2 ) d x = a π
が多く出てきます。(わからない場合はリンク先などを参照してください。)
一つ目の条件、「全積分が1 」を考えます。ガウス積分を利用すると、
∫ − ∞ ∞ k exp ( − c ′ 2 ε 2 ) = k 2 π c ′ = 1 \begin{align}
\int_{-\infty}^\infty k\exp\left(-\frac{c'}{2}\varepsilon^2\right)=k\sqrt{\frac{2\pi}{c'}}=1
\end{align} ∫ − ∞ ∞ k exp ( − 2 c ′ ε 2 ) = k c ′ 2 π = 1
となります。
二つ目の条件、「分散が σ 2 \sigma^2 σ 2 である 」を考えます。
V [ ε ] = E [ ε 2 ] − ( E [ ε ] ) 2 = ∫ − ∞ ∞ ε 2 f ( ε ) d ε − ∫ − ∞ ∞ ε f ( ε ) d ε = σ 2 ∫ − ∞ ∞ ε 2 f ( ε ) d ε = ∫ − ∞ ∞ ε 2 k exp ( − c ′ 2 ε 2 ) d ε = k ∫ − ∞ ∞ ε ( − 1 c ′ exp ( − c ′ 2 ε 2 ) ) ′ d ε = k ( [ − ε c ′ exp ( − c ′ 2 ε 2 ) ] − ∞ ∞ + ∫ − ∞ ∞ 1 c ′ exp ( − c ′ 2 ε 2 ) d ε ) = k ( 0 + 1 c ′ 2 π c ′ ) = k c ′ 2 π c ′ ∫ − ∞ ∞ ε f ( ε ) d ε = ∫ − ∞ ∞ ε k exp ( − c ′ 2 ε 2 ) d ε = k [ − 1 c ′ exp ( − c ′ 2 ε 2 ) ] − ∞ ∞ = 0 \begin{align*}
V[\varepsilon]&=E[\varepsilon^2]-(E[\varepsilon])^2\\
&=\int_{-\infty}^\infty \varepsilon^2 f(\varepsilon)d\varepsilon - \int_{-\infty}^\infty \varepsilon f(\varepsilon)d\varepsilon \\
&= \sigma^2\\
\\\\
\int_{-\infty}^\infty \varepsilon^2 f(\varepsilon)d\varepsilon &= \int_{-\infty}^\infty \varepsilon^2 k\exp\left(-\frac{c'}{2}\varepsilon^2\right)d\varepsilon\\
&= k\int_{-\infty}^\infty \varepsilon \left(-\frac{1}{c'}\exp\left(-\frac{c'}{2}\varepsilon^2\right)\right)'d\varepsilon\\
&= k\left( \left[ -\frac{\varepsilon}{c'}\exp\left(-\frac{c'}{2}\varepsilon^2\right) \right]_{-\infty}^\infty + \int_{-\infty}^\infty \frac{1}{c'}\exp\left(-\frac{c'}{2}\varepsilon^2\right)d\varepsilon\right)\\
&=k\left(0+\frac{1}{c'}\sqrt{\frac{2\pi}{c'}}\right)\\
&=\frac{k}{c'}\sqrt{\frac{2\pi}{c'}}\\
\\
\int_{-\infty}^\infty \varepsilon f(\varepsilon)d\varepsilon &= \int_{-\infty}^\infty \varepsilon k\exp\left(-\frac{c'}{2}\varepsilon^2\right)d\varepsilon\\
&= k\left[-\frac{1}{c'}\exp\left(-\frac{c'}{2}\varepsilon^2\right)\right]_{-\infty}^\infty\\
&= 0
\end{align*} V [ ε ] ∫ − ∞ ∞ ε 2 f ( ε ) d ε ∫ − ∞ ∞ ε f ( ε ) d ε = E [ ε 2 ] − ( E [ ε ] ) 2 = ∫ − ∞ ∞ ε 2 f ( ε ) d ε − ∫ − ∞ ∞ ε f ( ε ) d ε = σ 2 = ∫ − ∞ ∞ ε 2 k exp ( − 2 c ′ ε 2 ) d ε = k ∫ − ∞ ∞ ε ( − c ′ 1 exp ( − 2 c ′ ε 2 ) ) ′ d ε = k ( [ − c ′ ε exp ( − 2 c ′ ε 2 ) ] − ∞ ∞ + ∫ − ∞ ∞ c ′ 1 exp ( − 2 c ′ ε 2 ) d ε ) = k ( 0 + c ′ 1 c ′ 2 π ) = c ′ k c ′ 2 π = ∫ − ∞ ∞ ε k exp ( − 2 c ′ ε 2 ) d ε = k [ − c ′ 1 exp ( − 2 c ′ ε 2 ) ] − ∞ ∞ = 0
以上より、次が言えます。
k c ′ 2 π c ′ = σ 2 \begin{align}
\frac{k}{c'}\sqrt{\frac{2\pi}{c'}}=\sigma^2
\end{align} c ′ k c ′ 2 π = σ 2
(10)(11)式を連立することで、
c ′ = 1 σ 2 ( > 0 ) k = 1 2 π σ 2 \begin{align*}
c'&=\frac{1}{\sigma^2}\hspace{2mm}(>0)\\
k&=\frac{1}{\sqrt{2\pi\sigma^2}}
\end{align*} c ′ k = σ 2 1 ( > 0 ) = 2 π σ 2 1
が求められます。これらを(9)式に代入することで、
f ( ε ) = 1 2 π σ 2 exp ( − ε 2 2 σ 2 ) \begin{align}
f(\varepsilon)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{\varepsilon^2}{2\sigma^2}\right)
\end{align} f ( ε ) = 2 π σ 2 1 exp ( − 2 σ 2 ε 2 )
となります。
これで ε = x − μ \varepsilon=x-\mu ε = x − μ の確率密度関数が求められました。
正規分布の式
ε = x − μ \varepsilon=x-\mu ε = x − μ を(12)式に代入してみます。
f ( x − μ ) = 1 2 π σ 2 exp ( − ( x − μ ) 2 2 σ 2 ) \begin{align*}
f(x-\mu)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)
\end{align*} f ( x − μ ) = 2 π σ 2 1 exp ( − 2 σ 2 ( x − μ ) 2 )
μ \mu μ は確率変数ではなく定数なので、結局 x x x の確率密度関数は
f ( x ) = 1 2 π σ 2 exp ( − ( x − μ ) 2 2 σ 2 ) \begin{align*}
f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)
\end{align*} f ( x ) = 2 π σ 2 1 exp ( − 2 σ 2 ( x − μ ) 2 )
となります。やっとたどり着けました。
今回のまとめ
ガウスの公理を出発点として、同時確率がX = μ X=\mu X = μ で最大となるという仮定のもとで、正規分布が導出される。
参考
「Theory of the motion of the heavenly bodies moving about the sun in conic sections」Book II Section 3, Carl Friedrich Gauss
正規分布の発見:http://www.math.s.chiba-u.ac.jp/~yasuda/statA/072.pdf
ガウス分布の導出:http://www.eng.niigata-u.ac.jp/~nomoto/7.html
正規分布(ガウス分布)の式の導出:https://www.youtube.com/watch?v=P9t5q6GugZA