記録帳

クラウド、データ分析、ウイスキーなど。

一様分布を侮るなかれ

皆さんこんばんは。すっかり寒くなってきましたね。

11月といえば、勤労感謝の日、ポッキープリッツの日…そう、統計検定1級の受験日ですね。

今年の受験日は11/21(日)なので、あと1週間となってしまいました。

一応今年の夏から勉強してはいますが、やはり難しい。

ここまで、おそらく60時間くらいは勉強しているはず。ただ、それでももちろん全範囲は終わっていないし、かつ理解も結構甘い。

やはり、正規分布やベータ分布が絡むところの積分計算や、点推定の分野の不偏性、一致性の証明など、難しい!!!

半分あきらめモードで進めています。

ただ、その中でも、「これ覚えてないと無理ゲーだけど、知ってたら結構おいしいな」という問題がありました。

それは、一様分布。2017年から2019年までは皆勤賞です。しかも、分布自体が非常に簡単なので、単純な期待値とか聞いてきません。

特に詰まったのは2018年問5で出てきた、順序統計量についてでした。この過去問を使いながら、一様分布の順序統計量について解説していこうと思います。

2018年統計数理 問5
確率変数X1,X2,X3は互いに独立に区間(0,1)上の一様分布に従うとし、それらの順序統計量をX_(1)≦X_(2)≦X_(3)とする。Y1=X_(1), Y2=X_(2), Y3=X_(3)と置き、Z=Y3-Y1としたとき、以下の各問に答えよ。

[1] Y1とY3のそれぞれの確率密度関数f1(y), f3(y)および期待値E[Y1], E[Y3]を求めよ。
[2] Y2の確率密度関数f2(y)を求めよ。また、確率P(Y2<0.5)はいくらか。
[3] Zの期待値及び分散を求めよ。

これが問題となります。

まず、

それらの順序統計量をX_(1)≦X_(2)≦X_(3)とする。Y1=X_(1), Y2=X_(2), Y3=X_(3)と置き

この部分で私は???となりました。何言ってんの?と。

X1,X2,X3はそれぞれ確率変数です。確率変数は、前の記事で紹介した通り、「現実の事象を値に変換する関数」でした。つまり、これらの確率変数は実際の値の何かしらを取るわけです。

その結果、X1,X2,X3には大小関係が生じます。X2が一番大きくて、X1が次に大きく、最後がX3などです。どのXが来るかはわからないですが、

一番大きな確率変数X→Y3、2番目に大きな確率変数X→Y2、一番小さな確率変数X→Y1

ということになります。これらを理解して問題に入りましょう。

[1] Y1とY3のそれぞれの確率密度関数f1(y), f3(y)および期待値E[Y1], E[Y3]を求めよ。

まずはそれぞれの確率密度です。一様分布の確率密度となったら、まずは積分布関数を求めましょう。それを微分したら確率密度関数ですからね。

簡単な方から求めたいため、F3(y)を求めます。

積分布関数は、ある値以下を取る確率と等しいのでした。つまり、以下で表せます。

F3(y) = P(Y3 ≦ y)

Y3(X1,X2,X3の中で一番大きなX)がy以下の時の確率です。

画像で見ると、こんなイメージ。(今、仮にX2<X3<X1としてます)

f:id:supa25:20211114194112p:plain
1

この時の確率を求めたいです。

今回複雑なのは、「X1,X2,X3の大小関係が分からない」からですよね。しかし、今回の場合って、それが分からなくても求められませんか?

なぜなら、一番大きいX(Y3)よりもyが大きければいいのです。つまり、X1,X2,X3の大小関係に関係なく、これら3つすべてよりyが大きくなければいけません。

そのため、

F3(y) = P(Y3 ≦ y) = P(X1 ≦ y) × P(X2 ≦ y) × P(X3 ≦ y) = y^3

となります。

それぞれの確率がyになるのは、以下のように、一様分布の面積が確率になることから、1×y=yと求められます。

f:id:supa25:20211114194724p:plain
2


次は、F1です。こちらはこんなイメージ。

f:id:supa25:20211114194905p:plain
3

一番小さいXよりも、yが大きい時ですね。普通に考えると、yのエリアはXの大小関係が関係してきそう…。

どうにか、「Xの大小関係に関わらず」出したい!そう思いますよね。

…そんな時は、補集合に目を向けます。この画像のX2以下ではない部分がyですよね。つまりは、その部分を1から引けば、求めたい領域となります。

F1(y) = P(Y1 ≦ y) = 1 - P(X1 ≧ y) × P(X2 ≧ y) × P(X3 ≧ y) = 1 - (1-y)^3

となります。さっきと大なり小なりの向きが逆であることに気を付けてください。

先ほどの面積の図の逆部分の面積なので、(1-y)となりますね。

ここまで求めたら、あとは微分すればOK。期待値も、定義通りの計算で求められます。

[2] Y2の確率密度関数f2(y)を求めよ。また、確率P(Y2<0.5)はいくらか。

これが結構ポイントの問題。先ほどは、うまくXが関係ないように考えて求められました。しかし、今度はY2ということで以下のようなイメージ。

f:id:supa25:20211114195330p:plain
4

今は仮にX2<X3<X1と置いていますが、それが崩れるとこのyの領域の求め方も異なってきてしまいますね。

ただ、ここでも基本姿勢である「Xの大小関係に関わらないところがないかな」という方針で考えていきます。

すると、このピンクの部分は、結局さっきと同じく大小関係関わらず出せることが分かります。

これは、

P(X1 ≦ y) × P(X2 ≦ y) × P(X3 ≦ y) = y^3

ですね。

f:id:supa25:20211114195518p:plain
5

次は、この部分です。この間の部分は、Xの順序に関係してきてしまいます。

ただ、今回はX1 ≧ y, X2,3 ≦ y となってますね。この確率は、

P(X1 ≧ y, X2,3 ≦ y) = (1-y)y^2

ですね。そして、Xの組み合わせは他にX2 ≧ y, X1,3 ≦ y と X3 ≧ y, X2,1 ≦ y で合計3通りあります。

(順列で考えると6通りですが、X2,3 ≦ yの部分は1通りなので、全部で3通り)

よって、3をかけて 3(1-y)y^2 となります。

f:id:supa25:20211114195625p:plain
6

さて、この2つの領域すべてを考えると、上記の2つを足して

y^3 + 3(1-y)y^2

となります。あとはこれを微分です。

確率P(Y2<0.5)は、これも普通に計算すれば求められます。

[3] Zの期待値及び分散を求めよ。

さて最後です。ここにもポイントが1つ。

期待値は、Z=Y3-Y1というところから、

E[Z] = E[Y3-Y1] = E[Y3] - E[Y1]

ですぐに求められます。

分散はこうも簡単にいかないので、

V[Z] = E[Z^2] - {E[Z]}^2 から求めます。2項目は上で出した期待値なので、問題はE[Z^2]です。

さらにZ=Y3-Y1から、

E[Z^2] = E[Y3^2] -2E[Y1・Y3] +E[Y1^2]

となりますね。1項目、3項目は期待値の定義から積分計算で出せますが、2項目の-2E[Y1・Y3]の導出がポイントとなります。

これも定義通り計算するためには、f(y1, y3) という同時確率密度関数が必要になります。

そしてこれを求めるためには、F(y1, y3) という同時累積分布関数を考えます。

F(y1, y3) = P(Y1 ≦ y1, Y3 ≦ y3) となり、イメージはこちら。

f:id:supa25:20211114201758p:plain
7

この同時確率、明らかにわかりにくいですね。

ただ、y3の方は前と同じようにXの順序に関係なく求められそう。問題はy1の方です。これをどうにか補集合の方に持っていきたいと考えます。

そこで、P(Y1 ≦ y1, Y3 ≦ y3) をこの表のように考えてみます。

f:id:supa25:20211114201922p:plain
8

この表から、このピンクの部分を求めるために、このように求めてもよさそうなことが分かります。

f:id:supa25:20211114202140p:plain
9

つまり、このように表せます。

F(y1, y3) = P(Y1 ≦ y1, Y3 ≦ y3) = P(Y3 ≦ y3) - P(Y3 ≦ y3, Y1 > y1)

2項目のP(Y3 ≦ y3, Y1 > y1)の部分のイメージはこちら。

f:id:supa25:20211114202255p:plain
10

これなら、順番関係なくいけそうです。

X1,X2,X3はy1より大きく、y3より小さいですね。つまり

F(y1, y3) = P(Y1 ≦ y1, Y3 ≦ y3) = P(Y3 ≦ y3) - P(Y3 ≦ y3, Y1 > y1) = P(Y3 ≦ y3) - P(y1 ≦ X1, X2, X3 ≦ y3) = y3^3 - (y3-y1)^3

となります。最後の変形は、一様分布の面積で分かると思います。ここまでくれば計算して、分散を求められます。



さて、一様分布1つをとっても結構とっつきにくいところもあったと思います。

今回のテストでも一様分布についてが出ることを祈りながら、ラスト一週間頑張ります。