指数分布(Exponential distribution)は連続確率分布の一種であり、独立のランダムイベントの時間間隔の確率を表すために使用できます。例えば、赤ちゃんの出産期間の時間間隔、乗客が空港に入る間の時間間隔、カスタマーサービスセンターへの電話を掛ける間隔、システムにバグが発生する時間間隔などです。
EXPONDIST関数は、指数分布を返すために使用されます。 EXPONDIST関数を使用して、イベント間の時間間隔のモデルを作成できます。例えば、銀行のATMから現金取り出すのにかかる時間を計算する場合、EXPONDIST関数を使用して、この過程が1分間続く確率を計算できます。EXPONDIST関数の構文は次のとおりです。
EXPONDIST(x,lambda,cumulative)
EXPONDIST(x,λ,関数形式)
引数xは関数の値で、 λはパラメーター値で、関数形式は計算に使用する指数関数の形式を表す論理値を指定します。関数形式はTRUEの場合、戻り値は累積分布関数となり、FALSEの場合は、確率密度関数を返します。
目次
指数分布の由来
指数分布はポアソン分布に関連しており、実際にはポアソン分布から導き出すことができます。
ポアソン分布は(確率統計15)にすでに説明しました。二項分布の近似であることに加えて、独立したイベントの発生頻度が固定されている場合、ポアソン分布は単位時間にイベントが発生する回数の確率分布を計算できます。
例えば、ある会社はバグがあるシステムを使用していて、1週間の平均故障回数は2回ですが、翌週に故障が発生しない確率はどれくらいですか?
1週間の平均故障数は2回であるため、“1週間”を単位時間と見なすことができます。プログラムの故障率はλ=2で、単位時間あたりの故障回数Xはポアソン分布X~Po(λ)に対応します。翌週に故障が発生しない確率は故障が0回に発生する確率に相当します。
次には2週間以内に故障が発生しない確率を計算します。 確率変数T>2を使用して、システムが2単位時間で故障しないイベントを表します。翌週に故障が発生しない確率は分かる場合には、P(T>2)の計算は簡単です。
考え方を変えます。上記では、“1週間”を単位時間と見なし、単位時間内のイベントの発生頻度はλ=2です。今は単位時間が元の2倍になり、故障の頻度は2λ=4になります。これより、2週間以内に故障が発生しない確率は次のとおりです。
結果は①に等しくなります。
時間は連続しています。T=1.5週間で故障がない確率を計算すると、①が無用になります。ただし、②は問題がありません。単位時間あたりのイベントの頻度λが時間Tでスケーリングされている限り大丈夫です。
問題を任意の時間間隔に適用します。
逆に、時間t内に故障が発生する確率は1-P(T>t)です。
次には、TをXに置き換えます。
F(x;λ)は指数分布の分布関数であり、λは単位時間あたりのイベントの平均回数を表し、確率変数Xは時間間隔を表します。
F(x;λ)に対応する密度関数は次のとおりです。
確率変数Xは、X~E(λ)で表されるパラメーターλ> 0の指数分布に適合します。
一部の資料には次のように書かれています。
1/λをθに置き換えるだけです。
無記憶性(メモリーレス)
指数分布の重要な特徴は無記憶性(Memoryless Property、メモリーレスとも呼ばれます)です。確率変数が指数分布X~E(λ)、s, t ≥0の場合:
次にはこの方程式が成り立つ理由を答えます。
これより、方程式が成り立ちます。
上記の解答過程から分かります。
累積確率は面積に対応します。この結論は、指数分布で、P{X>s+t}toP{X>s}に対応する面積の比率がP{X>t}に対応する面積と総面積の比率に等しいことを示しています。
無記憶性を理解する
指数分布は、独立したランダムイベントの発生の時間間隔の確率分布を表すために使用できることはすでに分かります。精密部品の信頼性研究では、指数分布は通常、部品の欠陥数量の測定結果を表すために使用されます。ただし、無記憶性は部品がs(時間)を経過した後、寿命分布が、元の寿命分布と同じであることも示しています。 これは、10年間に使用した電球と購入したばかりの新しい電球は来年が同じように廃棄される可能性が同じです。
次には有名な課題である“ギャンブラーの誤謬”の原理を説明します。例えば、大小(シックボー)にしか賭けられないとします。ギャンブラーは10回連続で大に賭けていますが、すべて負けました。したがって、ギャンブラーは次回の小賭けの可能性は非常に低いと考えています。 そのため、彼はすべての本金を大に賭けて、失った金を取り返すつもりです。
ギャンブラーの本金が取り返す確率を分析して見ましょう。
例えば、これが公正的な賭場で、大小の確率は0.5であり、確率変数Xは、“大”が最初に出現する時、進んだゲームの回数を示します。Xは幾何分布に適合します。
その中で、pは“大”の確率を表し、qは“小”の確率を表します。“大”が11回目から初めて出現する確率は0.511で、これは非常に小さい数値であるため、ギャンブラーが実際に運が悪かったことを示しています。
次、X>10で“大”が連続10回以上出現しないイベントを表し、次回(11回目)に“大”が出現する確率を分析します。
連続で“大”を賭しても10回負け、次回に“大”を出現する確率は1回目に“大”を出現する確率と同じです。ギャンブラーにとっては、毎回も新しいゲームであるため、次回勝つ確率は以前の結果とは関係ありません。これはいわゆる無記憶性です。
指数分布は幾何分布に似ています。ただ離散型確率変数が連続型になりました。
実際、生活にはたくさんの無記憶性の例があります。例えば、宝くじの抽選などです。宝くじに参加する人にとって、各宝くじに当選する確率は同じです。当てる確率は1%だとはっきりといわれていましたが100回に参加すると、必ず1回当てるのではないでしょうか?実際にはそうではありません。1%の確率は大数の法則でのみ有効であり、実際の生活では“少数”に直面することがよくあります。次にはプログラムで実行しましょう。
import numpy as np
np.random.seed(41)
for i in range(1, 11, 1):
m = 100 * i # テストの回数
nums = np.random.randint(1, 101, 200) #ランダムに1〜100からm個の数字を選択する
p_50_size = nums[nums == 50].size # m個の数字で“50”の出現回数
print('宝くじに{}回に参加し、{}回に当てる、{}の確率'.format(m, p_50_size, p_50_size/m))
結果は次となります。
- 宝くじに100回に参加し、0回に当てる、0.0の確率
- 宝くじに200回に参加し、0回に当てる、0.0の確率
- 宝くじに300回に参加し、3回に当てる、0.01の確率
- 宝くじに400回に参加し、3回に当てる、0.0075の確率
- 宝くじに500回に参加し、2回に当てる、0.004の確率
- 宝くじに600回に参加し、3回に当てる、0.005の確率
- 宝くじに700回に参加し、4回に当てる、0.005714285714285714の確率
- 宝くじに800回に参加し、3回に当てる、0.00375の確率
- 宝くじに1000回に参加し、5回に当てる、0.005の確率
月ごとに一回抽選が行われ、一生を過ごしても“大数”を満足させることはできません。宝くじでお金持ちになることは頼りになりません。。
無記憶性の原因で、指数分布に従う確率変数は、物語の“金魚は7秒しか記憶がない”のと同じようです。、指数分布は損失を無視するため、指数分布の応用を制限しています。それでも、指数分布は信頼性が高い複雑な精密部品、マシン、またはシステムの故障分布モデルとして、特に精密部品またはマシンの完全なマシンテストに応用されています。
電球の寿命が指数分布に一致するかどうかについては、実際にはわかりません。確かに製造手段が改善され、電球はすでに信頼性の高い製品になっていますが、電球が明日も正常に使用できるかどうかは、外力による損傷の有無に完全に依存します。日常の摩耗は無視できます。この場合、電球の寿命は指数分布に一致する可能性があります。
典型的なケース
関数の値とパラメータの値がわかっているので、累積指数分布関数と確率指数分布関数を返してみます。 基礎データは下記の図に示します。
ステップ1: “EXPONDIST.xlsx”を開きます。
ステップ2: セルA5に数式“=EXPONDIST(A2,A3,TRUE)”を入力して、累積指数分布関数を返します。
ステップ3:セルA6に数式“=EXPONDIST(0.2,10,FALSE)”を入力して、確率指数分布関数を返します。 計算結果を下記の図に示します。
使用方法
xまたはlambdaがデータ型以外の場合、EXPONDIST関数はエラー値“#VALUE!”を返します。 x<0の場合、EXPONDIST関数はエラー値“#NUM!”を返します。lambda≤0の場合、EXPONDIST関数はエラー値“#NUM!”を返します。確率密度関数の数式は次のとおりです。
累積分布関数の数式は次のとおりです。
コメントを残す