Excelを使ってヒストグラムを作成する前に、Excelを使って乱数を生成する機能を説明します。これら2つの機能は関連性が高いです。一緒に勉強することで、統計学のさまざまな分布の概念をより深く理解できます。
この記事の知識ポイント:
- データ分析ツールライブラリ:乱数ジェネレーター
- 離散変数と連続変数
- 均一分布、二項分布、ベルヌーイ分布、ポアソン分布、正規分布、離散確率分布
Excel 2016にはデータ分析機能があり、データ分析にExcelを使用するデータ分析初心者のほとんどのニーズを満たすことができます。
具体的な位置は[データ]-[データ分析ツール]です。
ここでは、その機能――乱数生成器のいずれかを説明します。
乱数生成器は、その名前が示すように、乱数を生成するために使用されます。生成器のいくつかのパラメーターの意味は次のとおりです。
- 変数の数:出力データの必要な列数
- 乱数の数:出力データに必要な乱数の数
- 分布:乱数分布の方法です。均一、正規、ベルヌーイ、二項、ポアソン、モード、離散分布があります
- パラメータ:異なる分布を選択すると、異なるパラメータになります。これについては後で1つずつ説明します。
- ランダム シード:ここに、乱数の生成に使用されるオプションの値を入力すると、後で同じ乱数を生成するために再利用できます。
- 出力オプション:出力は、ワークシートの特定の領域、新しいワークシートまたは新規ブックにすることができます。
目次
乱数生成器
均一
均一乱数のパラメータはXX〜XXの間で、一方は下限、もう一方は上限を表し、上限と下限の間で連続一様に乱数を生成するために使用されます。これはRAND関数と同等です。この関数はデフォルトで0から1までの乱数を生成します。上限と下限を調整できます。 次の図に示すように、ここでは乱数生成器を使用して、0から1までの100個の乱数の列を一様に分布します。
統計学で、変数は、変数値が連続であるかどうかに応じて、連続変数と離散変数に分割できます。連続変数は、特定の間隔内で任意に選択できます。2つの隣接する値は無限に分割でき、値の範囲は実数で、および離散変数は通常整数と見なされ、データは単一の値で構成されます。RANDによって乱数を生成する以外、式にはRANDBETWEEN(下限、上限)があり、離散の乱数を生成します。
連続と離散の違いを比較すると理解できます。上の図では、列BはRAND関数で生成された0から1の間の乱数です。これは、均一に生成された乱数です。列CはRANDBETWEEN関数で生成された離散型の乱数であるため、離散乱数が独自の値であり、連続乱数が常数をランダムに一様であることがわかります。
二項式
二項分布の条件:
- 一連の独立した試行を実施する
- すべての試行には成功と失敗の可能性があり、成功の確率は同じ
- 試行回数が限られている
二項分布はX~B(n,p)に記述されます。Xはn回の試行での成功した回数を表し、求めるのは成功した回数であり、確率は次のとおりです。
pは各試行での成功の確率で、q=1-pは各試行での失敗の確率です。
二項分布の期待値はE(X)=npで、分散はVar(X)=npqであり、二項分布は離散確率分布です。
乱数生成器で10個の乱数の列を生成し、パラメータP(A)は上記のP(X=r)の確率であり、試行回数はnであり、生成された乱数は列Jのようになります。この例では仮に10個の質問があり、各質問には4つのオプションがあることがわかります。質問に対する各答えの確率は0.25です。二項分布は、質問に対するr個の正解の確率を求めます。乱数は答えが正しい質問の番号です。
ベルヌーイ
ベルヌーイ分布は0-1分布とも呼ばれ、離散型の確率分布であり、n=1の二項分布の特殊表現です。その変数は0と1で、ベルヌーイ分布の期待値はE(X)=pで、分散はVar(X)=pqです。
乱数生成器では、入力されるパラメータの確率はP = 1です。ここでは、0と1のみの100個の乱数の列を生成しました。ここで、p=1の確率は0.5です。
ポワソン
ポワソン分布の条件:
- 個々のイベントは、特定の間隔内でランダムに独立して発生します。指定された間隔は、時間またはスペースにすることができます。
- この間隔でのイベントの平均発生数は有限の値であることが知られています。
ポアソン分布は次のように記述されます。X~Po(λ)。Xは特定の間隔でのイベントの発生回数を表します。特定の間隔でr回発生する確率は次のとおりです。
ポアソン分布の期待値はE(X)=λ、分散はVar(X)=λであり、ポワソン分布は離散型です。
乱数生成器によって100個の乱数の列を生成します。パラメータは上の図に示されています。つまり、特定の間隔でのイベントの平均発生回数または発生確率であり、整数である必要はありません。生成された乱数は、示されている列Gのようなものです。仮に特定のガソリンスタンドでは、1時間あたり平均10台の車両が給油していることがわかります。ポワソン分布は、このガソリンスタンドで1時間あたりに給油する車両の数の確率を計算します。乱数は1時間当たり給油する車両の数を100回に試行します。
正規
二項分布やポワソン分布とは異なり、正規分布はガウス分布とも呼ばれる連続分布であり、正規分布はパラメータの平均値と分散によって決定されます。正規分布は次のように記述されます。X〜N(N(μ、σ2))
乱数生成器には、平均値と標準偏差の2つのパラメータがあります。標準偏差は分散の平方根であり、分散は数値と平均値の間の差の2乗の平均値です。分散はすでにデータの分散の程度を反映できますが、標準偏差はより直感的です。標準偏差が小さく、数値が平均値に近いほど、正規分布の曲線は平坦で広くなります。
100個の乱数の列を生成します。これらの100個の乱数は、標準正規分布に適合しています。平均値は0、標準偏差は1です。
パターン
下限と上限、ステップ、数値の繰り返し回数、および数列の繰り返し回数を特徴付けます。EXCELの“パターン”によって生成される反復数列は同じステップに応じて生成されます。
乱数生成器では、下限は数値の最小値、上限は数値の最大値、ステップは数値の間隔です。例えば1〜4、間隔1によって1、2、3、4の乱数を生成します。間隔が2の場合、1と3の乱数を生成します。数値の繰り返し回数は、各数値が繰り返される回数であり、数列の繰り返し回数は、数列が繰り返される回数です。例えば、1から4まで、間隔1で、各数値を2回繰り返し、数列を3回繰り返して、112233441122334411223344の乱数を取得します。
離散
離散のパラメータは値と確率が入力範囲です。左側の列は値であり、右側の列は値の確率であり、確率の合計は1でなければなりません。仮に離散乱数は4つの数値10、15、20、25を100個に生成します。列Hを参照してください。この中で、10の発生の確率は0.1、15の発生の確率は0.4、20の発生の確率は0.3、25の発生の確率は0.2です。列Dと列Eを参照してください。列Dと列Eはパラメータの入力範囲です。
これまで、Excelで乱数を生成する方法を理解すると同時に、生成された乱数の分布特徴を理解しました。生成された乱数に対して頻度分布ヒストグラムを作成する方法について、以下で詳細に説明します。
度数分布ヒストグラムの作成方法
ヒストグラムとは何ですか?
定義
ヒストグラムは棒グラフであり、グループの間隔をベース、頻度を高さとして、一連の接続されたヒストグラムの長方形グラフです。
関連する概念
- グループの数:統計データの場合、データは範囲ごとにいくつかのグループに分割され、分割されたグループの数はグループ数と呼ばれます。
- グループの間隔:各グループの2つの端点の間の差
- 上限値:Tu
- 下限値:Tl
- 中央値:M =(Tu + Tl)/ 2
ステップ
- 最大値と最小値を求めます。
- データをいくつかのグループに分割し、それらにマークを付けます。
- グループ間隔の幅を計算します。グループ数を最大値と最小値の差(極値の差)で割って、グループ間隔の幅を求めます。
- 各グループの制限を計算します。各グループの制限は、最初のグループから順番に計算できます。最初のグループの下限は、最小値から最小測定単位の半分を引いたものであり、最初のグループの上限は、その下限にグループ距離を加えたものです。2番目のグループの下限は最初のグループの上限であり、2番目のグループの下限にグループ間隔を加えたものが2番目のグループの上限です。
- データの各グループの頻度を数え、頻度分布テーブルを作成します。
- ヒストグラムを作成します。 グループの間隔を下部の長さ、頻度を高さとして、各グループの長方形のグラフを作成します。
注意点
1、データ量が50個以上。
2、グループの数は5〜12である必要がある。
3、許容範囲(T)、サンプルサイズ(n)、サンプル平均(x)、サンプル標準偏差値(s)、およびxの位置をヒストグラムにマークする必要がある。
実例:Excelでヒストグラムを作成する
データソースを取得する
上記で説明した乱数生成器によって、正規分布に一致する平均値0と標準偏差1の100個のデータをランダムに生成し、これらの100個のデータを使用して頻度分布ヒストグラムを作成します。生成されたデータは列Aに表示されます。
対応する値を計算する
このセットのデータの数量、最大値、最小値、平均値、極値の差(最大値-最小値)、グループの数、およびグループの間隔を計算する必要があります。対応する式を次の図に示します。
- グループの数:グループの数は、配列が分割されるグループの数です。これは、データの数量の平方根を取り、次に切り上げることによって計算されます。
- グループの間隔:グループの間隔は、各グループの数の2つの端点間の差であり、範囲をグループの数で割って計算されます。
データの記述統計分析の値を直接生成する別の方法はExcel——データ分析ツール——基本統計量です。セットのデータに対して基本統計量はデータソースの単変量統計の分析レポートを作成するために使用されます。グループの数、およびグループの間隔は手動で入力する必要があります。ここでの記述統計分析は、データの傾向と変動性に関する情報を提供するためにのみ使用されます。
次の図に示すように、入力範囲はデータソースである列Aで、統計情報はF列にあります。統計情報は、式で計算された結果と一致していることがわかります。
グループ
次にグループ化すると、図に示すように、最初のグループの下限は最小値より少し小さく、最初のグループの上限は最初のグループの下限+グループの間隔になります。
グループ化が完了した後の各グループの頻度を求めるには、数式FREQUENCYを使用し、セルC2からC14を選択し、下図の数式を入力してから、“Ctrl+Shift+Enter”キーの組み合わせを押して各グループの頻度を求めます。
数式を入力せずに頻度を直接取得する別の方法があります。データ分析からヒストグラムを選択します。入力範囲は生成された乱数、データ区間はグループ化です。
入力範囲はデータソースの列であり、データ区間はグループ化の列です。
次の頻度分布表とヒストグラムが得られ、式で計算した頻度が一致であることがわかります。
グラフを調整する
データ系列の書式設定で要素の間隔を0に調整します。
最後に、グラフをイメージ通りに調整します。
ヒストグラムの判断条件
普通のヒストグラムは標準の正規分布グラフに適合しており、両側が低く、中央が高くなっています。上記のヒストグラムは一般型ではありません。
ヒストグラムの形状が一般型に適合している場合は、平均値と許容誤差を比較してさらに評価できます。平均値と許容誤差のほぼ一致の場合は理想的な形状です。
コメントを残す