データの確率分布タイプを決定する方法

目次:

Anonim

システムまたはプロセスに関するデータを収集したら、次のステップはどのタイプの確率分布を持っているかを判断することです。確率分布の種類は次のとおりです。離散一様分布、ベルヌーイ、二項分布、負の二項分布、ポアソン分布、幾何分布、連続一様分布、正規分布(ベルカーブ)、指数分布、ガンマ分布、およびベータ分布。可能性のリストからほんの少しでも絞り込むことで、どれが最も近いRの2乗値であるかを決定することがはるかに速くなります。

あなたが必要とするアイテム

  • グラフ作成ソフトウェア

  • Rの2乗値を計算する手段(最適解析)

データ型を視覚的に表現するためにデータをプロットします。

どのようなデータ分布を持っているのか、そしてデータをモデル化するために使用する方程式の種類を決定するための最初のステップの1つは、それがあり得ないものを除外することです。 •データセットにピークがある場合は、離散一様分布にはできません。 •データに複数のピークがある場合、それはポアソンまたは二項ではありません。 •単一の曲線があり、二次ピークがなく、両側に緩やかな勾配がある場合は、ポアソン分布またはガンマ分布の可能性があります。しかし、それは離散一様分布にはなり得ません。 •データが均等に分布していて、片側に偏っていない場合は、ガンマ分布またはワイブル分布を除外しても安全です。 •関数がグラフ化された結果の中央に一様な分布またはピークを持つ場合、それは幾何学的分布または指数分布ではありません。 •要因の発生が環境変数によって異なる場合、それはおそらくポアソン分布ではありません。

確率分布タイプが絞り込まれた後、可能性のある各タイプの確率分布のR 2乗分析を行います。最も高いRの2乗値を持つものが最も正しい可能性があります。

異常値データポイントを1つ削除します。次にRの2乗を再計算します。同じ確率分布タイプが最も近いものとして出現する場合、これがデータセットに使用する正しい確率分布であるという高い確信があります。

ヒント

  • データに複数のピークが広い分散を示す場合、2つの別々のプロセスが進行しているか、サンプリングされている製品が混在している可能性があります。データを収集してから再分析してください。

警告

後のデータセットに対して生成された方程式を検証して、データセットに対してまだ正確であることを確認します。環境要因とプロセスドリフトが現在の方程式とモデルを不正確にした可能性があります。