【 統計学の数式 (By using \({\LaTeX}\))】
【 記号/略号 】
母集団( Population )\(P\)
母平均( Population Mean )\(μ\)
母分散( Population Variance )\(σ^{2}\)
母標準偏差( Population Standard Deviation) \(σ\)
標本数( Sample Size ) \(n\)
標本平均( Sample Mean ) \(\bar{x}\)
標本分散( Sample Variance ) \(s^{2}\)
標本標準偏差( Sample Standard Deviation ) \(s\)
共分散( Covariance ) 変量=2(\(x,y\))\(σ_{xy}\)
相関係数( Correlation Coefficient )(ピアソンのr) \(r\)
相対リスク( Relative Risk )\(RR\)
帰無仮説( Null Hypothesis ) \(H_{0}\)
対立仮説( Alternative Hypothesis ) \(H_{1}\)
有意水準( Significance Level ) \(\alpha\)
正規分布( Normal Distribution ) \(N(μ,σ^{2})\)
( 標準正規分布の場合 \(μ=0\) )標準誤差( SE:standard error ) \(SE\)
【 標本 】
今、標本数( Sample Size )を \(n\) とし、変量を \(x \) とすると
標本平均\[\bar{x}= \frac{\displaystyle\sum^{n}_{i=1}x_{i}}{n} = \frac{1}{n}( x_{1}+x_{2}+ \cdots + x_{n} )\]
標本分散\[s^{2}= \frac{\displaystyle\sum^{n}_{i=1}(x_{i}-\bar{x})^{2}}{n} = \frac{1}{n}\{ ( x_{1}-\bar{x})^{2} + ( x_{2}-\bar{x})^{2}+ \cdots + (x_{n}-\bar{x})^{2} \}\]
標本標準偏差\[s = \sqrt{s^{2}}\]
標準誤差\[SE = \frac{s}{\sqrt{n}} = \frac{\sqrt{\frac{1}{n-1} \displaystyle\sum^{n}_{i=1} (x_{i} - \bar{x})^{2}}} {\sqrt{n}}\]
標準誤差は、一般的に「標本平均の標準偏差」を意味する。
【 母集団 】
母集団についても、平均、分散、標準偏差 の数式は同じ。
各々の記号が異なるだけ。
母平均\[μ= \frac{\displaystyle\sum^{n}_{i=1}x_{i}}{n} = \frac{1}{n}( x_{1}+x_{2}+ \cdots + x_{n} )\]
母分散\[σ^{2}= \frac{\displaystyle\sum^{n}_{i=1}(x_{i}-μ)^{2}}{n} = \frac{1}{n}\{ ( x_{1}-μ)^{2} + ( x_{2}-μ)^{2}+ \cdots + (x_{n}-μ)^{2} \}\]
母標準偏差\(σ = \sqrt{σ^{2}}\)
偏差値\[T = \frac{\displaystyle d_{i} - μ} {σ} \times 10 + 50\]
\((d_{i} \) は個々の値)( 因みに、この偏差値という統計量は、世界では殆ど使われない)
【 多変量 】
二つの変量を、\(x、y\) とし、かつ、
この 二つの変量のサイズは両方とも同じで \(n\) とした時
共分散
\[σ_{xy} = \frac{\displaystyle\sum^{n}_{i=1}(x_{i}-\bar{x})(y_{i}-\bar{y})} {n}\]
\[=\frac{1}{n}\{(x_{1}-\bar{x})(y_{1}-\bar{y})+(x_{2}-\bar{x})(y_{2}-\bar{y})+ \cdots + (x_{n}-\bar{x})(y_{n}-\bar{y})\}\]
この「共分散」を言葉で表すと『\(x の偏差と yの偏差の積の平均\)』となります。
相関係数\[r=\frac{σ_{xy}} {σ_{x}σ_{y}}\]
【 仮説検定( Hypothesis Testing )】
今、標本数( Sample Size )を \(n\) または \(N\) とする。
◆ スタージェスの公式( 適正階級数 )
Sturges' rule\(1 + log_{2}N\)
◆ 相関係数のt検定( \(r\) は相関係数 )
Correlation coefficient ttest\[t=\frac{r\sqrt{n-2}} {\sqrt{1-r^2}} \]
◆ コックス比例ハザードモデル( \(t\) は解析時間、\(x\) は説明変数、\(a\) は各パラメーターの推定値 )
Cox proportional hazard model\(h(t|x)= h_0(t)\exp(a_1x_1 + \cdots + a_nx_n)\)

【 表2 】標準正規分布表
とりあえずは、ここまで なのだワン!
ウータンのブログ


【 相関関係と因果関係 】
ここでは、統計に於ける『Pitfall』について述べます。
右図は、
「男女別 肥満率の年次推移グラフ」(図-1)
です。この資料の原典は
……………………………………
平成30年 国民健康・栄養調査結果の概要
第2部 基本項目
第1章 身体状況及び糖尿病等に関する状況
1.肥満及びやせの状況)(平成 20 30 年)
……………………………………
です。(平成30年 = 2018年)
ここで 肥満率とは、調査対象者の中で、
BMI ≥ 25 (kg/m²)の人の割合(単位 %)となります。
図-1:男女別 肥満率の年次推移グラフ
このグラフを表にしたものが、右表 (表-1)です。そして、この 表-1 から、Excel で、
『男女の肥満率の散布図』を作成してみました。

図-2:男女の肥満率の散布図 表-1:男女別 肥満率の年次推移表
この「図-2」の
横軸(x軸) は、男性の年別の肥満率で
縦軸(y軸) は、女性の、男性と同年の肥満率です。
各プロットに振っている「Hnn」は、平成nn年です。
さて、ここで統計量
M:男性の肥満率
F:女性の肥満率
この二つの統計量の 『相関係数』を、
Excel の「CORREL関数」を使って算出すると
相関係数 r = 0.5269706
が導かれます。
『相関係数』の解釈として、概ね、
・ 0.3未満:ほぼ相関関係はない
・ 0.3~0.5未満:非常に弱い相相関係がある
・ 0.5~0.7未満:相関関係がある
・ 0.7~0.9未満:強い相関関係がある
・ 0.9以上:非常に強い相関関係がある
と言われています。
因みに、二つの事象について、この『相関係数』が
❖ 1の時:完全な正の因果関係がある
❖ -1の時:完全な負の因果関係がある
となりますが、完全に ±1 になることは、まずありません。
そして、上記の、『相関係数』の解釈を踏まえると
MとF との相関係数 r = 0.5269706 は
男性の肥満率と女性性の肥満率は、そこそこ相関関係がある。
という事になりますね。
さて、皆様は
『男性と女性の肥満率に相関関係などない』事は
経験的な知見によって、分っている筈ですね!
ところが
① 受動喫煙の曝露
② 健康被害
といった事象の相関関係については
経験的な知見が備わっておらず、それ故に
ある程度の肩書のある医師や医学研究者が
……………………………………
① と ② の相関関係を示した統計を掲げ
『故に、受動喫煙への曝露は健康被害を齎す』
可能性が、このように高いのです。
……………………………………
と、結論すれば、素人たる読者は
❝なる程、受動喫煙って危険なんだ❞
という認識を形成していく訳なのです。
これは、極論すれば
『未知の論証の誤謬(fallacy of the argument from ignorance)』
に属する論法だと考えられます。
すなわち
「XがYでない事は誰にも証明出来ない。故にXはYである」
という推論形式なのです。
オラッちの主張 ❗
ここで大事な事は
『自分なりの検証を行う』
そして、その際に、
『自分の経験的知見と照合する』
ことだと考えています。
では、では。
ウータンのブログ


ウータン(03/18)
zom(03/18)
ウータン(03/17)
ウータン(03/17)
ウータン(03/15)