統計的仮説検定について【実際に使おうと思うと難しいので、簡単に】

WRITER
 
この記事を書いている人 - WRITER -

統計的仮説検定って、難しいですよね。
QC2級の一番の関門だと思います。

難しいくせに実務であんまり使わないのでムカつきますが、
これ、生産管理とか品質管理をする部門で使ってみると
色んな事が分かって楽しいです。

 

今回は、QC2級を目指す会社の後輩と一緒に実務へ導入したので、
その内容をシェアしたいと思います。

 

今回のスライドはこちらからDLできます。

統計的仮説検定

 

 

良かったらフォローお願いします。
X(旧Twitter):(@Japan_MFG_Tomo

統計的仮説検定なんて難しい話をする前に、共有しておきたい感覚の話

不良率は下がった?

 

現場から、
「不良率が10%から5%に下がりました!」
と報告されました。

これってすごいことなのでしょうか?
あなたが、この人の上司だったと仮定して、
どんなことを思いますか?

  • そもそも10%も不良があったことが問題だ
  • まだ5%も不良率があるなんて、けしからん

なんて思ったりするでしょうか?

色々客観的に物を考えてみると、今から私が言うことに納得すると思います。

そもそも、5%とか10%って、悪い数字なの?

 

  • 小さい部品のような、単価が勝負の安い製品であれば、基準にする不良率はゼロに近いので、答えは「悪い」でしょう。
  • 医療業界では、不良が出ると人の健康にかかわるので、同じように答えは、「悪い」でしょう。

 

したがって、一般的な回答としたら、「業界による」でしょう。

例えば、他社では出来ないような難しい加工をしている場合は、
不良率10%も、予測の範囲内、5%になったら利益がいっぱい出るので、ボーナスが出るかもしれません。

 

ではこんな場合はどうですか?

 

「不良率が10%から0%に下がりました!」

0%なら業界関係なくすごい事なんですが、
それでも、手放しでは喜べません。

 

その「10%から0%への低減」って、すごい事ですか?

 

答えは、サンプル数次第

 

10%から0%といっても、何個中何個で計算しているのかで、反応は変わると思います。

例えばサンプル数が10個だったら

1回目:10個検査して、不良が1つ見つかった

これで、不良率は10%です。

2回目:10個検査して、不良が1つも見つからなかった

これで、不良率は0%です。

 

あんまり凄さを感じないのが事実ではないでしょうか?

 

では、サンプル数が10,000個だったらどうですか?

 

何となく、凄そうな気がしますよね。

 

参考に、高校数学の範囲で数字を使って実証してみましょう。

サンプルが10個だった場合は、35%の確率で、報告された内容のことが起こります。だいたい1/3です。
サンプルが10,000個だった場合は、0%です。

 

感覚的な物が、数字を使って客観的に表せました。

このように、
たまたま起きたんじゃないよね?

というのを確認するために、統計的仮説検定を使います。

 

では、本題に入ります。

統計的仮説検定とは?

統計的仮説検定とは、「仮説が正しいかどうかを、データから判定する」手法です。

主張したいこと(対立仮説といいます)が真だ!
というために、
主張とは逆の仮説(帰無仮説)
を否定するアプローチをとります。

とはいえ世の中に100%は無いので、
「100%正しい」という事は出来ません。

 

代わりに、95%とか99%とかの信頼性の中で、
判定を行います。

なので、「僕の主張したいことは、95%(または99%)で正しい!」
と主張する形になります。

 

統計的仮説検定っていつ使うの?

母集団(いつもの状態)と変化したかな?という時に、よく使います。

 

過去から今までに得られたビッグデータと、今回得られたサンプルを比較して、
いつもの状態から、今回のサンプルが得られる確率は何パーセント?
というのを計算します。

 

例えば管理図を作っている時に、
得られたサンプルデータが「いつもと違うな」と思ったら

  • 平均が変わったんじゃないの?
  • ばらつきが変わったんじゃないの?

なんてことを確認できます。

他にも、サンプルAとサンプルBに違いがあるのかを検定することもできます。

 

統計的仮説検定の手順

統計的仮説検定の手順は、最初は暗記です。

慣れれば自然にだいたい正しい手順でできるようになります。

 

統計的仮説検定の手順

Step1:帰無仮説、対立仮説を設定する

Step2:有意水準αを決める

Step3:帰無仮説の下で今回起こった事象の発生確率(検定統計量)を計算する

Step4:検定統計量の確率分布をみる

Step5:検定統計量が有意水準の中か、外かを確認する

Step6:帰無仮説を棄却、または採択する

 

上の画像にもうちょっとわかりやすく書いています。

 

検定の種類の選び方

 

簡単にまとめておきます

  • 母平均μの検定(母分散σ2が既知)→Z検定
  • 母平均μの検定(母分散σ2が未知)→t検定
  • 母平均μ1、μ2の検定(母分散σ12、σ22が既知、かつσ1222)→Z検定
  • 母平均μ1、μ2の検定(母分散σ12、σ22が未知、かつσ1222)→t検定
  • 母平均μ1、μ2の検定(母分散σ12、σ22が未知、かつσ12≠σ22または未知)→ウェルチの検定
  • 母分散σ12、σ22の検定→F検定

 

ここはあんまり本質じゃないので、覚える必要はないです。

単純に、こう覚えておけばいいと思います。

  • 母分散が分かる→Z検定
  • 母分散が分からない→t検定
  • 分散の検定は→F検定

これだけ。簡単になりましたね。

 

統計的仮説検定の難しいやつ:統計的誤差について

統計的誤差(誤り、過誤)って難しいですよね。
何となく知っておけばいいので、
あんまり深く悩まないでください。

 

定義は、こうです。

 

第一種の誤り

本当は帰無仮説が正しいのに、棄却してしまう。
本当はセーフなのに、アウトにしてしまう。

第二種の誤り

本当は対立仮説が正しいのに、帰無仮説を棄却しない

本当はアウトなのに、セーフにしてしまう

 

いつも勉強させてもらっている熊野コミチさんが、面白い事を言っていました。

 

毛利小五郎は、罪深い

第一種の過誤と第二種の過誤とは 【覚え方と重要性紹介します!】 | シグマアイ-仕事で使える統計を- (sigma-eye.com)にて

 

毛利小五郎って、どんな人ですか?

色々キャラがありますが、最もヤベーのは、

直感で「犯人はあなただ」と断定してしまうところ。

 

これがまさに第一種の誤り(α)です。

その逆が、第二種の誤り(β)だと覚えれば、分かりやすいですね。

 

「疑わしきは罰せず」「疑わしきは被告人の利益に」という考えは、第一種の誤りの誤りをできるだけ避けたいから、十分な証拠が出たらはじめて、「アウト」と言えるという事になりますね。

 

統計的仮説検定の実用例

Z検定とかt検定とかの基本的なやり方は、QCのテキストにも載っているし、ネットを探せばたくさん出てくるので、仕事で使えそうなものを紹介します。

 

不良率は、下がったのか

 

本記事のはじめの方で行った「不良率は下がったの?
を検定する方法についてです。

 

不良率は、二項分布という特殊な分布(YES,NOの2択しかない)なので、
本来は正規分布で検定はできません。

 

しかし、中心極限定理(たくさんサンプルを集めると、正規分布に近似できる)という便利な決まりがあるので、これを使えば、知ってる知識で検定ができます。

 

母集団の情報

不良率:μ=P(%)

母標準偏差:σ=√(Px(1-P))

 

サンプルの情報

不良率:xbar=p

不偏標準偏差:s=√(px(1-p)/n)

※nはサンプル数

 

仮説の設定

Ho:P=p

H1:P≠p

 

有意水準の設定

α=0.05とする

 

棄却域の設定

uUL=u(0.05)=1.96

uLL=-u(0.05)=-1.96

 

検定統計量の計算

u=(xbar-μ)/√(σ/n)

u=(p-P)/√(Px(1-P)/n)

※これがN(0,12)の標準正規分布に従うと仮定する

判定

計算したuがuULを上回る、またはuLLを下回れば
対立仮説H1を採択、不良率は変わったと言える。

uがuULを上回る→不良率は上昇した

uがuLLを下回る→不良率は低下した

こんな感じになります。

 

この検定の参考文献

生活統計学入門(7)_pdf (jst.go.jp)

 

この記事を書いている人 - WRITER -

Twitter始めました

記事の更新情報、製造業の気になる事などをツイートしています。

よかったらフォローお願いします。

- Comments -

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

Copyright© ものづくり王国にっぽん , 2023 All Rights Reserved.