回帰分析とは【ある数値を、別の数値から予測するための便利ツール】
こんにちは、トモ(@Japan_MFG_Tomo)です。
日本に帰国して、いまは町工場で働いています。
中国勤務時に学んだ技術知識を社内に伝えながら、
孤軍奮闘で社内のDXを推進しています。
町工場にいると、エンジニアのバックグラウンドが全然違います。
例えば大企業であれば有名な大学院で機械工学を勉強してきたみたいな
エリートが集まっていますが、
町工場では、文系出身だったり、製造業は初めてだったりで
技術的な話は経験から学んできた人が多いです。
そんな人たちと一緒に、最近はQC手法について勉強しているので
その内容をシェアしたいと思います。
今回のスライドはこちらからDLできます。回帰分析
良かったらフォローお願いします。
X(旧Twitter):(@Japan_MFG_Tomo)
回帰分析とは
「あれ、この変数、もしかしたらコレとコレで表せるような関係があるんじゃないの?」
と思った時に、変数と変数の関係を式で表したものです。
y=f(x)の形にして表示します。
例えば身長と体重
体重が重い人って、なんか身長も高い傾向があるような…?
と考えたときに、
体重=(係数a)×(身長)+(定数b)
つまりy=ax+b
という形で、表示します。
これを回帰式と言います。
難しい名前がついてるけど、ただの関数とか、方程式ですよね。
回帰式が作れたら、友達に、
「身長どれくらい~?」と聞いて、体重を当てるゲームができます。
…それだとあんまり使い道がなさそうですね。
別の例としては、例えば、
- 工程の管理状態が取れている時の、表面硬度と内部硬度の関係
- 加圧前の厚み寸法と加圧後の幅寸法の関係
- 投入時間と生産数量の関係
みたいに、あるものを別の指標で間接的に評価するときに便利な手法です。
回帰分析の種類
回帰分析は、大きく2種類に分かれます。
単回帰分析
単回帰分析は、y=ax+bの線形で表現する回帰分析のことです。
二つの変数間の関係を見る時に使います。
重回帰分析
重回帰分析は、y=ax1+bx2+cx3+…+kという式で表されます。
変数が複数あるので、グラフは直線にはなりません。
単回帰式の例
体重=(係数a)x(身長)+(定数)
体重は身長によって一意に決まります。
重回帰式の例
体重=(係数a)x(身長)+(係数b)x(体脂肪率)+(係数c)x(1日の摂取カロリー)+…+(定数)
みたいな形になります。
上式では、身長、体脂肪率、1日の摂取カロリーが分かると体重が計算できます。
説明変数と目的変数
回帰式では
- 右辺の変数を「説明変数」
- 左辺の変数を「目的変数」
と言います。
説明変数によって説明される変数が、目的変数です。
私は実務ではこの単語をあまり使わないですが、
文献を読むときに理解しやすいので、知っておいて損はないと思います。
回帰分析のメリットとデメリット
回帰分析のメリット
- 過去のデータを基に、統計的な根拠を持って、未来を予測できる(カンコツの数値化)
- 目的変数を直接観察するのが難しいときに、説明関数から間接的に評価できる
- 各インプット(説明変数)がアウトプット(目的変数)に与える影響の大きさを、計数によって表現できる
回帰分析のデメリット
- 説明変数同士が影響を及ぼし合うと、目的変数の予測が正確でなくなる
- 気づいていない説明変数が影響している可能性がある
一つ目の事項について、例えば
体重=ax(身長)+bx(足の大きさ)という式を立てたとしましょう。
足の大きさと身長は、足が大きい人は身長が大きい傾向がある(逆裏対偶も真)という関係があります。
この関係を無視して重回帰式を作ると、特定の要素に過度に依存した数式になるので、予測精度が下がります。
回帰分析のやり方
回帰分析のやり方は、以下の4ステップです。
- Step1:実験計画を立てる
- Step2:実験を行い、データを集める
- Step3:予測式を作る
- Step4:式の妥当性を評価する
Step1:実験計画を立てる
「これとこれは、関係がありそうだな」という変数の因子を振って、実験計画を立てます。
この時に、実験計画法によって実験計画を立てると、ダブりや漏れの無い効率的な実験計画を立てることができます。
Step2:実験を行い、データを集める
実験計画を元に、実際に試験を行います。
集めるデータは、インプット(説明変数)の値とアウトプット(目的変数)の値です。
ここで、実験計画法で上手く変数を散らしてあると、インプットに使う変数の偏りが無くなり、回帰式の信頼度が高くなります。
Step3:予測式を作る
Step2で集めたデータから、エクセルやStatworksなどのソフトを使って予測式を立てます。
手動計算もQC2級の範囲に確かあったような気がしますが、データの利便性向上のために、パソコンを使いましょう。
Step4:式の妥当性を評価する
計算まではパソコンのソフトがやってくれますが、
式の妥当性は、自分で評価する必要があります。
- R2
- F値
- p値
- t値
を見ながら、判断を入れます。
とはいえ、実務では「絶対通したいからこの辺の数字は無視!」なんて事をやることもあったりなかったり……。
参考に、
- R2>0.5を目安にすることが多い(らしい、Rだと0.7以上ですね)
- F値<0.05
- p値<0.05
また、
|t値|<2の場合は、統計的には「その説明変数は、目的変数に影響しない」と判断するみたいなことも見かけました。
細かい判断基準は業界における経験が必要なので、
ぜひご自身で調べてみてください。