Excelの機能は飛躍的に高まり,いまや統計・多変量解析に出てくる多くの分布をシミュレーションにより擬似体験できます.読者には,この機能を活用して,20世紀初頭に統計学を開拓した先人達と同じように,まずは(実験データの代わりに)シミュレーション結果の分布を眺めて,その後に理論を考えることをお勧めします.背景にある理論の意義を感じることができれば,長い理論展開を学んでいく旅程は楽しいものになると編者は信じます.
本書のもう一つの工夫は,理論展開に入る前に,目標とそこに至る方針を示し,以降の各節の位置づけを明確にしている点です.複雑な理論展開も意義を分かっていれば,その壁はずいぶんと低くなっていることと思います.なお,本書は大学初年度の微分積分,線形代数と確率の基礎を前提知識としています.また,ExcelとExcel VBAの説明は必要最小限にとどめてあります.
本書の最後ではファジィクラスタリングについて,この分野の第一人者である宮本定明先生に解説をしていただいています.この手法は統計・多変量解析とソフトコンピューティングの接点を示す格好の題材であると編者は考えます.シミュレーションと理論でたっぷりと統計の基本的考え方になじんだ読者に,アルゴリズムで定義されるデータ解析手法の世界に触れたいただきたくて,他の章とは趣の異なる内容を本書の締めくくりとしています.
本書により統計・多変量解析に親しみ,そしてソフトコンピューティングに興味を持つ人がたくさん出てくれれば,編者のこの上ない喜びです.
2012年9月
本書を読んでいただいてご質問,ご意見などありましたら 下記宛てメールをお送りください.
古橋 武
名古屋大学名誉教授(令和2年4月より)
Email: furuhashi.takeshi@*
*にgmail.comを入れてください.
本章では確率試行のシミュレーション例を紹介している.本書で多用するRAND()関数による乱数の性質の確認,RAND()関数を用いたコイン投げ,さいころ投げによる大数の法則と中心極限定理の体験,不偏分散の性質の体験などである.シミュレーションを行う上で必要となるExcel関数の使い方を詳細に解説している.
2.1 乱数について本章では母分散が既知の場合の母平均の検定を解説している.母分散が既知であることは実際的ではないが,正規分布に従う乱数(正規乱数)の和の分布や平均値の分布など後の章で必要となる基礎的な分布をシミュレーション例と理論により解説している.
3.1 検定の実行本章は母分散が未知の場合の母平均の検定を解説している.例えば,生産ラインを新しくした際に得られた標本の平均値が改変前と差があるかどうかの検定が当てはまる.ここでは,改変前の母平均は分かっているとしている.検定統計量には改変後の標本の平均値と不偏分散が用いられる.この不偏分散の統計的性質を明らかにするために本章は長くなっている.正規乱数の2乗値の分布(χ^2(カイ2乗分布と読む)),χ^2分布に従う乱数の和の分布など重要な分布の性質をシミュレーション例と理論により段階的に解説している.読者にとって,最初の大きな山となるであろう.ガンマ分布やベータ関数などχ^2分布の性質を記述するための道具を必要とし,さらには平均値と不偏分散が独立であることを示すために線形代数の知識を必要とする.理論の難しさに対して,起きている現象をシミュレーション結果から把握することは容易である.読者には,本章の各節に配したシミュレーション例を里程としながら学ぶことを勧める.
4.1 検定の実行本章は母分散の検定を解説している.第6章で2つのデータ群同士の平均値の差の検定を解説するが,両群の母分散が等しい場合と等しくない場合で検定統計量は異なる.そこで,両群の母分散を等しいと見なしてよいかどうかの検定が必要となる.標本から得られる両群の不偏分散の比の分布の性質をシミュレーション例と理論により解説している.
5.1 比較対象の母分散が既知の場合の母分散の検定本章は母平均の差の検定を解説している.最も多用される検定と言ってよいであろう.例えば,生産ラインを改変した際に改変の前後で得られた2群の標本のみから,改変前後の母平均の差を検定する場合が当てはまる.両群の母分散に差がないと見なせる場合と見なせない場合でステューデントのt検定とウェルチのt検定の使い分けがなされる.ステューデントのt検定の理論は第4章でほとんど示されているので,第4章を読破した読者にはここの理論展開は容易であろう.
6.1 母分散が既知の場合の母平均の差の検定本章からは多重比較法について詳述している.本章ではまず多重性の問題とは何かを明らかにし,多重比較法を定義している.すなわち,多重性の問題とは検定を繰り返すことで,第1種の過誤の確率が所望の有意水準を超えてしまうことであり,多重比較法とはこの第1種の過誤の確率を有意水準以下とする方法である.多重比較法には大きく分けて次の3つのアプローチがある.(1) p値の閾値を調整する方法,(2) 検定統計量の閾値を調整する方法,(3) 多重比較を前提とした検定統計量を導出する方法,である.本章では1番目のアプローチである,ボンフェローニの方法とシダックの方法を解説している.これらの方法では検定統計量は多重比較を考慮したものではない.各群の母平均の検定を繰り返す場合に,全群の第1種の過誤の確率を有意水準以下とするように各群のp値の閾値を調整している.これらの方法では各群の平均値は互いに独立としているために,各群の閾値を求めることは容易である.
7.1 母平均の検定の例―シダックの方法―本章では,多重比較法の2番目のアプローチを解説している.このアプローチにおいても検定統計量は多重比較を考慮したものではない.母平均の差の検定を繰り返す場合には,各群の平均値の差が互いに独立ではないため,1番目のアプローチは閾値を厳しくし過ぎてしまう.そこで,2番目のアプローチでは,全群の第1種の過誤の確率が所望の有意水準を超えないように,各群の検定統計量の閾値を調整する.まず,ポピュラーなテューキーの方法をシミュレーションと理論により解説している.テューキーの方法の考え方はシミュレーションにより容易に理解できる.しかし,理論は難解である.読者にとっては本書の2つ目の大きな山となるであろう.本書ではまず母分散既知の比較的簡単な場合について理論の基本的な考え方を示している.その後に,母分散未知の場合について理論の拡張を行い,ステューデント化された範囲の理論式を導出している.得られた理論式は解析的には解けないので,数値計算によりステューデント化された範囲を求める方法を紹介している.さらにその後には,各群のデータ数が異なる場合へと拡張したテューキー・クレーマーの方法,各群の母分散が等しいとは見なせない場合へと拡張したゲイムズ・ハウウェルの方法を解説してる,本章の最後では1対多群の比較法であるダネットの方法を解説している.1つの改良案を複数の従来法と比較して,改良案の統計的有意性を確認するにはダネットの方法が適している.
8.1 母平均の差の検定(データ数が等しい場合)本章では,多重比較法の3番目のアプローチである分散分析を解説している.分散分析では多重比較を考慮した検定統計量を導出している.本章では分散分析をシミュレーション例と理論により解説している.分散分析ではいずれかの群の母平均間に差があることを見いだせるが,どの母平均間に差があるかはわからない.そこで,分散分析で有意差ありと判定された場合には,個々の母平均の差に対して検定を適用する必要がある.この個々の検定は下位検定と呼ばれる.下位検定においても多重性の問題を考慮した検定法を適用しなければならない.データ群が3群の場合にのみ適用できる下位検定法にフィッシャーのPLSD法がある.4群以上にはこの下位検定法は適用できない.a群(a >= 3)の場合の下位検定法にはヘイター・フィッシャーの改良法がある.この改良法は,データ群数をa-1としてテューキー・クレーマーの方法を適用する,以上がデータ群の対比較のための検定法であるのに対して,データ群の任意の組み合わせ間の母平均の差を検定する方法にシェフェの方法がある.本章では以上の各手法をシミュレーション例と理論により解説している.本章の最後では,シェフェの方法を対比較に限定して適用した場合には,ヘイター・フィッシャーの改良法がより有効な検定法であることを明らかにしている.
9.1 母平均の差の検定(差の有無の検定)本章では多群の場合の当分散性の検定を解説している.8, 9章の多重比較法は,ゲイムズ・ハウウェルの方法を除けば全て母分散が等しいことを前提としている.そこで,多重比較法を適用する前に当分散性の検定をしておかなければならない.本章では各群のデータ数が等しい場合のハートレーの方法,および,各群のデータ数が異なる場合のバートレットの方法をシミュレーション例と理論により解説している.ハートレーの方法の理論展開は第8章のテューキーの方法の理論展開の応用である.バートレットの方法は尤度比検定の理論を基にする.尤度比検定の理論の解説は本書の範囲を超えるので,参考文献を挙げるにとどめている.本章では検定統計量の導出を示している.また,バートレットの補正の理論を解説している.
10.1 等分散性の検定(データ数が等しい場合)11, 12章では回帰分析を統計解析の応用の観点から解説している.回帰分析は変数間に一次式のモデルを仮定し,推定値と測定値の誤差を最小化する係数を同定する手法である.本章では1入力1出力の一次式の同定を行う単純回帰分析について解説している.回帰式の同定法の理論を示し,回帰式,回帰係数,定数項の検定をシミュレーション例と理論により示している.ここでの検定の理論展開は第4章の理論展開の応用である.本章ではここまでの章と同様の記法による理論展開と並列に,新たに行列表現による記法を導入している.読者にとって行列表現のありがたみはすぐには感じられないかもしれない.しかし,行列表現は多次元の事象からなるモデルの記述に便利である.第12章のp入力(p >= 2, pは整数)の多重回帰分析で威力を発揮する.
11.1 単純回帰分析の実行本章は多重回帰分析について解説している.2入力1出力の一次式の同定を具体例に取りあげ,第11章の単純回帰分析の理論の拡張を行っている.本章では回帰式の有意性の検定統計量を直接表す行列表現を新たに導入している.第11, 12章のまとめとしてp (p >= 1, pは整数)入力の場合の回帰分析を示している.
12.1 多重回帰分析(2入力)の実行本章はクラスタリングについて解説している.ファジィクラスタリング研究は1980年代のファジィ技術の草創の時期から今日まで連綿と続く展開があり,データから法則/モデルを見いだすための有力な技術の1つである.クラスタリングはアルゴリズムで定義されている手法であり,本章の多くはアルゴリズムの解説である.c-平均法を解説した後に,クラスター(データのグループ)への所属度を{0, 1}の2値から,区間[0, 1]へと拡張したファジィc-平均法を解説し,多重回帰分析とクラスタリングを組み合わせて,同時に複数の回帰直線を同定できるようにしたファジィc-回帰モデルを解説し,さらに一般化されたファジィc-平均法が確率論に基づくガウス混合分布モデルと密接な関係があることを解説している.最後にファジィクラスタリングの最新の話題である,カーネル関数を用いたファジィc-平均法について解説している.
13.1 クラスターの概念と非類似度