第41話 そのデータは誰が使うか
2014年1月28日
2013年11月25日のNHKの「クローズアップ現代」で、
ある企業が従業員の就業時間(出社から帰るまで)を
細かく調査することにより、生産性が向上したというレポートがあった。
実施方法としては、1人1人に端末を持たせて、いつ、どの様な仕事を行い、誰と相談し、
休み(昼食を含む)時間は誰と話をしているかを細かく(おそらく分単位で)調査し、
チームワークの状況を調査した。
その結果、誰と誰がコミュニケーションを密にし、誰が疎遠かを図表にまとめた。
(HBR:ハーバードビジネスレビュー、MIT:マサチューセッツ工科大学)
MITは全員の同意のもとで、調査目的を明示して実施していた。
従って、「チームワークの図表化」としては全員の賛同があったと思われる。
しかし、今回のNHKのケースでは、情報公開と調査目的が明示されたのだろうか?
報告では、「これによってチームワークが良くなり、生産性が10%向上した」とあったが、
結果が良ければ全て良しではない。
なぜなら、休み時間のプライバシーまで公開されるのである。
確かに一次的には効果は上がるかもしれない。しかしこれが長期に継続するとなるとゾッとする。
現在はマネジャーがそのデータを見てACTIONを取っているという。
しかし、その分析はやがてはコンピューターにやらせて、その結果だけをマネジャーが見る様に
なってくると、従業員は実際にはコンピューターに使われる様になる。正に、SF小説と同じ状況が
生まれてくる。SF漫画ではコンピューターや、ロボットに使われている人間を見ることがある。
この漫画の世界が実現するとなると本当にゾッとしてしまう。
昔、治安維持法という法律があった。この法律が出来た頃はたいして効力はなかった。
町の喧嘩を鎮める、組織的暴力を鎮めること位であった。
所が、頭の良い(悪賢い)官僚がこの法律を活用し出すと、最後には政府、軍の悪口をちょっとでも
口にするとすぐ、警察に拉致されたと言う。正に時限爆弾の様に、あるとき突然爆発してしまう。
このクラウドコンピューティングの方法は、一歩誤ると、時限爆弾となって、コンピューターに人間が
使われる様になる。
誰がそのデータを使い、誰がそのSystemを中止したり、継続する権限を持つか。
現在国会で議論されている“機密保護法”では第三者機関を設置して、秘密の良否を決めるとしているが、
第三者機関がコンピューターにならないことを切に希望する。
コンピューターには喜びとか悲しみとか希望など、人間しか持っていない「感情」はない。
感情のないモノは人間を支配出来ない。
Something Greatも人間以上の「恵み」という感情を持っていた。
蛇足:私はクラウドコンピューティングの技術の発展には大いに賛同する。それは、若い頃、
調査をするのに多くの苦労があった。従って採ったデータは正に宝石だった。
小さいデータをどの様に解析すればより真因に近い解が得られるかに興味があった。
クラウドコンピューティングに依って図解化が進化すると、結果がすぐに目に見える為、
(又はそのようにガイドされる為)そのデータをどう使うかをデータの発生元に遡って、
より真剣に考える必要がある。
そうでないとGarbage in、garbage out(ガラクタを入れればガラクタが出てくる)
になる可能性が大きくなる。GIGOがGospel in、gospel out になることを切に祈る。
(近藤 哲夫)
第40話 統計的“有意”とは
2014年1月15日
最近、統計学について多くの本が出ていて、昔、大学時代に統計を専攻していた
人間としては喜ばしい次第である。
私が統計を学んだ1950年代は、データ処理はソロバンかタイガー計算機であった。
タイガー計算機では平方根の計算スピードを仲間と競争したのも懐かしい。
いかに少ないデータで有意義な検証が出来るかが、当時の一般企業の状況であった。
ランダムサンプリングによって、データを採り、データを解析して、「あの不良の第一要因はこれだ!」と
捕まえたときの快感は今も忘れない。
当時、工場の実験は、故田口玄一先生の実験計画が私共のメインツールであった。
(今でもこの手法は品質工学として取り扱われている)
所が、最近ではビックデータと言われて、大量のデータが比較的容易に取れるようになった。
工場でもデータの自動採取によって大量のデータが捉えられる様になった。
昔はデータは球を捕る様に1つ1つ丁寧に捕ったものだ。
従ってデータの信頼性は採取者を信頼して、そのデータを使用した。
また、工場データ、例えば「この装置の動いている時間」を調べようとすると、ワークサンプリングによって
データを取ったり、またオッシログラフによって計算したものだ。
数年前、ある工場で、不良発生時期を知りたい為に「その装置のGO、STOPのタイミングを知りたい」と
言った所、担当職長から「今日の午前中の稼働率は78.5%です」という返事がすぐさまあった。
どうして知ったのかの質問に、自動計測だと言う。
不良の発生は?と問うと、これから調べますとの返事。
私が知りたいのは不良発生のタイミングなのに、工場は自動計で計れば良いと考えている様だ。
何のためのデータ採りかと、少々憤りを感じた。
自動計量はデータは数多く採れるが、玉石混合もいいところである。
データを採る苦労が無いだけ、サンプリングの重要性(特にランダムネス)が欠けているのではないか
と感じるのは私だけか?
Newtonの2013年12月号に「統計の威力」という記事があった。読んでいくといくつか
気になる用語の使い方がいくつかあった。
1つは”相関”という言葉である。例えば、「変数Xが変数Y」と相関があるとしよう、
これは「お互いに何らかの関係がある」と言う意味があって、「Xによって(Xという独立変数)Yが変わる
(Yは従属変数)」という意味ではナイ、ことがあいまいに使われている。
即ちXという原因によってYが変わるという意味ではないのである。
ましてや、Y=aX+b
と表すのは、一次式(リニア)が計算が便利なだけである。
(一次式という因果関係が物理的に証明されれば別だが)
次の言葉は”有意”という用語である。
統計学では「5%」有意とか「1%」有意と言う用語を使う。
「1%」有意とは正規分布において、99%は「この中」に入るが、1%は「この中」に入らないことを言う。
「この中」とは平均値から3σは「±3σ」の範囲を言っている。
例えば、「この町の人口40万にうち成年男性の身長は165㎝±18㎝の中に99%入る」場合、
標準偏差(σ)は6㎝である。勿論、男子の身長は正規分布すると仮定する。
仮に2mの人が居ればその人はこの町の住民ではないことを99%の確率で言える。
(1%は当らないが)これを「1%」有意と言う。
標準偏差はサンプリングデータが多くなるほど小さくなる。
従って3σはデータが100個の場合と、データが1万個の場合では半分になる計算になる。
即ち、データが多くなればなるほど「1%」有意は小さくなる。
このことは、「チョットの差でも統計的有意」が出てくる。
この雑誌の中でHANS ROSLING教授も言っていたが、例えば「大阪の人は東京の人に比べると太っている、
10万人を対象に調べたが、大阪の人は13g体重が重かった。これは『統計的有意』である」
皆さんオカシイと思うでしょう。13gの差は、1人の人間でも朝と夕ではこのぐらいの差が出るでしょう。
「統計的有意」は統計学上の話であって、これが世の中に通用するかどうかは「一般常識」と言う鏡を
用意すべきである。
工場実験でも、仮に「統計的有意」と出ても、工学上の知見によって、その妥当性を検証している。
最近では、薬の広告でAの薬が効果的で「統計的有意」である。と言うのがあれば、
まずは自分の常識に照らしあわせて見るべきでしょう。
(近藤 哲夫)