• Img_64209b5b4d97ab1583f6846230dab2472740
  • Img_2b4db1c17e2f869c11e787291bb842011098
  • Img_56205ad4dc145603c902c059acda48be6151
  • 076_2
  • 5d021219250000a013e27a89
  • Kuroi_tanker_movie
  • Yjimage9r3wpkcv
  • Dsc_4417
  • Dsc_4398_2
  • Img_9622d405a1144d1aab68ee4ec21c04b43495_1

« 厚労省「不正」統計調査の原因は | トップページ | 「どちらでもない」が最も多かった時はどうするのだろうか? »

2019年1月30日 (水)

厚労省「不正」統計調査は凡ミスだ

108
今回の「不正」統計事件において、まちがった方向へミスリードしようとする人たちがでています。 

はなはだしいのは野党のように安倍に忖度して統計数値をいじったんだといった政治陰謀論もどきも登場し始めました。

まったくこの連中ときたら、ことあれかしと騒ぐしか能がないのでしょうか。(ため息) 

ただ無視しえないのはこのような言い方が、出始めていることです。

「アベノミクスで経済がよくなってるとおっしゃるリフレ派の方々は、なぜ財務省の出す経済指標は捏造されてないと信じられるのだろうか」(Kiichiro Yanashita)

これはよくある文系の発想で、統計学に絶対を求める発想です。文系は宿命的に数字に弱い傾向があるので、かえって数字に支配され易いのです。 

統計数字を盲信する必要もないかわりに、逆に一部の統計調査に誤りがあったからといって全部が捏造だなどと極論に走る必要はありません。

「統計は、一かゼロか、完璧かすべて捏造か、というものではない。またその相互の関係も、機械的な関係があるということではない。信頼性の非常に広い幅の中で上下するだけなので、実際にどんな不備があってどのくらい影響を及ぼすのかを具体的に考えないと、妥当性のない陰謀論に流れてしまうだけだ」山形浩生)
https://cruel.hatenablog.com/

まさに今の風潮を言い当てています。

いまや陰謀論が百花繚乱のありさまですが、今回のことは統計上一定幅で起こり得るノイズの域に止まっています。

中国のGDP数値のように、どんなに景気が減速しようと成長率は7%を維持し続けるという奇怪なこととは次元が違うのです。 

このような陰謀論は、ミスがなぜ起きたのかがわかれば、自ずと雲散霧消することであって、要は現場職員が人員削減で忙殺されたために発生した凡ミスにすぎません。 

深堀りすれば、なぜ統計職員の現場が人員削減されたのか、なぜ厚労省は総務省に変更を協議しなかったのか、なども考えていかねばなりませんが、今日のところは置きます。

さて昨日「九州M」さんから詳細な解説をいただきましたので、それを下敷きにして説明していくことにします。ありがとうございます。 

問題の発端は、このようなことからでした。

「(特別監査気委員会)報告書によると、毎月勤労統計調査は遅くとも平成元年から29年の年報で、規模500人以上の事業所については「抽出率1/1」と明記。
しかし、平成15年5月22日付の当時の担当課の企画担当係長名で、毎月勤労統計調査にかかわるシステム担当係長あてに通知された事務連絡に添付された要領の中で、「事業所規模500人以上の抽出単位において、今回から全国調査でなく、東京都の一部の産業で抽出調査を行うため注意すること」との記載があったと明らかにした」(産経1月22日)

https://news.biglobe.ne.jp/domestic/0122/san_190122_2350750274.html

要はサンプル調査(標本調査)の抽出率が変化したのです。

Free_lhttps://blogos.com/article/354082/?p=2

2003年までは勤労統計のうち中小企業は抽出調査でした。つまり全部調べる全数調査ではなく、対象企業を半分にして抽出調査(標本調査)をしていたわけです。

全数調査の代表は国勢調査です。ほら、5年に一度各戸に配られて、地域で集めている大きな封筒にはいったアレです。

これは学校の生徒の平均身長を調べる時に、全員の背丈を計るようなもので、学校ていどだったらともかく、これが国単位になったり、巨大都市の東京都規模なるとハンパではありません。

厚労省によれば、調査対象だけで全国で約190万社あるそうですから、これを毎月統計で全数調査したら膨大な手間とコストがかかってしまって実現不可能です。

そこで標本を抽出して、数を絞ります。
標本調査とは?~調査のしくみと設計~|統計学習の指導のために

Th_01https://www.stat.go.jp/teacher/c2hyohon.html

たとえばよく統計学で知られている標本調査が、テレビの視聴率です。

「視聴率は、対象となる地域(例えば関東地方)の全世帯を対象に調査すると莫大な経費を必要としますし、結果をすぐに(例えば次の日などに)出すことができませんので、このような場合、一部の世帯だけを統計的に偏りがないように選んで調査をします。これを「標本調査」といい、選ばれた調査対象を「標本」(サンプル)といいます」(前掲)

この「不正」調査問題で、なぜ全部調査しないのだ、恣意的にやっているんだろうという声がありましたが、抽出調査しても正しい方法でランダムサンプリングすれば、なんの問題もありません。

精度は当然落ちますが、毎月統計を求める方法として常識的方法です。

ところでその抽出作業を2004年から、本来の抽出率に戻しました。

しかし抽出率を上げると自治体負担が増えて悲鳴が上がったので、東京都だけは大企業のサンプル抽出率を別枠で下げたわけです。

つまり一回抽出率を元に戻して、翌年東京都だけ大企業を別枠にしたわけです。

こういう朝令暮改をすると現場は混乱するか、その通達に気がつかないでそのままやってしまいがちです。

この抽出率の変更の時も、現場職員が集計システム言語を変更せずに、今までどおりやってしまったわけです。

「2003年以前は全数調査ですから全国平均を出す時は、都道府県の対象企業(労働者数)の全データ(例えば賃金額)の合計を、同じく全国の対象労働者総数で割れば全国平均の賃金が出ます。
ここで注意が必要なのは都道府県別に平均賃金を出し、その合計を都道府県数で割っていけない、ということです。
都道府県によって重み(企業数、労働者数)が全く異なるからです。どこまでも分母は労働者数で扱う必要があります。
そして2003年に東京都が約1/3の抽出(サンプリング)に変わり、データ数(企業、対象労働者)が変わりました。東京都だけの平均賃金を出すのであればこのまま分母と分子を当てはめて割り算すればいいのですが、全国平均を出す時には換算する必要があります」(九州M)

九州Mさんはかみ砕いて話しておられるので、説明は不要でしょうが、全国平均賃金を出す場合、都道府県の企業数や労働者数がまったく異なることを考慮せずに各都道府県の平均賃金を都道府県数で単純に割ってはいけないということです。

だって、田舎の県と韓国ほどのGDP規模を持つ東京都は、同列にならないからです。

ですから全国平均を出す場合には、東京都は換算せねばなりません。

「東京都の対象企業数(従業員が500人以上の事業所)が約1500とされていますので、便宜的に対象労働者数を約120万人としますと、1/3抽出で実際のデータは約40万人だったことになります。
そこで全国の平均を出す時に、東京都の40万人のデータ(賃金総額)を全国で合計(分子)しますが、分母となる労働者数を従来通り120万で扱っていた、というミスなのです。
当然ですが、東京都の対象労働者を従来通り120万で扱うのであれば、分子となる賃金総額は3倍にして扱わなければなりません。
このことを「復元」と呼んでいるのです。「抽出率」が1/3であれば、「復元率」はその逆数の3となります」(九州M)

このように見てくると、この厚労省「不正」統計問題は、九州Mさんのご指摘のどおりだとうなずけます。

「この問題の本質は「平均」の出し方、という中学生レベルの数学(算数)上のミスです。2003年に東京都のデータが全数から約1/3の抽出(サンプリング)データに変わった時、その集計システム(COBOLプログラムで書かれた)を変更し忘れたものです。
こんなものは“バグ”とは言いません。単純ミスです」この問題の本質は「平均」の出し方、という中学生レベルの数学(算数)上のミスです」(九州M)

なお二階氏は、「歴代すべての厚労相の処分」を口にしています。

「不正調査は04年から続いており、その間、13人が厚労相を務めた。旧民主党政権時代の長妻昭氏や小宮山洋子氏など4人も含まれ、長妻氏は現在、立憲民主党の代表代行である」(ZAKZAK1月23日)
https://www.zakzak.co.jp/soc/news/190123/soc1901230003-n1.html

私はこのような意趣返しは好きではありませんが、問題は2004年からですし、これを他人事のように政権攻撃の具としたいだけの野党には必要な熱さましかもしれません。

 

 

 

« 厚労省「不正」統計調査の原因は | トップページ | 「どちらでもない」が最も多かった時はどうするのだろうか? »

コメント

九州Mさんの解説、私にも分かりやすかったです。ありがとうございました!

ところで、テレビや新聞社の世論調査なんかはランダム(RDD方式)で、サンプル数2000弱くらいのを堂々と記事にしますよね。それでも朝日と産経ではバラつきますけど。
また、かつてフジテレビ「トリビアの泉」という番組では、いろんなものを調べる時に統計学の専門家の教授に聞いて「サンプルは2000程度で正確性が出る」というのを何度も流してました。
統計学的にはその辺が「一定の指標を出す」上で妥当だということなのかと。。

飯田泰之氏が今朝のラジオ番組でおっしゃるには
2017年の選挙後に行われた政府統計の見直しを起因に厚労省が間違った補正をしている事に気が付き慌てて修正したものの異常な数変化をしてしまったため公に発覚したという流れを説明していました。
これが本当だとすればむしろ不正を見つける切掛けを作った現政権の手柄とも言える訳で
「アベノミクスの失敗を隠すため」
「安倍政権への忖度の結果」
といった主張がいかに的外れか良くわかります。

とはいえ、厚労省が不正を行ったのは事実ですし
発覚後の生ぬるい調査でお茶を濁そうとした厚労省、それを許した大臣と政権に関してはしっかりと糾弾されるべきだとは思います。
とにかく野党が国民からの信頼を得たいのであれば正論に気持ち悪い陰謀論を混ぜるなと言いたい。

私の昨日のコメントを参考にしてもらえ、嬉しく思います。この問題の原因は厚労省内の、この統計を行なっている「管轄部門」と、集計処理の「IS(情報システム)部門」との間のコミニュケーションにあると思います。

ただ、厚労省内に専門のIS部門が無い場合は、管轄部門からちょくせ

失礼しました。続けます。
ただ、厚労省内に専門のIS部門が無い場合は、管轄部門から専門のIS会社に外注していることも考えられます。いずれにせよ管轄部門が変更(全数→抽出)箇所の「仕様」を書き、これを元にプログラムの変更をするわけです。

①東京都のデータを全数から抽出に変えることを決めた②集計システムの見直す仕様を書く③プログラムの変更③デバック:集計が正しく(仕様通り)に行われるかの検証。この一連の流れを調査すれば、どこに問題があったのか明確になると思います。

データが多岐で膨大にありますので、まさかとは思いますが「管轄部門」内でプログラムを書いている(変更も)可能性もあります。この場合は“自分で決めて自分で変更”するので間違いが少なくなるのでは、と考える人もあるかと思いますが、かえって厄介になります。

なぜなら、役所の人間の多くは2〜3年で異動していくからです。プログラム言語の世界は属人的な要素が強く、人の書いたプログラムを見直すのはとても大変です。この辺りは気になるところです。

もう一つ大事な要素は、一般企業に比べ行政の情報システムのレベルの低さです。私が住む自治体で農業関係の部門とやりとりした時に感じたのですが、まともな情報システム部門がなく、どこまでも個人任せで10年から20年くらい遅れているようでした。情報システムを整備すれば、ざっと半分くらいの人がいれば十分と思ったものです。

そういえば、いつぞやの「消えた年金問題」の原因は、個人毎の台帳となるデータベースが一元化されていないためでした。国民年金、厚生年金、そして共済年金などの個人データが、バラバラに複数のデータベースになっていた為です。こんな状態であれば必ず問題が起きます。一般企業であれば考えられないことでした。

いい機会ですから、行政の情報システムがどうなっているのか、全体を点検してみるといいと思います。

ところで、山形さんのおっしゃる新聞テレビの世論調査ですが、大事なのはサンプリングのやり方と同時に「有効回答率」がどの位か、ということです。

多くの場合、有効回答率は60%程度ありますが、朝日新聞の場合ほとんどが50%程度かそれ以下です。想像するに、「朝日新聞の調査」と聞いて、回答しない人がそれだけ多い、ということです。当然、そのデータには朝日新聞の論調を嫌いな人の分が入らないことになり、バイアスのかかった調査ということです。比較するとNHKの世論調査が最もバイアスが少ない為、実態に近いような気がします。

そのような意味では沖縄の辺野古県民投票も大きな問題があります。賛成、反対、どちらでもない、の三択になるようですが、これは明らかに「賛成」を減らすための設問の仕方です。「賛成」と言えば、積極的にやるべきだ、との意味合いが強く、多くの人はためらいます。気持ちとしては危険な普天間基地を移転するために「やむをえない」が正直なところです。

原発再稼働問題もそうです。当面の間「やむをえない」が私の偽らざるところです。ところが原発再稼働を容認する人に対して「原発推進派」と呼んで、これを減らそうとしているのです。私だって原発を推進=増やしたいわけではありません。調査では設問の仕方でも大きくその結果が変わります。

科学的とは「数字=統計で裏ずけられたもの」という言い方があります。が、数字=統計は恣意的にも作れるのです。

霞ヶ関官庁内でサーバー管理していた経験から言って、原始的ですよと言っておきます。しかも動作不全な点も明確にあります。運用的にもですね。なので文書改ざん事件の時、本来なら辿れるデータがあるはずの所に存在しない理由も推察可能です。文書管理部分で本来のことができていない点がはっきりと存在していました。ちなみにさほど古い話ではありません。

また統計、文書管理部門などは人の流れ的にはむしろ硬直しています。空気の入れ替え不足で淀んでいるイメージですね。彼らにすれば非主流ですから。本当は省庁横断型くらいのものが必要だと思いますが。公文書を平気でほとんど捨てたルーピーもいたくらいですから。

それにしてもまた野党はこれを使って安倍政権打倒を叫ぶようですがまったくバカとしか言いようがありません。民主党時代にも統計ミスが行われていた以上この件をあまり掘り下げると自分たちにも火の粉が降りかかると言うのに。まあ彼らにある程度の損得勘定ができるならあまり追求せずに少し騒いだあとうやむやにするでしょうがいずれにしてもただ現政権だけを叩いてもこの問題を解決することには全く意味がないと思います。

コメントを書く

(ウェブ上には掲載しません)

« 厚労省「不正」統計調査の原因は | トップページ | 「どちらでもない」が最も多かった時はどうするのだろうか? »