インターネット利用調査の「2ちゃん分析」の補足(1)


北田さんとこのコメントで、ちょいとふれたインターネット利用調査の補足(っていうか分析結果の但し書きみたいなもの?)です。
今日はあまり時間的余裕がないので、2回に分けてアップします。


私の参加している研究班で、2003年11-12月にインターネット利用に関する全国調査をおこないました。
母集団は10代〜60代の男女(インターネット利用者に限らない)、パネル調査の2回目です。
詳細は、「インターネット利用に伴う情報格差、対人関係希薄化の分析」という科研報告書か、もうじき出る(もう出たかも?)はずの「東京大学社会情報研究所調査研究紀要」最新号(かつ最終号)をご参照ください。


で、このなかに「2ちゃんねる利用者」「2ちゃんねる愛好者」に関する分析があり(「アクセスする掲示板にいくつでも○を」という設問で「2ちゃんねる」に○をした人が「利用者」、「そのうち最もよくアクセスする」のが「2ちゃんねる」と答えた人が「愛好者」)、たとえば、次のような結果が記述されています。
これは、「2ちゃんねる愛好者」を「インターネット利用者のうち、2ちゃんねる愛好者でない者」と比較したときに、有意差がみられた項目です。


2ちゃんねる愛好者」は...

  • 睡眠時間が短い
  • 「インターネット中毒」傾向がある
  • 「自己顕示欲」が高い
  • 日常生活において親しい人への「自己開示」度が低い


私も、この調査の「2ちゃん」利用については速報的な分析結果を3月6日付でアップしましたけど、残念ながら、調査報告書では担当しませんでした。
であるがゆえに、別の人が書いた箇所にいちゃもんつけるようなことをするのは、かなり気が引けるんですが、少なくとも上記の知見に関しては、相当の留保が必要です。
(んなこたあ、報告書出す前に、執筆者当人に直接指摘しとけよ、ってのが筋だと思うんですが、3月いっぱいで社情研が改組される関係で、予算執行の制約があり、大急ぎで報告書をしあげねばならんかったのです、言い訳ですけど)


まず、「2ちゃん愛好者」の特徴を言うのに、「インターネット利用者のうち、2ちゃんねる愛好者でない者」が比較対象として適当かどうか。
この比較対象には、そもそも掲示板・BBSを利用しない者も含まれます。
たとえば、「2ちゃん愛好者」は、掲示板利用時間が圧倒的に高いという結果もでていますが、それはこのことを考えれば至極当然の話なわけで。
自己顕示欲が高いというのも、掲示板利用者一般にみられる傾向で、「2ちゃん愛好者」に限りません。
むろん、分析目的・分析意図によって、適当な比較対象というのは変わってきますから、一概に問題とは言えませんが、この点、まず留保が必要です。


それ以上に大きな問題は、「2ちゃん愛好者」に該当するサンプル数が22人と、かなり少数であることです。
むろん、そのサンプル数でも統計学的に有意と検定されれば、有意であることに違いはなく、(統計学的な)理論面では結果の信頼性に乏しいというわけではないのですが、むしろその運用・解釈上というか実際上というか、そこでの問題が大きいのです。
実際の母集団に比べて、たとえば男女比にたまたま偏りがあるサンプルになってしまう可能性は、当然ながらサンプル数が少ないほど大きくなります。
その他の属性についても同様です。
すると、2ちゃん愛好者とそうでない人で有意差がでたとしても、それは男女比やその他の属性(つまり比較分析に直接関わりのない隠れた第3の要因)の「偶然的な偏り」による差である可能性が大きくなります。
もちろん、こうした隠れた第3の要因を考慮して、比較分析や相関分析をおこなう統計手法もありますが、それもサンプル数が少ないほど難しく・妥当性が低くなります。


ちなみに、今回の調査の場合、たとえば「2ちゃん愛好者」のサンプルの男女比は、男性が約60%、女性が40%になっていますが、この比率は当然調査誤差(「偶然的な偏り」である可能性)を含んでいますから、そのまま、実際の「2ちゃん愛好者」(母集団)における男女比とみなすわけにはいきません。
では、このサンプル数でこのような数値(比率)が得られた場合、実際の母集団における男性率(女性率でも同じことですが)は、だいたい何%から何%の範囲内におさまると考えられるか。
つまり、調査誤差はプラスマイナス何%くらいの枠内におさまっているだろうと考えられるか。
これに関しては、次のような簡便式で計算ができます(信頼度95%の場合)。


 \pm \2 \sqrt {\frac{p(1-p)}{n}
(pは調査サンプルにおける比率、nはサンプル数)


平方根の前の係数「2」は、もうちょっと精密にいうと「1.96」になりますが、ま、面倒なので「2」で計算しときましょう。
で、この式にp=0.6、n=22をあてはめて計算すると、だいたいプラスマイナス20%が誤差の範囲、つまり、実際(母集団)の男性率は40〜80%の範囲内にあるだろうと推測できる、ということになります。
サンプル数22人からわかることってのは、これくらいおおざっぱなことなんですね。
これくらいの「おおざっぱさ」が(隠れた第3の要因として)影響してくる可能性がありますから、サンプル数22人をもとにした単純な比較分析から得られた結果には、それに見合った留保をおく必要があるだろう、つうことです。


余談ながら、上の簡便式、視聴率調査の誤差の計算にも使えます。
視聴率調査会社(ビデオリサーチ)の各都市圏でのサンプル数は600人と言われてます。
んで、調査の結果、ある番組の視聴率が15%だったとすれば、実際のところは(母集団では)、どれくらいの範囲にあると考えられるか。
計算してみると、プラスマイナス約3%が誤差の範囲ですんで、12〜18%といったところ。
ま、そこからすると、テレビ関係者が1%くらいの視聴率の上下で一喜一憂するのは、滑稽な話ではあるのです。