N.Y.Cityのまちかど
Correct method of representing data with graph
正しいグラフ表現を考える
はじめに
TeX使いの人には(あるいはLHA圧縮形式のアルゴリズム開発者としても)有名な奥村先生のブログに興味深い記事があった。(「横軸が名義尺度の折れ線グラフ」2010年9月9日)短いので全文を引用させていただく。
ゲーム・音楽・映画・インフルエンザの流行を予想するのに,従来の方法・ネット検索に基づく方法・両方を合わせた方法のどれが効果的かという研究がある(What Can Search Predict?)。
この著者は結果を最初は棒グラフで表したが,Gelmanの指摘により折れ線グラフに描き直した。その事情が Which graph is better? にまとめられている。Fungも Answering an open call でこの問題を論じている(折れ線グラフと違って棒グラフは0から始まるべきであることも書かれている)。
しかし,Gelmanのブログのコメントにもあるように,折れ線グラフの横軸が名義尺度であるのは気持ちが悪い。この場合の最適なグラフは何であろうか。
正しいグラフ表現は?
問題となっているグラフをExcelで作ってみた。まずはオリジナルと同じ書式。
先ほども言った通り、横軸の順番を入れ替えてもデータとしては成立するのだから、これを折れ線グラフとするのはやはりおかしい。横軸の順番を変えてみた例を示す。
最初のグラフとこちらのグラフ、意味は全く同じと言われても困るだろう。見た目の印象が違いすぎる。
やはり、こういう場合は棒グラフを使うのが一般的だと思う。
ただし、縦棒グラフも折れ線グラフと同じく、横軸に時間軸のような連続的な関連性を持たせることもあり、誤解を生む可能性があるので、そういう意味では横棒グラフにするのもひとつの方法だろう。
棒グラフは0から描くべき、という意見もある。しかしこのグラフでは最低値が0.4よりちょっと大きい値であって、0から0.4までを表示するのは無意味。軸の最低値を0.4にして、差をはっきり見せるというアプローチはありだと思う。Excel単独で綺麗に作れないのが難点だが、軸を省略していることを強調するために、次のようにする場合もある。このやり方を推奨しない人もいるが、私ならこれがしっくりくる。
わざわざ波線を入れているのは、縦軸の起点を0でない値にとっているという、若干イリーガルな事をしているから。(ちなみに対数軸の場合はふつう1を起点にする)グラフを読み取る人がそこに気づかなかった場合、このグラフは各項目間の差を不当に強調したグラフになりかねない。
補足:これでいいのか?
同じく奥村先生のブログに、グラフ関連の記事があった。(「教科書が酷いグラフを推奨している」2010年8月26日)引用すると
PENの中の人に捏造グラフ推奨の教科書を教えていただいた。これはひどい!
開隆堂が出している「情報」の教科書だそうだ。
さっきも書いた通り、「棒グラフの目盛を変更して差を強調する」のは、読んでいる人に誤解を与えかねないので注意が必要である。
さらに、この棒グラフは得点順にデータを並び替えているが、この例でデータを並び替える理由があるのかどうかちょっと疑問。(このグラフから何を読み取らせたいのかによるけれども…。最高点のクラスと最低点のクラスの比較をしたいならば、まだ納得できる…かもしれない。)
3Dを利用したグラフはインパクトがあるけれども、正しく値を読み取ることはできないので、使わない方が良い。見た目のインパクトがあるのでスライド資料などで使うことがあるが、正しい値を数字で分かりやすく一緒に示すなどの配慮が必要。
補足:資料
同じく奥村先生のブログで紹介されていた記事。
- グラフの見方
- ややこしいグラフに惑わされないための方法。
現在ご覧のページの最終更新日時は2015/03/15 00:31:31です。
Copyright (C) N.Y.City ALL Rights Reserved.
Email: info[at]nycity.main.jp