スタージェスの公式

      2017/04/13

ArcMap や ArcGIS Pro でレイヤーを数値分類でシンボル表示する、いわゆる度数分布表の階級幅を決める際に、何分類すれば良いのか毎回悩む訳ですが、迷ったときに使えるマッチベターな公式の名前がすぐに思い出せなかったのでメモしておきます。

スタージェスの公式

k = log2(N) + 1

k = 階級数
N = データの個数

スタージェス (H.A. Sturges) さんが考えた公式です。

Sturges, H. A. (1926). “The choice of a class interval”. J. American Statistical Association: 65–66.

ArcMap や ArcGIS Pro だと 32 分類まで可能なので対応した表を作成しておきます。

階級数(k) 1 2 3 4
データの個数(N) 1 2 4 8
階級数(k) 5 6 7 8
データの個数(N) 16 32 64 128
階級数(k) 9 10 11 12
データの個数(N) 256 512 1,024 2,048
階級数(k) 13 14 15 16
データの個数(N) 4,096 8,192 16,384 32,768
階級数(k) 17 18 19 20
データの個数(N) 65,536 131,072 262,144 524,288
階級数(k) 21 22 23 24
データの個数(N) 1,048,576 2,097,152 4,194,304 8,388,608
階級数(k) 25 26 27 28
データの個数(N) 16,777,216 33,554,432 67,108,864 134,217,728
階級数(k) 29 30 31 32
データの個数(N) 268,435,456 536,870,912 1,073,741,824 2,147,483,648

この表を見ると、例えば全国の 47都道府県で分類したい場合は 6~7 が適当で、1741市町村で分類したい場合は 11~12 が適当となります。

学生の時に読んだ本にも書いてあった記憶をさかのぼったら、この本の 109ページに書かれていました。1971年初版で私が持っていたのは 1986年の第2版第6刷でした。たぶん絶版でしょう。

分類する数が決まったらどの値を閾値にすれば良いのがベターなのかですが、よく分からなかったらデフォルトの「自然分類」で。閾値の決め方は次の機会に。

参考

 - GIS, 基礎知識