Text Update: 11/10, 2018 (JST)

ヒストグラムはデータの分布を確認するために利用される基本的なグラフです。縦軸に度数(データの数)をとるので度数分布図とも言われます。Excelなどでヒストグラムを描くには度数分布表を作成してから描くことが多いですが、 R では元になるデータを描画関数に与えるだけでヒストグラムを描くことが可能です。

Packages and Datasets

本ページではR version 3.4.4 (2018-03-15)の標準パッケージ以外に以下の追加パッケージを用いています。

Package Version Description
gridExtra 2.3 Miscellaneous Functions for “Grid” Graphics
tidyverse 1.2.1 Easily Install and Load the ‘Tidyverse’



Dataset Package Version Description
iris datasets 3.4.4 Edgar Anderson’s Iris Data
mtcars datasets 3.4.4 Motor Trend Car Road Tests
diamonds ggplot2 3.1.0 Prices of 50,000 round cut diamonds








階級数の計算方法 Rでの関数 備考
Square-root choice sqrt(length(x)) データxの数(n)の平方根
Sturges’s formula nclass.Sturges(x) データxの数(n)がn30を満たす場合
Scott’s choice nclass.scott(x) 標準偏差を用いる計算方法
Freedman-Diaconis choice nclass.FD(x) 四分位範囲に基づく計算方法


## # A tibble: 32 x 11
##      mpg   cyl  disp    hp  drat    wt  qsec    vs    am  gear  carb
##  * <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
##  1  21       6  160    110  3.9   2.62  16.5     0     1     4     4
##  2  21       6  160    110  3.9   2.88  17.0     0     1     4     4
##  3  22.8     4  108     93  3.85  2.32  18.6     1     1     4     1
##  4  21.4     6  258    110  3.08  3.22  19.4     1     0     3     1
##  5  18.7     8  360    175  3.15  3.44  17.0     0     0     3     2
##  6  18.1     6  225    105  2.76  3.46  20.2     1     0     3     1
##  7  14.3     8  360    245  3.21  3.57  15.8     0     0     3     4
##  8  24.4     4  147.    62  3.69  3.19  20       1     0     4     2
##  9  22.8     4  141.    95  3.92  3.15  22.9     1     0     4     2
## 10  19.2     6  168.   123  3.92  3.44  18.3     1     0     4     4
## # ... with 22 more rows


階級数の計算方法 mpgの階級数 dispの階級数 hpの階級数
Square-root choice 6 6 6
Sturges’s formula 6 6 6
Scott’s choice 4 3 4
Freedman-Diaconis choice 6 4 6




階級数が求められましたので次に階級(幅)を求めます。対象となるデータの範囲を単に階級数で割ると中途半端な階級幅になってしまうことがありますので、R では適切な階級(幅)を得るためのpretty関数が用意されていますのでこれを使います。

pretty(x, n)


1 The values are chosen so that they are 1, 2 or 5 times a power of 10.



階級数の計算方法 階級数 階級
Square-root choice 6 10, 15, 20, 25, 30, 35
Sturges’s formula 6 10, 15, 20, 25, 30, 35
Scott’s choice 4 10, 15, 20, 25, 30, 35
Freedman-Diaconis choice 6 10, 15, 20, 25, 30, 35



階級数の計算方法 階級数 階級
Square-root choice 6 50, 100, 150, 200, 250, 300, 350, 400, 450, 500
Sturges’s formula 6 50, 100, 150, 200, 250, 300, 350, 400, 450, 500
Scott’s choice 3 0, 100, 200, 300, 400, 500
Freedman-Diaconis choice 4 0, 100, 200, 300, 400, 500



階級数の計算方法 階級数 階級
Square-root choice 6 50, 100, 150, 200, 250, 300, 350
Sturges’s formula 6 50, 100, 150, 200, 250, 300, 350
Scott’s choice 4 0, 100, 200, 300, 400
Freedman-Diaconis choice 6 50, 100, 150, 200, 250, 300, 350






Square-root choice & Sturges’s formula

x <- mtcars$disp             # 対象データ
n <- round(sqrt(length(x)))  # 階級数を求める
breaks <- pretty(x, n)       # 階級を求める

mtcars %>% 
  dplyr::mutate(freq = cut(disp, breaks = breaks, include.lowest = TRUE)) %>% 
  dplyr::count(freq) %>% 
  dplyr::mutate(cum = cumsum(n)) %>% 
  dplyr::rename(`階級` = freq, `度数` = n, `累積度数` = cum)
## # A tibble: 9 x 3
##   階級       度数 累積度数
##   <fct>     <int>    <int>
## 1 [50,100]      5        5
## 2 (100,150]     7       12
## 3 (150,200]     4       16
## 4 (200,250]     1       17
## 5 (250,300]     4       21
## 6 (300,350]     4       25
## 7 (350,400]     4       29
## 8 (400,450]     1       30
## 9 (450,500]     2       32


Scott’s choice & Freedman-Diaconis choice

x <- mtcars$disp             # 対象データ
n <- nclass.scott(x)         # 階級数を求める
breaks <- pretty(x, n)       # 階級を求める

mtcars %>%
  dplyr::mutate(freq = cut(disp, breaks = breaks, include.lowest = TRUE)) %>%
  dplyr::count(freq) %>%
  dplyr::mutate(cum = cumsum(n)) %>% 
  dplyr::rename(`階級` = freq, `度数` = n, `累積度数` = cum)
## # A tibble: 5 x 3
##   階級       度数 累積度数
##   <fct>     <int>    <int>
## 1 [0,100]       5        5
## 2 (100,200]    11       16
## 3 (200,300]     5       21
## 4 (300,400]     8       29
## 5 (400,500]     3       32






x <- mtcars$disp
old_par <- par()
op <- par(mfrow = c(2, 2))
hist(x, breaks = pretty(x, round(sqrt(length(x)))), main = "Square-root choice")
hist(x, main = "Sturges's formula (default)")
hist(x, breaks = "scott", main = "Scott's choice")
hist(x, breaks = "FD", main = "Freedman-Diaconis choice")






x <- mtcars$disp

gg_def <- as.data.frame(x) %>% 
  ggplot2::ggplot(aes(x = x)) +
    ggplot2::geom_histogram() +
    ggplot2::labs(title = "Default", x = "", y = "")

n <- nclass.Sturges(x)
gg_sf <- as.data.frame(x) %>% 
  ggplot2::ggplot(aes(x = x)) +
    ggplot2::geom_histogram(breaks = pretty(x, n)) +
    ggplot2::labs(title = "Square-root choice & Sturges's formula", x = "", y = "")

n <- nclass.scott(x)
gg_sc <- as.data.frame(x) %>% 
  ggplot2::ggplot(aes(x = x)) +
    ggplot2::geom_histogram(breaks = pretty(x, n)) +
    ggplot2::labs(title = "Scott's choice", x = "", y = "")

n <- nclass.FD(x)
gg_fdc <- as.data.frame(x) %>% 
  ggplot2::ggplot(aes(x = x)) +
    ggplot2::geom_histogram(breaks = pretty(x, n)) +
    ggplot2::labs(title = "Freedman-Diaconis choice", x = "", y = "")

gridExtra::grid.arrange(gg_def, gg_sf, gg_sc, gg_fdc)


diamondsデータセットは5万個を超えるダイヤモンドに関するデータです。ダイアモンドの重さ(カラット数)の五数要約(0.2, 0.4, 0.7, 1.04, 5.01)を見る限り右に歪んだロングテールな分布になっていることが想像できます。前出の4つの計算式を用いてdiamondsデータセットの階級数と階級幅を求めてみます。

階級数の計算方法 階級数 階級幅 
Square-root choice 232 0.02
Sturges’s formula 17 0.5
Scott’s choice 110 0.05
Freedman-Diaconis choice 142 0.05



n <- round(sqrt(length(x)))
gg_src <- as.data.frame(x) %>% 
  ggplot2::ggplot(aes(x = x)) +
    ggplot2::geom_histogram(breaks = pretty(x, n)) +
    ggplot2::labs(title = "Square-root choice", x = "", y = "")

n <- nclass.Sturges(x)
gg_sf <- as.data.frame(x) %>% 
  ggplot2::ggplot(aes(x = x)) +
    ggplot2::geom_histogram(breaks = pretty(x, n)) +
    ggplot2::labs(title = "Sturges's formula", x = "", y = "")

n <- nclass.scott(x)
gg_sc <- as.data.frame(x) %>% 
  ggplot2::ggplot(aes(x = x)) +
    ggplot2::geom_histogram(breaks = pretty(x, n)) +
    ggplot2::labs(title = "Scott's choice", x = "", y = "")

n <- nclass.FD(x)
gg_fdc <- as.data.frame(x) %>% 
  ggplot2::ggplot(aes(x = x)) +
    ggplot2::geom_histogram(breaks = pretty(x, n)) +
    ggplot2::labs(title = "Freedman-Diaconis choice", x = "", y = "")

gridExtra::grid.arrange(gg_src, gg_sf, gg_sc, gg_fdc)


グラフを見て分かるようにSquare-root choiceは階級幅が狭すぎるように見えます。また、Sturgesの公式は階級幅が広すぎてデータが集中している部分が埋もれてしまっています。Scottの選択やFreedman-Diaconisの選択は前述の二つに比べると形状が見えていますが階級幅が狭いように感じます。

breaks <- c(seq(0, 5.0, 0.1))

gg_any <- as.data.frame(x) %>% 
  ggplot2::ggplot(aes(x = x)) +
    ggplot2::geom_histogram(breaks = breaks) +
    ggplot2::labs(title = "任意の階級幅指定[0.1 carat]", x = "", y = "")

gridExtra::grid.arrange(gg_sc, gg_any, ncol = 2)



breaks <- c(seq(0, 5.0, 0.2))

gg_any2 <- as.data.frame(x) %>% 
  ggplot2::ggplot(aes(x = x)) +
    ggplot2::geom_histogram(breaks = breaks) +
    ggplot2::labs(title = "任意の階級幅指定[0.2 carat]", x = "", y = "")

gridExtra::grid.arrange(gg_sc, gg_any, gg_any2, ncol = 2)




集計条件 内容
階級の閉じ 階級の下端値と上端値のどちらを含めるか(下表参照)
階級最下限値 最も下側の階級の下端値を含めるか否か
階級の閉じ 集計条件 表記 備考
左閉じ a<b [a, b) a以上b未満を階級内とする
右閉じ a<b (a, b] aを超えb以下を階級内とする
両閉じ ab [a, b] 最下限の階級のみに適用される


gg_left <- mtcars %>%
  ggplot2::ggplot(aes(x = hp)) +
  ggplot2::geom_histogram(breaks = pretty(mtcars$hp,
                                          n = nclass.Sturges(mtcars$hp)),
                          closed = "left") +
  ggplot2::labs(title = "左閉じ", y = "")

gg_right <- mtcars %>%
  ggplot2::ggplot(aes(x = hp)) +
  ggplot2::geom_histogram(breaks = pretty(mtcars$hp,
                                          n = nclass.Sturges(mtcars$hp)),
                          closed = "right") +
  ggplot2::labs(title = "右閉じ(default)", y = "")

gridExtra::grid.arrange(gg_left, gg_right, ncol = 2)



CC BY-NC-SA 4.0 , Sampo Suzuki