Measuring Dispersion
Quartiles
전체 데이터를 4개의 구역으로 나눠서 각 경계지점을 $Q_0$ ~ $Q_4$로 정하면 아래와 같이 된다.
5개의 값으로 전체 데이터의 distribution을 나타낼 수 있다.
$Q_0$ | $Q_1$ | $Q_2$ | $Q_3$ | $Q_4$ |
최솟값 | 25% (quartiles) | median | 75% (quartiles) | 최댓값 |
IQR(Inter-Quartile Range)
$IQR = Q_3 - Q_1$
Data의 dispersion을 나타낸다.
- IQR이 작으면 데이터가 dense한 것이고(모여있음)
- IQR이 크면 데이터가 sparse 한 것이다.(퍼져있음)
Boxplot
Quartiles를 그림으로 나타냄으로써 시각적으로 데이터의 분포를 그릴 수 있다.
Min/max의 범위를 벗어나서 위치하는 점들을 outlier라 한다.
주로 whisker의 길이는 1.5 * IQR이다.
Variance, Deviation
각 값이 평균에서 얼마나 떨어져있는가를 나타낸다.
$sample : s^2 = \frac{1}{n-1}\sum ^n_{i=1} (x_i - \bar{x})^2 = \frac{1}{n-1}[\sum^n_{i=1}x_i^2 - \frac{1}{n}(\sum^n_{i=1}x_i)^2]$
$population : \sigma ^2 = \frac{1}{N} \sum ^n _{i=1} (x_i - \mu)^2 = \frac{1}{N} \sum ^n _{i=1}x_i^2 - \mu^2 = E(x^2) - \{ E(x) \}^2$
Normal Distribution
- $\mu - \sigma$ ~ $\mu + \sigma$ : 데이터의 약 68%가 위치한다.
- $\mu - 2\sigma$ ~ $\mu + 2\sigma$ : 데이터의 약 95%가 위치한다.
- $\mu - 3\sigma$ ~ $\mu + 3\sigma$ : 데이터의 약 99.7%가 위치한다.
'Computer Science > Data Science' 카테고리의 다른 글
[Data Visualization] Boxplot (0) | 2022.06.03 |
---|---|
Data Visualization (0) | 2022.06.03 |
[Data Description] Measuring Central Tendency (0) | 2022.06.03 |
Data Description - 데이터 이해하기 (0) | 2022.06.03 |
Attributes (0) | 2022.06.03 |
댓글