본문 바로가기
Computer Science/Data Science

[Data Description] Measuring Dispersion

by Gofo 2022. 6. 3.

Measuring Dispersion

Quartiles

전체 데이터를 4개의 구역으로 나눠서 각 경계지점을 $Q_0$ ~ $Q_4$로 정하면 아래와 같이 된다.

5개의 값으로 전체 데이터의 distribution을 나타낼 수 있다.

$Q_0$ $Q_1$ $Q_2$ $Q_3$ $Q_4$
최솟값 25% (quartiles) median 75% (quartiles) 최댓값

 

IQR(Inter-Quartile Range)

$IQR = Q_3 - Q_1$

 

Data의 dispersion을 나타낸다.

  • IQR이 작으면 데이터가 dense한 것이고(모여있음)
  • IQR이 크면 데이터가 sparse 한 것이다.(퍼져있음)

 

Boxplot

Quartiles를 그림으로 나타냄으로써 시각적으로 데이터의 분포를 그릴 수 있다.

 

Min/max의 범위를 벗어나서 위치하는 점들을 outlier라 한다.

주로 whisker의 길이는 1.5 * IQR이다.

 

 

Variance, Deviation

각 값이 평균에서 얼마나 떨어져있는가를 나타낸다.

 

$sample : s^2 = \frac{1}{n-1}\sum ^n_{i=1} (x_i - \bar{x})^2 = \frac{1}{n-1}[\sum^n_{i=1}x_i^2 - \frac{1}{n}(\sum^n_{i=1}x_i)^2]$

$population : \sigma ^2 = \frac{1}{N} \sum ^n _{i=1} (x_i - \mu)^2 = \frac{1}{N} \sum ^n _{i=1}x_i^2 - \mu^2 = E(x^2) -  \{ E(x) \}^2$

 

Normal Distribution

  • $\mu - \sigma$ ~ $\mu + \sigma$ : 데이터의 약 68%가 위치한다.
  • $\mu - 2\sigma$ ~ $\mu + 2\sigma$ : 데이터의 약 95%가 위치한다.
  • $\mu - 3\sigma$ ~ $\mu + 3\sigma$ : 데이터의 약 99.7%가 위치한다.

 

 

 

'Computer Science > Data Science' 카테고리의 다른 글

[Data Visualization] Boxplot  (0) 2022.06.03
Data Visualization  (0) 2022.06.03
[Data Description] Measuring Central Tendency  (0) 2022.06.03
Data Description - 데이터 이해하기  (0) 2022.06.03
Attributes  (0) 2022.06.03

댓글