📝 목차
Measuring Dispersion
Quartiles
전체 데이터를 4개의 구역으로 나눠서 각 경계지점을 Q0 ~ Q4로 정하면 아래와 같이 된다.
5개의 값으로 전체 데이터의 distribution을 나타낼 수 있다.
Q0 | Q1 | Q2 | Q3 | Q4 |
최솟값 | 25% (quartiles) | median | 75% (quartiles) | 최댓값 |
IQR(Inter-Quartile Range)
IQR=Q3−Q1
Data의 dispersion을 나타낸다.
- IQR이 작으면 데이터가 dense한 것이고(모여있음)
- IQR이 크면 데이터가 sparse 한 것이다.(퍼져있음)
Boxplot
Quartiles를 그림으로 나타냄으로써 시각적으로 데이터의 분포를 그릴 수 있다.
Min/max의 범위를 벗어나서 위치하는 점들을 outlier라 한다.
주로 whisker의 길이는 1.5 * IQR이다.

Variance, Deviation
각 값이 평균에서 얼마나 떨어져있는가를 나타낸다.
sample:s2=1n−1∑ni=1(xi−ˉx)2=1n−1[∑ni=1x2i−1n(∑ni=1xi)2]
population:σ2=1N∑ni=1(xi−μ)2=1N∑ni=1x2i−μ2=E(x2)−{E(x)}2
Normal Distribution
- μ−σ ~ μ+σ : 데이터의 약 68%가 위치한다.
- μ−2σ ~ μ+2σ : 데이터의 약 95%가 위치한다.
- μ−3σ ~ μ+3σ : 데이터의 약 99.7%가 위치한다.

'Computer Science > Data Science' 카테고리의 다른 글
[Data Visualization] Boxplot (0) | 2022.06.03 |
---|---|
Data Visualization (0) | 2022.06.03 |
[Data Description] Measuring Central Tendency (0) | 2022.06.03 |
Data Description - 데이터 이해하기 (0) | 2022.06.03 |
Attributes (0) | 2022.06.03 |
댓글