본문 바로가기
Computer Science/Data Science

[Data Description] Measuring Central Tendency

by Gofo 2022. 6. 3.

Measuring Central Tendency

Central tendency(중심점)을 확인하는 수단으로 mean, median, mode가 있다.

 


Mean(평균값)

= Algebraic measure

대수적인 평균값이다.

 

n = sample size, N = population size

 

Weighted Arithmetic Mean

= Weighted mean

 

각 그룹의 크기 비율이 다를 때나 비중을 다르게하고 싶을 때 평균을 구하는 방법이다.

 

분자에는 각 sample의 값에 weight을 곱하고 분자에는 그 weight들의 합으로 나눠준다.

분모에 나누는 것은 분자의 weight의 합이 1이 되도록 하는 작업이다.

 

 

Trimmed Mean

너무 극단적인 값은 버리고 평균을 취하는 방법이다.

예를 들어 100명의 사원 임금 평균을 구할 때 3명이 CEO라면 CEO의 임금이 압도적으로 크기 때문에 CEO는 버리고 구할 수 있다.

 


Median

값들을 정렬하고 중앙에 위치한 값을 찾는 방법이다.

데이터의 수가 짝수이면 가운데 2개의 값의 평균을 취한다.

 

Historygram 이용

그런데 median은 데이터가 동적으로 변하는 상황에서 계산하기 힘들다.

정렬 후 찾아야 하기 때문에 sorting에 대한 overhead가 발생하기 때문이다.

 

따라서 gropued data에 대해 interpolation을 통해 추정함으로써 overhead를 어느정도 피할 수 있다.

 

 

수식에 대한 내용은 아래 그림과 같다.

Median이 속하는 구간 내에서 몇 퍼센트 쯤 위치했는지 찾고 width와 곱함으로써 구간 내의 값을 구할 수 있다.

이후 구간의 시작 값에 더함으로써 median을 찾을 수 있다.

 

 

예시

아래 표와 같이 구간에 따른 frequency가 주여졌다고 하자.

 

전체 데이터의 수 $n$ =3194 중 median은 1597번째 값이므로 meidan은 21-50 구간에 속한다.

$L_1$ = 21, $freq_{median}$ = 1500, $\Sigma freq_{low}$ = 950, $width$ = 1500 이다.

따라서 $median$ = 34.37 이다.

 


Mode

주어진 데이터 내에서 가장 빈번하게 나타나는 값을 mode라 한다.

Histogram에서 가장 높은 위치의 값과 동일하다.

 

Mode의 수에 따라 unimodal(1개), bimodal(2개), trimodal(3개)이라 한다.

 


Mean vs. Median

Mean은 extreme value의 영향을 받는다.

Median은 extreme value의 영향을 받지 않지만 데이터가 동적으로 변하는 상황에서 median을 구하기는 쉽지 않다.

Sorting에 대한 overhead가 발생하기 때문이다.

 


Mean, Meidan, Mode

Empirical Fomular

일반적인 경향에서 mean, median, mode의 관계는 다음과 같다.

그러나 이는 절대적인 특성은 아니고 empirical fomula이다.

 

$mean - mode = 3 \times (mean - median)$

 

Symmetric Data

Median, mean, mode가 모두 일치하는 데이터를 symmetric data라 한다.

Symmetric data의 histogram은 아래와 같이 정규 분포의 형태를 따른다.

 

Skewed Data

Median, mean, mode이 일치하지 않는 데이터를 말한다.

 

  • positively skewed data
    • mean > median
    • mean은 extreme value에 더 영향을 받기 때문에 median보다 오른쪽에 위치한다.
  • negatively skewed data
    • mean < median
    • mean은 extreme value에 더 영향을 받기 때문에 median보다 왼쪽에 위치한다.

 

In Histogram

Histogram에서 mean, median, mode는 아래의 특징을 가진다.

  • mode : 가장 빈번하게 나타나는 값 → 가장 높은 값
  • median : 그래프의 넓이를 절반으로 가르는 값
  • mean : median보다 extreme value에 영향을 받는 곳

 

 

'Computer Science > Data Science' 카테고리의 다른 글

Data Visualization  (0) 2022.06.03
[Data Description] Measuring Dispersion  (0) 2022.06.03
Data Description - 데이터 이해하기  (0) 2022.06.03
Attributes  (0) 2022.06.03
Data Set, Data Object, Attributes  (0) 2022.06.02

댓글