Loading [MathJax]/jax/output/CommonHTML/jax.js
본문 바로가기

Computer Science 254

[Data Visualization] Boxplot Boxplot Five values를 그림으로 나타냄으로써 시각적으로 데이터의 분포를 그릴 수 있다. Min/max의 범위를 벗어나서 위치하는 점들을 outlier라 한다. 주로 whisker의 길이는 1.5 * IQR이다. 2022. 6. 3.
Data Visualization Data Visualization 데이터의 분포나 관계를 시각적으로 확인할 수 있다. boxplot : five-number(Q0 Q4) summary의 시각화 버전 histogram 한 attribute의 각 값에 대한 frequency를 나타냄 x-axis : values y-axis : frequency quantile plot : 하나의 데이터의 하나의 attribute의 분포를 나타낸다. quantile-quantile plot(q-q plot) : 다른 두 개의 데이터의 하나의 attribute의 분포를 나타낸다. scatter plot : 하나의 데이터에서 두 attribute의 관계를 나타낸다. 2022. 6. 3.
[Data Description] Measuring Dispersion Measuring Dispersion Quartiles 전체 데이터를 4개의 구역으로 나눠서 각 경계지점을 Q0 ~ Q4로 정하면 아래와 같이 된다. 5개의 값으로 전체 데이터의 distribution을 나타낼 수 있다. Q0 Q1 Q2 Q3 Q4 최솟값 25% (quartiles) median 75% (quartiles) 최댓값 IQR(Inter-Quartile Range) IQR=Q3Q1 Data의 dispersion을 나타낸다. IQR이 작으면 데이터가 dense한 것이고(모여있음) IQR이 크면 데이터가 sparse 한 것이다.(퍼져있음) Boxplot Quartiles를 그림으로 나타냄으로써 시각적으로 데이터의 분포를 그릴 수 있다. Mi.. 2022. 6. 3.
[Data Description] Measuring Central Tendency Measuring Central Tendency Central tendency(중심점)을 확인하는 수단으로 mean, median, mode가 있다. Mean(평균값) = Algebraic measure 대수적인 평균값이다. Weighted Arithmetic Mean = Weighted mean 각 그룹의 크기 비율이 다를 때나 비중을 다르게하고 싶을 때 평균을 구하는 방법이다. 분자에는 각 sample의 값에 weight을 곱하고 분자에는 그 weight들의 합으로 나눠준다. 분모에 나누는 것은 분자의 weight의 합이 1이 되도록 하는 작업이다. Trimmed Mean 너무 극단적인 값은 버리고 평균을 취하는 방법이다. 예를 들어 100명의 사원 임금 평균을 구할 때 3명이 CEO라면 CEO의 .. 2022. 6. 3.
Data Description - 데이터 이해하기 Data Description 데이터를 잘 이해하기 위해서 데이터가 어떻게 생겼는지 알아야 한다. Data Statistical Description 데이터의 분포를 수치적(통계적)으로 확인한다. 어디를 중심으로 : centeral tendency(중심점) mean : 평균값 median : 중간값(중간에 위치하는 데이터의 value) mode : 가장 많이 발생하는 값 어떻게 퍼져있는가 : diespersion(분포) max, min : 최대/최소 quartiles : 데이터를 정렬해서 4구역으로 나눴을 때의 값들(Q0,Q1,Q2,Q3,Q4) outliers : 특이한 행동을 보이는 값 variance : 분산 2022. 6. 3.