본문 바로가기

Computer Science/Data Science 86

Data Visualization Data Visualization 데이터의 분포나 관계를 시각적으로 확인할 수 있다. boxplot : five-number($Q_0 ~ Q_4$) summary의 시각화 버전 histogram 한 attribute의 각 값에 대한 frequency를 나타냄 x-axis : values y-axis : frequency quantile plot : 하나의 데이터의 하나의 attribute의 분포를 나타낸다. quantile-quantile plot(q-q plot) : 다른 두 개의 데이터의 하나의 attribute의 분포를 나타낸다. scatter plot : 하나의 데이터에서 두 attribute의 관계를 나타낸다. 2022. 6. 3.
[Data Description] Measuring Dispersion Measuring Dispersion Quartiles 전체 데이터를 4개의 구역으로 나눠서 각 경계지점을 $Q_0$ ~ $Q_4$로 정하면 아래와 같이 된다. 5개의 값으로 전체 데이터의 distribution을 나타낼 수 있다. $Q_0$ $Q_1$ $Q_2$ $Q_3$ $Q_4$ 최솟값 25% (quartiles) median 75% (quartiles) 최댓값 IQR(Inter-Quartile Range) $IQR = Q_3 - Q_1$ Data의 dispersion을 나타낸다. IQR이 작으면 데이터가 dense한 것이고(모여있음) IQR이 크면 데이터가 sparse 한 것이다.(퍼져있음) Boxplot Quartiles를 그림으로 나타냄으로써 시각적으로 데이터의 분포를 그릴 수 있다. Mi.. 2022. 6. 3.
[Data Description] Measuring Central Tendency Measuring Central Tendency Central tendency(중심점)을 확인하는 수단으로 mean, median, mode가 있다. Mean(평균값) = Algebraic measure 대수적인 평균값이다. Weighted Arithmetic Mean = Weighted mean 각 그룹의 크기 비율이 다를 때나 비중을 다르게하고 싶을 때 평균을 구하는 방법이다. 분자에는 각 sample의 값에 weight을 곱하고 분자에는 그 weight들의 합으로 나눠준다. 분모에 나누는 것은 분자의 weight의 합이 1이 되도록 하는 작업이다. Trimmed Mean 너무 극단적인 값은 버리고 평균을 취하는 방법이다. 예를 들어 100명의 사원 임금 평균을 구할 때 3명이 CEO라면 CEO의 .. 2022. 6. 3.
Data Description - 데이터 이해하기 Data Description 데이터를 잘 이해하기 위해서 데이터가 어떻게 생겼는지 알아야 한다. Data Statistical Description 데이터의 분포를 수치적(통계적)으로 확인한다. 어디를 중심으로 : centeral tendency(중심점) mean : 평균값 median : 중간값(중간에 위치하는 데이터의 value) mode : 가장 많이 발생하는 값 어떻게 퍼져있는가 : diespersion(분포) max, min : 최대/최소 quartiles : 데이터를 정렬해서 4구역으로 나눴을 때의 값들($Q_0, Q_1, Q_2, Q_3, Q_4$) outliers : 특이한 행동을 보이는 값 variance : 분산 2022. 6. 3.
Attributes Attribute = Data field, dimensions, features, variables Data object의 특징(characteristic or feature)을 나타낸다. 종류 nomial = categories, states, names of things 유한한 수의 value를 가지고 각 value 사이에 대소 관계가 없음 예 : 우편번호, id 등 binary 0 or 1 (2개의 state만 가지는 attribute) symmetric binary 0과 1의 중요도가 동일 예 : 성(gender) asymmetric binary 0과 1의 중요도가 다름 → 주로 1의 중요도 > 0의 중요도 예 : 양성/음성 ordinal value 간 순서가 존재하지만 순서 간의 크기는 정해져 .. 2022. 6. 3.