본문 바로가기

카테고리 339

[Data Description] Measuring Dispersion Measuring Dispersion Quartiles 전체 데이터를 4개의 구역으로 나눠서 각 경계지점을 $Q_0$ ~ $Q_4$로 정하면 아래와 같이 된다. 5개의 값으로 전체 데이터의 distribution을 나타낼 수 있다. $Q_0$ $Q_1$ $Q_2$ $Q_3$ $Q_4$ 최솟값 25% (quartiles) median 75% (quartiles) 최댓값 IQR(Inter-Quartile Range) $IQR = Q_3 - Q_1$ Data의 dispersion을 나타낸다. IQR이 작으면 데이터가 dense한 것이고(모여있음) IQR이 크면 데이터가 sparse 한 것이다.(퍼져있음) Boxplot Quartiles를 그림으로 나타냄으로써 시각적으로 데이터의 분포를 그릴 수 있다. Mi.. 2022. 6. 3.
[Data Description] Measuring Central Tendency Measuring Central Tendency Central tendency(중심점)을 확인하는 수단으로 mean, median, mode가 있다. Mean(평균값) = Algebraic measure 대수적인 평균값이다. Weighted Arithmetic Mean = Weighted mean 각 그룹의 크기 비율이 다를 때나 비중을 다르게하고 싶을 때 평균을 구하는 방법이다. 분자에는 각 sample의 값에 weight을 곱하고 분자에는 그 weight들의 합으로 나눠준다. 분모에 나누는 것은 분자의 weight의 합이 1이 되도록 하는 작업이다. Trimmed Mean 너무 극단적인 값은 버리고 평균을 취하는 방법이다. 예를 들어 100명의 사원 임금 평균을 구할 때 3명이 CEO라면 CEO의 .. 2022. 6. 3.
Data Description - 데이터 이해하기 Data Description 데이터를 잘 이해하기 위해서 데이터가 어떻게 생겼는지 알아야 한다. Data Statistical Description 데이터의 분포를 수치적(통계적)으로 확인한다. 어디를 중심으로 : centeral tendency(중심점) mean : 평균값 median : 중간값(중간에 위치하는 데이터의 value) mode : 가장 많이 발생하는 값 어떻게 퍼져있는가 : diespersion(분포) max, min : 최대/최소 quartiles : 데이터를 정렬해서 4구역으로 나눴을 때의 값들($Q_0, Q_1, Q_2, Q_3, Q_4$) outliers : 특이한 행동을 보이는 값 variance : 분산 2022. 6. 3.
Attributes Attribute = Data field, dimensions, features, variables Data object의 특징(characteristic or feature)을 나타낸다. 종류 nomial = categories, states, names of things 유한한 수의 value를 가지고 각 value 사이에 대소 관계가 없음 예 : 우편번호, id 등 binary 0 or 1 (2개의 state만 가지는 attribute) symmetric binary 0과 1의 중요도가 동일 예 : 성(gender) asymmetric binary 0과 1의 중요도가 다름 → 주로 1의 중요도 > 0의 중요도 예 : 양성/음성 ordinal value 간 순서가 존재하지만 순서 간의 크기는 정해져 .. 2022. 6. 3.
Data Set, Data Object, Attributes Data Set Data Set & Data Object & Attributes Data set Dataset은 data objects들로 구성되어있다. 즉, 전체 데이터셋은 여러 data object들로 구성된다. Data Object Data object는 real-world의 entity와 대응대며 entity를 나타낸다. Data obejct는 여러 attributes로 구성된다. Data object는 tuple, sample, example, instance, data point, object 등으로 불리기도 한다. Attribute Data filed, dimensions, features, variables 등으로 불리기도 한다. Data object의 특징(characteristic or.. 2022. 6. 2.