본문 바로가기

Computer Science/Data Science 86

Data Set, Data Object, Attributes Data Set Data Set & Data Object & Attributes Data set Dataset은 data objects들로 구성되어있다. 즉, 전체 데이터셋은 여러 data object들로 구성된다. Data Object Data object는 real-world의 entity와 대응대며 entity를 나타낸다. Data obejct는 여러 attributes로 구성된다. Data object는 tuple, sample, example, instance, data point, object 등으로 불리기도 한다. Attribute Data filed, dimensions, features, variables 등으로 불리기도 한다. Data object의 특징(characteristic or.. 2022. 6. 2.
[Classification] Ensemble - 정확도를 높이기 위한 방법 Ensemble 2개 이상의 classifier를 결합해서 정확도를 높이는 방법이다. 대표적인 ensemble method는 다음과 같다. Bagging 같은 종류의 classifier를 조합해서 사용 accuracy = 각 classifier의 accuracy의 평균 Boosting 같은 종류의 classifier를 조합해서 사용 accuracy = 각 classifier의 accuracy의 weighted average Ensemble 좁은 의미의 ensemble 다양한 종류의 classifier를 조합해서 사용 Bagging 같은 종류의 classifier를 사용하고, 각 classifier가 동일한 비율을 가진다. 따라서 prediction과 accuracy을 각 classifier의 평균으로 계.. 2022. 4. 18.
Classifier Accuracy Measure Accuracy Measure Accuracy의 기준은 대표적으로 4가지가 있다. 이 중 암 진단에서는 sensitivity와 precision을 중요하게 생각한다. sensitivity = t-pos / pos positive하다고 판단된 것 중 진짜 positive한 비율 specificity = t-neg / neg negative하다고 판단된 것 중 진짜 negative한 비율 precision = t-pos / (t-pos + f-pos) 진짜 positive 한 것 중 postivie하다고 판단된 비율 accuracy = (t-pos + t-neg) / (pos + neg) 전체 데이터 중 제대로 판단된 비율 = sensitivity * pos/(pos+neg) + specificity * n.. 2022. 4. 18.
[Prediction] Regression Prediction Numerical value(real-value)를 예측하는 방법이다. 대표적인 방법으로 regression이 있다. vs. Classification 공통점 Model construction → model usage의 단계를 가진다는 것에서 classification과 유사하다. 차이점 Classification categorical class label을 예측한다. Prediction numerical value를 예측한다. continuous-valued function을 이용해서 continuous space에서의 value(real-value)를 예측한다. Regression Predictor variable을 가지고 response variable을 예측한다. 이를 위해 하.. 2022. 4. 18.
[Classification] K-NN(K-Nearest Neighbor) Algorithm K-NN Algorithm = K-Nearest Neighbor Algorithm Lazy learning 방법이다. n-dimension space에서 거리를 기반으로 K개의 이웃을 보고 classification 하는 방법이다. K개의 이웃한 sample들의 label 중 majority voting을 통해 class를 결정한다. Distance를 기반으로 하기 때문에 distance function이 잘 정해져있어야 한다. 실제 결과에 영향이 적은 attribute를 제거한 dimension을 구성하는 것이 중요하다. 단순히 거리만 기반으로 비교하면 fair하지 않기 때문에 거리의 역수를 weight으로 해서 weighted voting을 할 수도 있다. → 거리의 역수의 합을 통해 비교 2022. 4. 18.