기본 지식
Traning Data, Test data, Model
- Training data
- model construction을 위한 tuple/sample의 집합
- 각 sample은 여러 개(하나 이상)의 attribute들과 하나의 predefined class label을 가지고 있다.
- Test data
- accuracy evaluation을 위한 tuple/sample의 집합
- 각 sample은 training data와 동일한 구조의 attribute들과 하나의 predefined class label을 가지고 있다.
- 각 sample의 label은 정확도 계산을 위해 모델에 의해 분류된/예측된 결과와 비교된다.
- Model
- 어떤 attribute가 class를 결정했는지 설명해준다.
- classification rules, decision trees, network, mathematical formulae 등으로 표현된다.
Superviesed vs Unsupervised Learning
- Supervised learning
- classification
- training data에 predefined label이 존재한다.
- 새로운 데이터는 training set에 기반하여 classify 된다.
- Unsupervised learning
- clustering
- training data에 predefined label이 존재하지 않는다.(unknown)
- measurement, observation 등을 통해 데이터에서 class/cluster에 대한 기준을 만드는 것을 목표로 한다.
Classification vs. Prediction
- 공통점
- 둘 다 model construction → model usage(예측)의 과정을 거친다.
- 차이점
- Classification
- 주어진 object에 대해 class label을 예측하는 문제
- categorical class label을 예측한다.
- Prediction
- contiduous-value(real-value)를 예측한다.
- Classification
2 Step Process
Classification과 prediction 모두 model construction → model usage의 과정을 거친다.
Model Construction
Training data를 이용하여 미리 정의된 class를 describe하는 과정이다.
Training data를 이용하여 model에 어떤 attribute가 class를 결정하는지 학습시키는 과정이다.
Model Usage
Model을 이용해서 future/unknown sample의 class를 맞추는 과정이다.
Accuracy Evaluation
모델의 정확도는 사용자가 만족하는 이상이어야 한다.
만약 accuracy가 만족하는 이상이면 그 모델을 data tuple에 대해 classify/predict 하기 위해 사용한다.
이를 위해 모델의 정확도를 계산할 필요가 있다.
Accuracy evaluation은 test data를 이용해서 model의 정확도를 계산하는 과정이다.
Test data의 predefined label을 model을 통해 분류/예측된 결과와 비교함으로써 accuracy evaluation을 수행한다.
Accuracy rate란 모델에 의해 정확히 분류/예측된 결과의 비율이다.
Over-fitting
Test set은 training data에 속하면 안된다.
즉, test set은 training data와 disjoint/independent 해야 한다.
그렇지 않으면 over-fitting이 일어나게 된다.
* over-fitting: training data에 지나치게 맞춰져서 다른 문제에 대한 정확도가 낮아지는 현상
'Computer Science > Data Science' 카테고리의 다른 글
[Classification] Decision Tree (0) | 2022.04.18 |
---|---|
Classification/Prediction에 대한 여러가지 Issues (0) | 2022.04.18 |
Constraint-based (Query-Directed) Mining (0) | 2022.04.18 |
Correlations (Lift) (0) | 2022.04.17 |
Quantitative Association Mining (0) | 2022.04.17 |
댓글