Classification, Prediction

기본 지식

Traning Data, Test data, Model

Training data
- model construction을 위한 tuple/sample의 집합
- 각 sample은 여러 개(하나 이상)의 attribute들과 하나의 predefined class label을 가지고 있다.
Test data
- accuracy evaluation을 위한 tuple/sample의 집합
- 각 sample은 training data와 동일한 구조의 attribute들과 하나의 predefined class label을 가지고 있다.
- 각 sample의 label은 정확도 계산을 위해 모델에 의해 분류된/예측된 결과와 비교된다.
Model
- 어떤 attribute가 class를 결정했는지 설명해준다.
- classification rules, decision trees, network, mathematical formulae 등으로 표현된다.

Superviesed vs Unsupervised Learning

Supervised learning
- classification
- training data에 predefined label이 존재한다.
- 새로운 데이터는 training set에 기반하여 classify 된다.
Unsupervised learning
- clustering
- training data에 predefined label이 존재하지 않는다.(unknown)
- measurement, observation 등을 통해 데이터에서 class/cluster에 대한 기준을 만드는 것을 목표로 한다.

Classification vs. Prediction

공통점
- 둘 다 model construction → model usage(예측)의 과정을 거친다.
차이점
- Classification
  - 주어진 object에 대해 class label을 예측하는 문제
  - categorical class label을 예측한다.
- Prediction
  - contiduous-value(real-value)를 예측한다.

2 Step Process

Classification과 prediction 모두 model construction → model usage의 과정을 거친다.

Model Construction

Training data를 이용하여 미리 정의된 class를 describe하는 과정이다.

Training data를 이용하여 model에 어떤 attribute가 class를 결정하는지 학습시키는 과정이다.

Model Usage

Model을 이용해서 future/unknown sample의 class를 맞추는 과정이다.

Accuracy Evaluation

모델의 정확도는 사용자가 만족하는 이상이어야 한다.

만약 accuracy가 만족하는 이상이면 그 모델을 data tuple에 대해 classify/predict 하기 위해 사용한다.

이를 위해 모델의 정확도를 계산할 필요가 있다.

Accuracy evaluation은 test data를 이용해서 model의 정확도를 계산하는 과정이다.

Test data의 predefined label을 model을 통해 분류/예측된 결과와 비교함으로써 accuracy evaluation을 수행한다.

Accuracy rate란 모델에 의해 정확히 분류/예측된 결과의 비율이다.

Over-fitting

Test set은 training data에 속하면 안된다.

즉, test set은 training data와 disjoint/independent 해야 한다.

그렇지 않으면 over-fitting이 일어나게 된다.

* over-fitting: training data에 지나치게 맞춰져서 다른 문제에 대한 정확도가 낮아지는 현상

'Computer Science > Data Science' 카테고리의 다른 글

[Classification] Decision Tree (0)	2022.04.18
Classification/Prediction에 대한 여러가지 Issues (0)	2022.04.18
Constraint-based (Query-Directed) Mining (0)	2022.04.18
Correlations (Lift) (0)	2022.04.17
Quantitative Association Mining (0)	2022.04.17

Classification, Prediction

기본 지식

Traning Data, Test data, Model

Superviesed vs Unsupervised Learning

Classification vs. Prediction

2 Step Process

Model Construction

Model Usage

Accuracy Evaluation

Over-fitting

'Computer Science > Data Science' 카테고리의 다른 글

댓글

티스토리툴바

Classification, Prediction

기본 지식

Traning Data, Test data, Model

Superviesed vs Unsupervised Learning

Classification vs. Prediction

2 Step Process

Model Construction

Model Usage

Accuracy Evaluation

Over-fitting

'Computer Science > Data Science' 카테고리의 다른 글

관련글

댓글

티스토리툴바