본문 바로가기
Computer Science/Data Science

Classification, Prediction

by Gofo 2022. 4. 18.

기본 지식

Traning Data, Test data, Model

  • Training data
    • model construction을 위한 tuple/sample의 집합
    • 각 sample은 여러 개(하나 이상)의 attribute들과 하나의 predefined class label을 가지고 있다.
  • Test data
    • accuracy evaluation을 위한 tuple/sample의 집합
    • 각 sample은 training data와 동일한 구조의 attribute들과 하나의 predefined class label을 가지고 있다.
    • 각 sample의 label은 정확도 계산을 위해 모델에 의해 분류된/예측된 결과와 비교된다.
  •  Model
    • 어떤 attribute가 class를 결정했는지 설명해준다.
    • classification rules, decision trees, network, mathematical formulae 등으로 표현된다.

 

Superviesed vs Unsupervised Learning

  • Supervised learning
    • classification
    • training data에 predefined label이 존재한다.
    • 새로운 데이터는 training set에 기반하여 classify 된다.
  • Unsupervised learning
    • clustering
    • training data에 predefined label이 존재하지 않는다.(unknown)
    • measurement, observation 등을 통해 데이터에서 class/cluster에 대한 기준을 만드는 것을 목표로 한다.

 


Classification vs. Prediction

  • 공통점
    • 둘 다 model construction → model usage(예측)의 과정을 거친다.
  • 차이점
    • Classification
      • 주어진 object에 대해 class label을 예측하는 문제
      • categorical class label을 예측한다.
    • Prediction
      • contiduous-value(real-value)를 예측한다.

 


2 Step Process

Classification과 prediction 모두 model construction → model usage의 과정을 거친다.

 

Model Construction

Training data를 이용하여 미리 정의된 class를 describe하는 과정이다.

Training data를 이용하여 model에 어떤 attribute가 class를 결정하는지 학습시키는 과정이다.

 

Model Usage

Model을 이용해서 future/unknown sample의 class를 맞추는 과정이다.

 


Accuracy Evaluation

모델의 정확도는 사용자가 만족하는 이상이어야 한다.

만약 accuracy가 만족하는 이상이면 그 모델을 data tuple에 대해 classify/predict 하기 위해 사용한다.

 

이를 위해 모델의 정확도를 계산할 필요가 있다.

 

Accuracy evaluation은 test data를 이용해서 model의 정확도를 계산하는 과정이다.

Test data의 predefined label을 model을 통해 분류/예측된 결과와 비교함으로써 accuracy evaluation을 수행한다.

Accuracy rate란 모델에 의해 정확히 분류/예측된 결과의 비율이다.

 

Over-fitting

Test set은 training data에 속하면 안된다.

즉, test set은 training data와 disjoint/independent 해야 한다.

 

그렇지 않으면 over-fitting이 일어나게 된다.

* over-fitting: training data에 지나치게 맞춰져서 다른 문제에 대한 정확도가 낮아지는 현상

 

 

댓글