본문 바로가기
Computer Science/Data Science

Classification/Prediction에 대한 여러가지 Issues

by Gofo 2022. 4. 18.

Data에 관한 Issues

  • Data cleaning
    • noise를 줄이고 missing value를 채우는 preprocessing 작업
    • 실제 데이터에는 noise나 missing value(결측치)가 존재한다.
    • 따라서 data cleaning 작업이 필요하다.
  • Relevance analysis (feature selection)
    • 불필요하거나 redundant한 attribute를 제거하는 작업
    • 많은 attribute들 중에서 어떤 것을 feature로 사용할 것인지 결정해야 한다.
    • classification에 도움이 되는 정보만 남긴다.
  • Data transformation
    • 데이터를 generalize/normalize 하는 작업
    • 주로 값이 더 큰 attribute에 대해 score를 더 주는 경우가 있다.
      • 예 : 키와 나이를 통해 분류하는 문제에서는 키의 값이 일반적으로 더 크기 때문에 키에 의해 class가 결정되는 경우가 있다.
    • 따라서 scaling을 통해 attribute의 scale을 맞춰주어야 한다.

 


Method Evaluating에 관한 Issues

Classification method를 평가하는데 다양한 요소를 사용할 수 있다.

 

  • Accuracy
    • 주로 가장 중요하게 사용된다.
    • classifier accuracy : class label을 예측하는데의 정확도
    • predictor accuracy : predicted attribute의 값을 추측하는 데의 정확도
  • Speed
    • = time
    • training time : time to construct the model
    • classification/prediction time : time to use the model
  • Robustness
    • noise나 missing value에 대해 잘 견디는 정도
  • Scalability
    • ≒ time
    • 디스크에 대한 접근은 메모리에 대한 접근에 비해 월등히 느리기 때문에 이에 대한 고려를 해야 한다.
    • 데이터의 size가 linear하게 증가할 때 tiem cost는 exponential하게 증가하면 안된다.
  • Interpretability
    • 해석 가능성 (설명 가능성)
    • 왜 그렇게 분류/예측하였는지에 대한 설명 가능도
    • 딥러닝 모델의 경우 복잡하기 때문에 일반적으로 interpretability가 떨어지는 경우가 많다.
  • 기타
    • goodness of rules, decision tree size, compactness of classification rules 등

 

 

 

'Computer Science > Data Science' 카테고리의 다른 글

[Decision Tree] Information Gain  (0) 2022.04.18
[Classification] Decision Tree  (0) 2022.04.18
Classification, Prediction  (0) 2022.04.18
Constraint-based (Query-Directed) Mining  (0) 2022.04.18
Correlations (Lift)  (0) 2022.04.17

댓글