Data에 관한 Issues
- Data cleaning
- noise를 줄이고 missing value를 채우는 preprocessing 작업
- 실제 데이터에는 noise나 missing value(결측치)가 존재한다.
- 따라서 data cleaning 작업이 필요하다.
- Relevance analysis (feature selection)
- 불필요하거나 redundant한 attribute를 제거하는 작업
- 많은 attribute들 중에서 어떤 것을 feature로 사용할 것인지 결정해야 한다.
- classification에 도움이 되는 정보만 남긴다.
- Data transformation
- 데이터를 generalize/normalize 하는 작업
- 주로 값이 더 큰 attribute에 대해 score를 더 주는 경우가 있다.
- 예 : 키와 나이를 통해 분류하는 문제에서는 키의 값이 일반적으로 더 크기 때문에 키에 의해 class가 결정되는 경우가 있다.
- 따라서 scaling을 통해 attribute의 scale을 맞춰주어야 한다.
Method Evaluating에 관한 Issues
Classification method를 평가하는데 다양한 요소를 사용할 수 있다.
- Accuracy
- 주로 가장 중요하게 사용된다.
- classifier accuracy : class label을 예측하는데의 정확도
- predictor accuracy : predicted attribute의 값을 추측하는 데의 정확도
- Speed
- = time
- training time : time to construct the model
- classification/prediction time : time to use the model
- Robustness
- noise나 missing value에 대해 잘 견디는 정도
- Scalability
- ≒ time
- 디스크에 대한 접근은 메모리에 대한 접근에 비해 월등히 느리기 때문에 이에 대한 고려를 해야 한다.
- 데이터의 size가 linear하게 증가할 때 tiem cost는 exponential하게 증가하면 안된다.
- Interpretability
- 해석 가능성 (설명 가능성)
- 왜 그렇게 분류/예측하였는지에 대한 설명 가능도
- 딥러닝 모델의 경우 복잡하기 때문에 일반적으로 interpretability가 떨어지는 경우가 많다.
- 기타
- goodness of rules, decision tree size, compactness of classification rules 등
'Computer Science > Data Science' 카테고리의 다른 글
[Decision Tree] Information Gain (0) | 2022.04.18 |
---|---|
[Classification] Decision Tree (0) | 2022.04.18 |
Classification, Prediction (0) | 2022.04.18 |
Constraint-based (Query-Directed) Mining (0) | 2022.04.18 |
Correlations (Lift) (0) | 2022.04.17 |
댓글