카테고리 338 [Classification] Decision Tree Decision Tree Classification을 위해서 tree를 생성하고 그 tree에 따라 분류한다. Model(Tree) 생성 방법 top-down recursive divide-and-conquer 방식 top-down : Root부터 시작해서 test attribute를 선택하며 divicde-and-conqure : 그 attribute에 대한 기준으로 sample들을 나눈다. recursive : 이 과정을 반복해서 leaf까지 내려가며 tree를 생성한다. 해당 branch까지 내려온 모든 sample이 같은 class를 갖거나 더 이상 test attribute로 선택할 attribute가 존재하지 않을 때 recursive를 중단한다. 만약 leaf까지 내려왔는데 모든 sample.. 2022. 4. 18. Classification/Prediction에 대한 여러가지 Issues Data에 관한 Issues Data cleaning noise를 줄이고 missing value를 채우는 preprocessing 작업 실제 데이터에는 noise나 missing value(결측치)가 존재한다. 따라서 data cleaning 작업이 필요하다. Relevance analysis (feature selection) 불필요하거나 redundant한 attribute를 제거하는 작업 많은 attribute들 중에서 어떤 것을 feature로 사용할 것인지 결정해야 한다. classification에 도움이 되는 정보만 남긴다. Data transformation 데이터를 generalize/normalize 하는 작업 주로 값이 더 큰 attribute에 대해 score를 더 주는 경우가 있.. 2022. 4. 18. Classification, Prediction 기본 지식 Traning Data, Test data, Model Training data model construction을 위한 tuple/sample의 집합 각 sample은 여러 개(하나 이상)의 attribute들과 하나의 predefined class label을 가지고 있다. Test data accuracy evaluation을 위한 tuple/sample의 집합 각 sample은 training data와 동일한 구조의 attribute들과 하나의 predefined class label을 가지고 있다. 각 sample의 label은 정확도 계산을 위해 모델에 의해 분류된/예측된 결과와 비교된다. Model 어떤 attribute가 class를 결정했는지 설명해준다. classificat.. 2022. 4. 18. Constraint-based (Query-Directed) Mining Constraint-Based Mining (Query-Directed Mining) 제약조건(constraint)이 있을 때의 association rule mining 방법이다. Constraint-based Mining 사용자가 원하는 constraints를 주고 system이 mining을 수행한다. user flexibility : mining하고 싶은 constraints를 제공한다. system optimization : 전달받은 constraints에 대해서 효율적으로 mining을 수행한다. Data Mining에서 Constraints의 종류 Knowledge type constraint 어떤 종류의 mining을 할 것인가 classification, association, clust.. 2022. 4. 18. Correlations (Lift) Lift Interestingness Measure Mining한 pattern의 가치가 있는지 없는지 판단하는 기준이다. 기존에는 support와 confidence를 이용해서 판단하였다. 그런데 이는 의미 없는 pattern을 의미있게 볼 수 있다는 문제를 야기할 수 있다. 예를 들어, 아래 표에서는 1) play basketball $\rightarrow$ eat cereal [40%, 66.7%] 2) all student $rightarrow$ eat cereal [75%, 75%] 3) play basketball $\rightarrow$ not eat cereal [20%, 33.33%] 임을 확인할 수 있다. 2)를 보면 1)은 의미는 없지만 threshold보다 크기 때문에 의미 있다고 .. 2022. 4. 17. 이전 1 ··· 26 27 28 29 30 31 32 ··· 68 다음