본문 바로가기

Computer Science 254

Classification, Prediction 기본 지식 Traning Data, Test data, Model Training data model construction을 위한 tuple/sample의 집합 각 sample은 여러 개(하나 이상)의 attribute들과 하나의 predefined class label을 가지고 있다. Test data accuracy evaluation을 위한 tuple/sample의 집합 각 sample은 training data와 동일한 구조의 attribute들과 하나의 predefined class label을 가지고 있다. 각 sample의 label은 정확도 계산을 위해 모델에 의해 분류된/예측된 결과와 비교된다. Model 어떤 attribute가 class를 결정했는지 설명해준다. classificat.. 2022. 4. 18.
Constraint-based (Query-Directed) Mining Constraint-Based Mining (Query-Directed Mining) 제약조건(constraint)이 있을 때의 association rule mining 방법이다. Constraint-based Mining 사용자가 원하는 constraints를 주고 system이 mining을 수행한다. user flexibility : mining하고 싶은 constraints를 제공한다. system optimization : 전달받은 constraints에 대해서 효율적으로 mining을 수행한다. Data Mining에서 Constraints의 종류 Knowledge type constraint 어떤 종류의 mining을 할 것인가 classification, association, clust.. 2022. 4. 18.
Correlations (Lift) Lift Interestingness Measure Mining한 pattern의 가치가 있는지 없는지 판단하는 기준이다. 기존에는 support와 confidence를 이용해서 판단하였다. 그런데 이는 의미 없는 pattern을 의미있게 볼 수 있다는 문제를 야기할 수 있다. 예를 들어, 아래 표에서는 1) play basketball $\rightarrow$ eat cereal [40%, 66.7%] 2) all student $rightarrow$ eat cereal [75%, 75%] 3) play basketball $\rightarrow$ not eat cereal [20%, 33.33%] 임을 확인할 수 있다. 2)를 보면 1)은 의미는 없지만 threshold보다 크기 때문에 의미 있다고 .. 2022. 4. 17.
Quantitative Association Mining Quantitative Association Rule Mining Attribute Types Attribute(predicate)에는 2가지 종류가 있다. categorical attribute 가능한 value의 수가 유한하다. value 사이에 순서가 없다. 예) occupation(X, "student") quantitative attribute numeric value 사이에 implicit order가 존재한다. Mining Quantitative Association Quantitative attribute에 대한 rule mining은 주로 discretization이나 clustering을 한 후에 association rule mining을 수행한다. 범위로 묶어서 mining하지 않고.. 2022. 4. 17.
Multi-level Association, Multi-dimensional Association Multi-Level Association Item들 간에 hierarchy가 존재하는 것을 말한다. 배경 Uniform support를 적용하면 레벨에 관계 없이 동일한 min_sup을 적용하게 된다. 그런데 lower level의 item들은 더 작은 support를 가질 확률이 높기 때문에 lower level에 대한 association rule은 나오기 힘들다. 따라서 Support를 flexible하게 설정할 필요가 있다. Reduced Support Lower level에 대한 threshold(min_sup)을 줄여준다. Redundant Rules 몇몇 descendent rule이 ancestor rule에 의해 찾아지고 설명되는 경우가 있다. 이러한 descendent rule을 re.. 2022. 4. 17.