본문 바로가기

Computer Science/Data Science 86

Constraint-based (Query-Directed) Mining Constraint-Based Mining (Query-Directed Mining) 제약조건(constraint)이 있을 때의 association rule mining 방법이다. Constraint-based Mining 사용자가 원하는 constraints를 주고 system이 mining을 수행한다. user flexibility : mining하고 싶은 constraints를 제공한다. system optimization : 전달받은 constraints에 대해서 효율적으로 mining을 수행한다. Data Mining에서 Constraints의 종류 Knowledge type constraint 어떤 종류의 mining을 할 것인가 classification, association, clust.. 2022. 4. 18.
Correlations (Lift) Lift Interestingness Measure Mining한 pattern의 가치가 있는지 없는지 판단하는 기준이다. 기존에는 support와 confidence를 이용해서 판단하였다. 그런데 이는 의미 없는 pattern을 의미있게 볼 수 있다는 문제를 야기할 수 있다. 예를 들어, 아래 표에서는 1) play basketball $\rightarrow$ eat cereal [40%, 66.7%] 2) all student $rightarrow$ eat cereal [75%, 75%] 3) play basketball $\rightarrow$ not eat cereal [20%, 33.33%] 임을 확인할 수 있다. 2)를 보면 1)은 의미는 없지만 threshold보다 크기 때문에 의미 있다고 .. 2022. 4. 17.
Quantitative Association Mining Quantitative Association Rule Mining Attribute Types Attribute(predicate)에는 2가지 종류가 있다. categorical attribute 가능한 value의 수가 유한하다. value 사이에 순서가 없다. 예) occupation(X, "student") quantitative attribute numeric value 사이에 implicit order가 존재한다. Mining Quantitative Association Quantitative attribute에 대한 rule mining은 주로 discretization이나 clustering을 한 후에 association rule mining을 수행한다. 범위로 묶어서 mining하지 않고.. 2022. 4. 17.
Multi-level Association, Multi-dimensional Association Multi-Level Association Item들 간에 hierarchy가 존재하는 것을 말한다. 배경 Uniform support를 적용하면 레벨에 관계 없이 동일한 min_sup을 적용하게 된다. 그런데 lower level의 item들은 더 작은 support를 가질 확률이 높기 때문에 lower level에 대한 association rule은 나오기 힘들다. 따라서 Support를 flexible하게 설정할 필요가 있다. Reduced Support Lower level에 대한 threshold(min_sup)을 줄여준다. Redundant Rules 몇몇 descendent rule이 ancestor rule에 의해 찾아지고 설명되는 경우가 있다. 이러한 descendent rule을 re.. 2022. 4. 17.
[Frequent Pattern Mining] CHARM (using Vertical Data Format) CHARM Vertical data format을 이용하여 mining하는 방법이다. Vertical Format Vertical format이란 $t(AB) = \{T_{11}, T_{25}, ...\}$와 같은 형태이다. $t(AB)$는 itemset AB를 포함하는 모든 transaction의 tid-list를 의미한다. * 지금까지 표현한 transaction DB는 horizontal format이다. 방법 Horizontal format을 vertical format으로 바꾼다. k=1부터 시작해서 frequent k-itemset으로부터 cadidate (k+1)-itemset을 생성한다. TID-sets intersection과 apriori property를 이용한다. A와 B를 가지고 .. 2022. 4. 17.