본문 바로가기

Computer Science/Data Science 86

Eager Learning vs. Lazy Learning Eager Learning vs. Lazy Learning Training 하는 방식에 따라서 lazy learning과 eager learning으로 나눌 수 있다. Eager Learning test sample이 들어오기 전에 미리 classification rule(model)을 만들어 놓는다. 예 : decision tree 등 Lazy Learning test sample이 들어올 때까지 training data를 저장만 하거나 간단한 preprocessing만 한다. instance-based learning 새로운 instance가 들어오면 learning을 한다. 새로운 instance가 들어올 때 까지 processing을 delay한다. 예 : KNN algorithm 비교 time .. 2022. 4. 18.
[Classification] Associative Classification Associative Classficiation Rule-based classification의 일종이다. Rule을 찾아내는 방법을 association rule mining(apriori, FP-growth 등)으로 수행한다. Association rule을 생성하고 classification을 위해서 association rule을 사용한다. 아래와 같이 precondition들의 conjunction으로 표현한다. $p_1 \cap p_2 \cap ... \cap p_i \rightarrow A_{class} = C (conf, sup)$ Confidence, Support Minimum confidence와 minimum support 이상인 것들에 대해서 classification이 수행된다... 2022. 4. 18.
[Classification] Rule-based Classification IF-THEN Rules 모델이 if-then과 같은 rule의 형태로 나타난다. "IF age = youth AND student = yes THEN buys_computer = yes"와 같은 형태이다. rule antecedent = rule precondition IF 문 안에 있는 조건 예시 : "age = youth AND student = yes" rule consequent IF의 결과 THEN절 예시 : "buys_computer = yes" Coverage, Accuracy coverage attribute의 값이 antecedent와 일치하는 샘플의 수 training sample 중에서 몇개가 cover 되는가 $coverage(R) = n_{covers} / |D|$ accurac.. 2022. 4. 18.
[Classification] Bayesian Classification Bayesian Classification 특징 statistical classifier bayes theorem에 기반을 둔 statistical classifier이다. Probabilistic prediction을 수행한다.(확률적으로 예측을 한다.) comparable performance Naive bayesian classifier는 decision tree나 neural network에 대해 comparable한 성능을 보인다. Incremental 미리 mining한 knowledge가 새로 들어온 정보에 의해 찾아진 knowledge와 쉽게 combine될 수 있다. scratch에서 다시 training하는 것보다 combine하는 것이 훨씬 빠르다. Bayesian Theorem ev.. 2022. 4. 18.
[Decision Tree] Gini Index Gini Index Information gain과 마찬가지로 더 homogeneous하게 나뉘도록 한다. Gini index는 일반적으로 attribute가 binary value를 가질 때만을 고려한다. 따라서 value를 binary하게 묶어서 classification을 해야 한다. Gini Gini의 값이 더 클수록 heterogenity하다는 것을 의미하므로 gini의 값은 작게 해야 한다. $gini(D) = 1 - \Sigma ^n _{j=1} p^2 _j$ $p_j$ : j라는 class에 속할 확률 * Info(D) = $-\Sigma ^n _{j=1} p_j log_2 p_j$ 따라서 dataset $D$가 attribute A로 인해 $D_1$과 $D_2$로 나뉘었을 때의 $gini.. 2022. 4. 18.