본문 바로가기

Computer Science 254

[Frequent Pattern Mining] Apriori Algorithm Apriori Algorithm A Candidate Generation-and-Test Approach Candidate를 만들고 테스트하는 과정을 거치며 frequent pattern을 찾는 알고리즘이다. 다만 과정 중에 pruning을 통해 경우의 수를 줄인다. Pruning Principle Downward closure property의 대우를 이용한다. Frequent 하지 않은(infrequent) itemset을 포함하는 superset은 generation/test하지 않는다. 과정 DB를 scan하며 1개짜리 frequent itmeset을 생성한다. k-frequent($L_k$)를 이용하여 (k+1) 길이의 candidate itmesets($C_{k+1}$)을 생성한다. Self-.. 2022. 4. 16.
Frequent Pattern Mining Frequent Pattern Mining Frequent Pattern이란 Frequent pattern이란 주어진 데이터에서 빈번하게 발생하는 패턴이다. Frequent pattern으로 set of iterms(순서 의미 없음), subsequences(순서가 의미 있는 나열), substructures(그래프의 구조 등)이 될 수 있다. Frequent Pattern Analysis 데이터 속에서 빈번하게 발생하는 패턴을 찾는 테스크이다. 거래 내역(transaction)에서 어떤 상품들이 함께 구매되는가, PC를 산 뒤에 어떤 상품이 다음에 구매되는가 등을 찾는 과정이다. Basket data analysis(장바구니 분석), cross-marketing, catalog design, web l.. 2022. 4. 16.
Frequent Pattern, Association Rules Frequent Pattern, Association Rules Minimum support를 만족하는 pattern을 frequent pattern이라 한다. Frequent pattern들 간의 관계를 rule이라 한다. Rule 중에서 minimum confidence를 만족하는 rule을 association rule이라 한다. Support Itemset X의 support는 전체 transaction DB에서 X가 얼마나 나타났는지를 의미한다. 비율이 될 수도 있고 카운팅 횟수가 될 수 있다. 이는 정하는 마음이다. Minimum support를 threshold로 삼아서 이보다 큰 support를 가져야만 frequent pattern이 될 수 있다. frquent pattern = $sup.. 2022. 4. 16.
KDD(Knowledge Discovery in Database) KDD (Knowledge Discovery in Database) 아래와 같이 data로 부터 knowledge를 발견해내는 과정을 KDD(knowledge discovery in database) process라고 한다. 넓은 의미로 봤을 때 data minig이라고도 한다. Database DB안의 data는 dirty하다. dirty data : missing information(누락된 정보, 결측치)나 outlier(잘못된 정보)들이 존재하는 데이터들 이러한 문제를 해결하는 과정을 data cleaning이라 한다. Data warehouse dirty data 문제가 해결되고 공통된 형식으로 변환된 데이터들을 관리하는 데이터베이스이다. 여러 정보가 들어있기 때문에 필요한 정보만들 골라야 하는.. 2022. 4. 16.
Data Mining에 관한 주요 이슈들 Data Mining에 관한 주요 이슈들 Data Mining에 대한 방법론 Data mining은 다양한 유형의 정보로부터 다양한 knowledge를 찾는다. 이 때 아래 이슈들을 고려해야 한다. Performance efficiency, effectiveness, scalability 잘 찾아도 속도가 너무 느리면 안됨 Pattern evaluation interestingness problem 의미있는 패턴들을 골라내야 한다. Incorporation of background knowledge domain expert가 가지고 있는 지식과 합쳐서 더 고차원의 knowledge를 추출해야 한다. Handling noise and incomplete data dirty data를 잘 정체해야 한다. P.. 2022. 4. 16.