본문 바로가기

Computer Science/Data Science 86

Frequent Pattern Mining Frequent Pattern Mining Frequent Pattern이란 Frequent pattern이란 주어진 데이터에서 빈번하게 발생하는 패턴이다. Frequent pattern으로 set of iterms(순서 의미 없음), subsequences(순서가 의미 있는 나열), substructures(그래프의 구조 등)이 될 수 있다. Frequent Pattern Analysis 데이터 속에서 빈번하게 발생하는 패턴을 찾는 테스크이다. 거래 내역(transaction)에서 어떤 상품들이 함께 구매되는가, PC를 산 뒤에 어떤 상품이 다음에 구매되는가 등을 찾는 과정이다. Basket data analysis(장바구니 분석), cross-marketing, catalog design, web l.. 2022. 4. 16.
Frequent Pattern, Association Rules Frequent Pattern, Association Rules Minimum support를 만족하는 pattern을 frequent pattern이라 한다. Frequent pattern들 간의 관계를 rule이라 한다. Rule 중에서 minimum confidence를 만족하는 rule을 association rule이라 한다. Support Itemset X의 support는 전체 transaction DB에서 X가 얼마나 나타났는지를 의미한다. 비율이 될 수도 있고 카운팅 횟수가 될 수 있다. 이는 정하는 마음이다. Minimum support를 threshold로 삼아서 이보다 큰 support를 가져야만 frequent pattern이 될 수 있다. frquent pattern = $sup.. 2022. 4. 16.
KDD(Knowledge Discovery in Database) KDD (Knowledge Discovery in Database) 아래와 같이 data로 부터 knowledge를 발견해내는 과정을 KDD(knowledge discovery in database) process라고 한다. 넓은 의미로 봤을 때 data minig이라고도 한다. Database DB안의 data는 dirty하다. dirty data : missing information(누락된 정보, 결측치)나 outlier(잘못된 정보)들이 존재하는 데이터들 이러한 문제를 해결하는 과정을 data cleaning이라 한다. Data warehouse dirty data 문제가 해결되고 공통된 형식으로 변환된 데이터들을 관리하는 데이터베이스이다. 여러 정보가 들어있기 때문에 필요한 정보만들 골라야 하는.. 2022. 4. 16.
Data Mining에 관한 주요 이슈들 Data Mining에 관한 주요 이슈들 Data Mining에 대한 방법론 Data mining은 다양한 유형의 정보로부터 다양한 knowledge를 찾는다. 이 때 아래 이슈들을 고려해야 한다. Performance efficiency, effectiveness, scalability 잘 찾아도 속도가 너무 느리면 안됨 Pattern evaluation interestingness problem 의미있는 패턴들을 골라내야 한다. Incorporation of background knowledge domain expert가 가지고 있는 지식과 합쳐서 더 고차원의 knowledge를 추출해야 한다. Handling noise and incomplete data dirty data를 잘 정체해야 한다. P.. 2022. 4. 16.
Data Mining의 분류 Data Mining의 분류 일반적인 분류 descriptive data mining 현재의 데이터가 어떤 상태인가를 요약적으로 표현 예 : clustering, concept description predictive data mining : prediction 등 현재상태를 보고 미래를 예측하기 위함 예 : prediction 여러 분류 기준 Data view 적용되는 data를 기준으로 분류 예 : Relational, data ware house, transactional, time-series, temporal Knowledge view - functionality 찾고자하는 knowledge를 기준으로 분류 어떤 knowledge를 찾아낼 것인가에 따라 분류 characterization vs... 2022. 4. 16.