본문 바로가기

카테고리 339

Frequent Pattern, Association Rules Frequent Pattern, Association Rules Minimum support를 만족하는 pattern을 frequent pattern이라 한다. Frequent pattern들 간의 관계를 rule이라 한다. Rule 중에서 minimum confidence를 만족하는 rule을 association rule이라 한다. Support Itemset X의 support는 전체 transaction DB에서 X가 얼마나 나타났는지를 의미한다. 비율이 될 수도 있고 카운팅 횟수가 될 수 있다. 이는 정하는 마음이다. Minimum support를 threshold로 삼아서 이보다 큰 support를 가져야만 frequent pattern이 될 수 있다. frquent pattern = $sup.. 2022. 4. 16.
KDD(Knowledge Discovery in Database) KDD (Knowledge Discovery in Database) 아래와 같이 data로 부터 knowledge를 발견해내는 과정을 KDD(knowledge discovery in database) process라고 한다. 넓은 의미로 봤을 때 data minig이라고도 한다. Database DB안의 data는 dirty하다. dirty data : missing information(누락된 정보, 결측치)나 outlier(잘못된 정보)들이 존재하는 데이터들 이러한 문제를 해결하는 과정을 data cleaning이라 한다. Data warehouse dirty data 문제가 해결되고 공통된 형식으로 변환된 데이터들을 관리하는 데이터베이스이다. 여러 정보가 들어있기 때문에 필요한 정보만들 골라야 하는.. 2022. 4. 16.
Data Mining에 관한 주요 이슈들 Data Mining에 관한 주요 이슈들 Data Mining에 대한 방법론 Data mining은 다양한 유형의 정보로부터 다양한 knowledge를 찾는다. 이 때 아래 이슈들을 고려해야 한다. Performance efficiency, effectiveness, scalability 잘 찾아도 속도가 너무 느리면 안됨 Pattern evaluation interestingness problem 의미있는 패턴들을 골라내야 한다. Incorporation of background knowledge domain expert가 가지고 있는 지식과 합쳐서 더 고차원의 knowledge를 추출해야 한다. Handling noise and incomplete data dirty data를 잘 정체해야 한다. P.. 2022. 4. 16.
Data Mining의 분류 Data Mining의 분류 일반적인 분류 descriptive data mining 현재의 데이터가 어떤 상태인가를 요약적으로 표현 예 : clustering, concept description predictive data mining : prediction 등 현재상태를 보고 미래를 예측하기 위함 예 : prediction 여러 분류 기준 Data view 적용되는 data를 기준으로 분류 예 : Relational, data ware house, transactional, time-series, temporal Knowledge view - functionality 찾고자하는 knowledge를 기준으로 분류 어떤 knowledge를 찾아낼 것인가에 따라 분류 characterization vs... 2022. 4. 16.
Data Mining이란? Data Mining 많은 데이터(raw data) 속에서 필요한 정보(knowledge, pattern)를 찾아내는 것을 data mining이라 한다. Extraction interesting (non-trivial), implicit, previously unknow and potentially useful) patterns or knowledge from huge amount of data. 배경 데이터가 폭발적으로 증가하고 있다. 데이터는 버려지지 않고 축적되는 경향 데이터를 자동으로 수집하는 도구의 발전 데이터베이스 시스템의 발전(데이터 저장/관리 기술의 발전) Web의 상용화 computerized society : 사회의 컴퓨터화로 인해 무언가를 하기만해도 데이터가 축적된다. 데이터는 많지.. 2022. 4. 16.