본문 바로가기
Computer Science/Data Science

KDD(Knowledge Discovery in Database)

by Gofo 2022. 4. 16.

KDD (Knowledge Discovery in Database)

아래와 같이 data로 부터 knowledge를 발견해내는 과정을 KDD(knowledge discovery in database) process라고 한다.

넓은 의미로 봤을 때 data minig이라고도 한다.

 

  • Database
    • DB안의 data는 dirty하다.
    • dirty data : missing information(누락된 정보, 결측치)나 outlier(잘못된 정보)들이 존재하는 데이터들
    • 이러한 문제를 해결하는 과정을 data cleaning이라 한다.
  • Data warehouse
    • dirty data 문제가 해결되고 공통된 형식으로 변환된 데이터들을 관리하는 데이터베이스이다.
    • 여러 정보가 들어있기 때문에 필요한 정보만들 골라야 하는데 이 과정을 selection이라 한다.
    • 여러 데이터베이스를 합치는 것을 data integration이라 한다.
  • Task-relevant data
    • 문제를 해결하는데 필요한 정보들이 모여있는 데이터이다.
    • 이 데이터들 중에서 data mining을 통해 의미있는 pattern을 추출해내는데 이 과정을 좁은 의미의 data mining이라 한다.
  • Pattern evaluation
    • 의사결정자가 실제로 필요한 정보인지를 평가한다.
    • 부적합한 pattern은 버려지며 원하는 knowledge가 나오지 않았을 경우 이전 단계로 돌아간다.
  • Knowledge
    • non-trivial
    • implicit
    • previously unknown
    • potentially useful

 

좁은 의미의 Data Mining

KDD(Knowledge Discovery in Database)의 과정 중 task-relevant data로부터 knowledge를 알아내는 과정을 좁은 의미의 data mining이라 한다.

 

넓은 의미의 Data Mining

Data로 부터 knowledge를 mining하는 전체 과정(KDD)을 넓은 의미의 data mining이라고도 한다.

 

'Computer Science > Data Science' 카테고리의 다른 글

Frequent Pattern Mining  (0) 2022.04.16
Frequent Pattern, Association Rules  (0) 2022.04.16
Data Mining에 관한 주요 이슈들  (0) 2022.04.16
Data Mining의 분류  (0) 2022.04.16
Data Mining이란?  (0) 2022.04.16

댓글