본문 바로가기
Computer Science/Data Science

KDD(Knowledge Discovery in Database)

by Gofo 2022. 4. 16.

📝 목차



KDD (Knowledge Discovery in Database)

아래와 같이 data로 부터 knowledge를 발견해내는 과정을 KDD(knowledge discovery in database) process라고 한다.

넓은 의미로 봤을 때 data minig이라고도 한다.

 

  • Database
    • DB안의 data는 dirty하다.
    • dirty data : missing information(누락된 정보, 결측치)나 outlier(잘못된 정보)들이 존재하는 데이터들
    • 이러한 문제를 해결하는 과정을 data cleaning이라 한다.
  • Data warehouse
    • dirty data 문제가 해결되고 공통된 형식으로 변환된 데이터들을 관리하는 데이터베이스이다.
    • 여러 정보가 들어있기 때문에 필요한 정보만들 골라야 하는데 이 과정을 selection이라 한다.
    • 여러 데이터베이스를 합치는 것을 data integration이라 한다.
  • Task-relevant data
    • 문제를 해결하는데 필요한 정보들이 모여있는 데이터이다.
    • 이 데이터들 중에서 data mining을 통해 의미있는 pattern을 추출해내는데 이 과정을 좁은 의미의 data mining이라 한다.
  • Pattern evaluation
    • 의사결정자가 실제로 필요한 정보인지를 평가한다.
    • 부적합한 pattern은 버려지며 원하는 knowledge가 나오지 않았을 경우 이전 단계로 돌아간다.
  • Knowledge
    • non-trivial
    • implicit
    • previously unknown
    • potentially useful

 

좁은 의미의 Data Mining

KDD(Knowledge Discovery in Database)의 과정 중 task-relevant data로부터 knowledge를 알아내는 과정을 좁은 의미의 data mining이라 한다.

 

넓은 의미의 Data Mining

Data로 부터 knowledge를 mining하는 전체 과정(KDD)을 넓은 의미의 data mining이라고도 한다.

 

'Computer Science > Data Science' 카테고리의 다른 글

Frequent Pattern Mining  (0) 2022.04.16
Frequent Pattern, Association Rules  (0) 2022.04.16
Data Mining에 관한 주요 이슈들  (0) 2022.04.16
Data Mining의 분류  (0) 2022.04.16
Data Mining이란?  (0) 2022.04.16

댓글