KDD (Knowledge Discovery in Database)
아래와 같이 data로 부터 knowledge를 발견해내는 과정을 KDD(knowledge discovery in database) process라고 한다.
넓은 의미로 봤을 때 data minig이라고도 한다.
- Database
- DB안의 data는 dirty하다.
- dirty data : missing information(누락된 정보, 결측치)나 outlier(잘못된 정보)들이 존재하는 데이터들
- 이러한 문제를 해결하는 과정을 data cleaning이라 한다.
- Data warehouse
- dirty data 문제가 해결되고 공통된 형식으로 변환된 데이터들을 관리하는 데이터베이스이다.
- 여러 정보가 들어있기 때문에 필요한 정보만들 골라야 하는데 이 과정을 selection이라 한다.
- 여러 데이터베이스를 합치는 것을 data integration이라 한다.
- Task-relevant data
- 문제를 해결하는데 필요한 정보들이 모여있는 데이터이다.
- 이 데이터들 중에서 data mining을 통해 의미있는 pattern을 추출해내는데 이 과정을 좁은 의미의 data mining이라 한다.
- Pattern evaluation
- 의사결정자가 실제로 필요한 정보인지를 평가한다.
- 부적합한 pattern은 버려지며 원하는 knowledge가 나오지 않았을 경우 이전 단계로 돌아간다.
- Knowledge
- non-trivial
- implicit
- previously unknown
- potentially useful
좁은 의미의 Data Mining
KDD(Knowledge Discovery in Database)의 과정 중 task-relevant data로부터 knowledge를 알아내는 과정을 좁은 의미의 data mining이라 한다.
넓은 의미의 Data Mining
Data로 부터 knowledge를 mining하는 전체 과정(KDD)을 넓은 의미의 data mining이라고도 한다.
'Computer Science > Data Science' 카테고리의 다른 글
Frequent Pattern Mining (0) | 2022.04.16 |
---|---|
Frequent Pattern, Association Rules (0) | 2022.04.16 |
Data Mining에 관한 주요 이슈들 (0) | 2022.04.16 |
Data Mining의 분류 (0) | 2022.04.16 |
Data Mining이란? (0) | 2022.04.16 |
댓글