Data Mining
많은 데이터(raw data) 속에서 필요한 정보(knowledge, pattern)를 찾아내는 것을 data mining이라 한다.
Extraction interesting (non-trivial), implicit, previously unknow and potentially useful) patterns or knowledge from huge amount of data.
배경
- 데이터가 폭발적으로 증가하고 있다.
- 데이터는 버려지지 않고 축적되는 경향
- 데이터를 자동으로 수집하는 도구의 발전
- 데이터베이스 시스템의 발전(데이터 저장/관리 기술의 발전)
- Web의 상용화
- computerized society : 사회의 컴퓨터화로 인해 무언가를 하기만해도 데이터가 축적된다.
- 데이터는 많지만 우리가 필요한 지식(knowledge)은 적다.
- 우리가 필요한 knowledge를 얻기 위해서는 data mining이 필요하다.
Knowledge의 조건
Data mining을 통해 얻고자 하는 knowledge는 아래 조건들을 만족해야 한다.
- non-trivial : 당연한 내용이 아닌 정보
- implicit : 당연하게 드러나 있는 것이 아닌 숨어있는 정보
- previously unkown : 이전에 알려져 있지 않은 정보 (≒ non-trivial)
- potentially useful : 쓸모 없지 않은 정보, 유용한 정보
Data Mining에 관한 여러가지 이야기
"Data Minig"이 Misnomer라고 하는 이유
우리가 mining(채광)하는 것은 data가 아닌 knowledge이다.
이런 관점에서 보면 data mining이란 용어는 misnomer이라고 볼 수 있다.
때문에 아래와 같은 용어가 더 적합하다고 하기도 한다.
- Knowledge discovery(minig) in databases(KDD)
- knowledge extraction
- data/pattern analysis
Confluence of Multiple Disciplines
Data mining은 여러 학문들이 모여서 이루어진다.
많은 양의 데이터를 저장/처리하기 위한 database technology, 많은 데이터를 통계내기 위한 statistics, data mining technique을 위한 machine learning, 정리된 데이터/지식을 잘 보여주기 위한 visualization 등 여러 학문이 모여서 data minig을 이룬다.
이렇게 됨으로써 우리는 우리가 필요한 knowledge를 더 잘 얻을 수 있다.
Traditional Data Analysis로는 왜 안되는가
- 너무 방대한 양의 데이터
- 너무 많은 데이터가 존재해서 처리 속도, scalable 등의 문제를 해결해야 한다.
- 따라서 많은 양의 데이터를 scalable하게 다룰 수 있는 알고리즘이 필요하다.
- High-dimensionality of data
- dimension : attribute
- dimension이 작으면 통계학의 성능이 뛰어나다. 그러나 dimension이 높아지면 통계학만으로는 다룰 수 없다.
- 매우 복잡한 데이터
- 데이터의 구조가 복잡해지고 있다.
- 새롭고 복잡한 application이 나오고 있다.
'Computer Science > Data Science' 카테고리의 다른 글
Frequent Pattern Mining (0) | 2022.04.16 |
---|---|
Frequent Pattern, Association Rules (0) | 2022.04.16 |
KDD(Knowledge Discovery in Database) (0) | 2022.04.16 |
Data Mining에 관한 주요 이슈들 (0) | 2022.04.16 |
Data Mining의 분류 (0) | 2022.04.16 |
댓글