Data Mining이란?

Data Mining

많은 데이터(raw data) 속에서 필요한 정보(knowledge, pattern)를 찾아내는 것을 data mining이라 한다.

Extraction interesting (non-trivial), implicit, previously unknow and potentially useful) patterns or knowledge from huge amount of data.

배경

데이터가 폭발적으로 증가하고 있다.
- 데이터는 버려지지 않고 축적되는 경향
- 데이터를 자동으로 수집하는 도구의 발전
- 데이터베이스 시스템의 발전(데이터 저장/관리 기술의 발전)
- Web의 상용화
- computerized society : 사회의 컴퓨터화로 인해 무언가를 하기만해도 데이터가 축적된다.
데이터는 많지만 우리가 필요한 지식(knowledge)은 적다.
우리가 필요한 knowledge를 얻기 위해서는 data mining이 필요하다.

Knowledge의 조건

Data mining을 통해 얻고자 하는 knowledge는 아래 조건들을 만족해야 한다.

non-trivial : 당연한 내용이 아닌 정보
implicit : 당연하게 드러나 있는 것이 아닌 숨어있는 정보
previously unkown : 이전에 알려져 있지 않은 정보 (≒ non-trivial)
potentially useful : 쓸모 없지 않은 정보, 유용한 정보

Data Mining에 관한 여러가지 이야기

"Data Minig"이 Misnomer라고 하는 이유

우리가 mining(채광)하는 것은 data가 아닌 knowledge이다.

이런 관점에서 보면 data mining이란 용어는 misnomer이라고 볼 수 있다.

때문에 아래와 같은 용어가 더 적합하다고 하기도 한다.

Knowledge discovery(minig) in databases(KDD)
knowledge extraction
data/pattern analysis

Confluence of Multiple Disciplines

Data mining은 여러 학문들이 모여서 이루어진다.

많은 양의 데이터를 저장/처리하기 위한 database technology, 많은 데이터를 통계내기 위한 statistics, data mining technique을 위한 machine learning, 정리된 데이터/지식을 잘 보여주기 위한 visualization 등 여러 학문이 모여서 data minig을 이룬다.

이렇게 됨으로써 우리는 우리가 필요한 knowledge를 더 잘 얻을 수 있다.

Traditional Data Analysis로는 왜 안되는가

너무 방대한 양의 데이터
- 너무 많은 데이터가 존재해서 처리 속도, scalable 등의 문제를 해결해야 한다.
- 따라서 많은 양의 데이터를 scalable하게 다룰 수 있는 알고리즘이 필요하다.
High-dimensionality of data
- dimension : attribute
- dimension이 작으면 통계학의 성능이 뛰어나다. 그러나 dimension이 높아지면 통계학만으로는 다룰 수 없다.
매우 복잡한 데이터
- 데이터의 구조가 복잡해지고 있다.
새롭고 복잡한 application이 나오고 있다.

'Computer Science > Data Science' 카테고리의 다른 글

Frequent Pattern Mining (0)	2022.04.16
Frequent Pattern, Association Rules (0)	2022.04.16
KDD(Knowledge Discovery in Database) (0)	2022.04.16
Data Mining에 관한 주요 이슈들 (0)	2022.04.16
Data Mining의 분류 (0)	2022.04.16

Data Mining이란?

Data Mining

배경

Knowledge의 조건

Data Mining에 관한 여러가지 이야기

"Data Minig"이 Misnomer라고 하는 이유

Confluence of Multiple Disciplines

Traditional Data Analysis로는 왜 안되는가

'Computer Science > Data Science' 카테고리의 다른 글

댓글

티스토리툴바

Data Mining이란?

Data Mining

배경

Knowledge의 조건

Data Mining에 관한 여러가지 이야기

"Data Minig"이 Misnomer라고 하는 이유

Confluence of Multiple Disciplines

Traditional Data Analysis로는 왜 안되는가

'Computer Science > Data Science' 카테고리의 다른 글

관련글

댓글

티스토리툴바