본문 바로가기
Computer Science/Data Science

Data Mining이란?

by Gofo 2022. 4. 16.

Data Mining

많은 데이터(raw data) 속에서 필요한 정보(knowledge, pattern)를 찾아내는 것을 data mining이라 한다.

Extraction interesting (non-trivial), implicit, previously unknow and potentially useful) patterns or knowledge from huge amount of data.

 

배경

  • 데이터가 폭발적으로 증가하고 있다. 
    • 데이터는 버려지지 않고 축적되는 경향
    • 데이터를 자동으로 수집하는 도구의 발전
    • 데이터베이스 시스템의 발전(데이터 저장/관리 기술의 발전)
    • Web의 상용화
    • computerized society : 사회의 컴퓨터화로 인해 무언가를 하기만해도 데이터가 축적된다.
  • 데이터는 많지만 우리가 필요한 지식(knowledge)은 적다.
  • 우리가 필요한 knowledge를 얻기 위해서는 data mining이 필요하다.

 


Knowledge의 조건

Data mining을 통해 얻고자 하는 knowledge는 아래 조건들을 만족해야 한다.

  • non-trivial : 당연한 내용이 아닌 정보
  • implicit : 당연하게 드러나 있는 것이 아닌 숨어있는 정보
  • previously unkown : 이전에 알려져 있지 않은 정보 (≒ non-trivial)
  • potentially useful : 쓸모 없지 않은 정보, 유용한 정보

 


Data Mining에 관한 여러가지 이야기

"Data Minig"이 Misnomer라고 하는 이유

우리가 mining(채광)하는 것은 data가 아닌 knowledge이다.

이런 관점에서 보면 data mining이란 용어는 misnomer이라고 볼 수 있다.

 

때문에 아래와 같은 용어가 더 적합하다고 하기도 한다.

  • Knowledge discovery(minig) in databases(KDD)
  • knowledge extraction
  • data/pattern analysis

 

Confluence of Multiple Disciplines

Data mining은 여러 학문들이 모여서 이루어진다.

 

많은 양의 데이터를 저장/처리하기 위한 database technology, 많은 데이터를 통계내기 위한 statistics, data mining technique을 위한 machine learning, 정리된 데이터/지식을 잘 보여주기 위한 visualization 등 여러 학문이 모여서 data minig을 이룬다.

 

이렇게 됨으로써 우리는 우리가 필요한 knowledge를 더 잘 얻을 수 있다.

 

Traditional Data Analysis로는 왜 안되는가

  • 너무 방대한 양의 데이터
    • 너무 많은 데이터가 존재해서 처리 속도, scalable 등의 문제를 해결해야 한다.
    • 따라서 많은 양의 데이터를 scalable하게 다룰 수 있는 알고리즘이 필요하다.
  • High-dimensionality of data
    • dimension : attribute
    • dimension이 작으면 통계학의 성능이 뛰어나다. 그러나 dimension이 높아지면 통계학만으로는 다룰 수 없다.
  • 매우 복잡한 데이터
    • 데이터의 구조가 복잡해지고 있다.
  • 새롭고 복잡한 application이 나오고 있다.

 

 

'Computer Science > Data Science' 카테고리의 다른 글

Frequent Pattern Mining  (0) 2022.04.16
Frequent Pattern, Association Rules  (0) 2022.04.16
KDD(Knowledge Discovery in Database)  (0) 2022.04.16
Data Mining에 관한 주요 이슈들  (0) 2022.04.16
Data Mining의 분류  (0) 2022.04.16

댓글