Data Mining에 관한 주요 이슈들
Data Mining에 대한 방법론
Data mining은 다양한 유형의 정보로부터 다양한 knowledge를 찾는다.
이 때 아래 이슈들을 고려해야 한다.
- Performance
- efficiency, effectiveness, scalability
- 잘 찾아도 속도가 너무 느리면 안됨
- Pattern evaluation
- interestingness problem
- 의미있는 패턴들을 골라내야 한다.
- Incorporation of background knowledge
- domain expert가 가지고 있는 지식과 합쳐서 더 고차원의 knowledge를 추출해야 한다.
- Handling noise and incomplete data
- dirty data를 잘 정체해야 한다.
- Paraller, distribute and incremental minig method
- 일관적인 결과를 보여야 한다.
- 이전에 mining을 잘 했으면 후에 데이터를 추가해서 mining 한 것과 크게 차이가 없어야 한다.
- Knowledge fusion
- integration of the discovered knowledge with existing one
- 이미 존재하는 knoledge와 새로 나타난 knowledge를 융합하는 것도 중요하다.
User Interaction
- Data mining query language, ad-hoc mining
- 사용자가 편하게 이용할 수 있도록 한다.
- experssion and visualization of data mining result
- 사용자가 직관적으로 이해할 수 있도록 표현하거나 시각화
- interactive mining of knowledge at multiple levels of abstraction
- mining 된 knowledge를 여러 레벨의 concept으로 추상화
Application and Social Impacts
- domain-specific data mining
- 응용에 맞게 기술을 변형
- protection of data security, integrity, privacy
- 사회적으로 중요한 문제로 인식되기 때문에 주의해야 한다.
- security : 데이터를 모두 내놔야 mining이 가능하기 때문에 주의해야 한다.
- integrity : 무결성
'Computer Science > Data Science' 카테고리의 다른 글
Frequent Pattern Mining (0) | 2022.04.16 |
---|---|
Frequent Pattern, Association Rules (0) | 2022.04.16 |
KDD(Knowledge Discovery in Database) (0) | 2022.04.16 |
Data Mining의 분류 (0) | 2022.04.16 |
Data Mining이란? (0) | 2022.04.16 |
댓글