본문 바로가기
Computer Science/Data Science

Data Set, Data Object, Attributes

by Gofo 2022. 6. 2.

Data Set

Data Set & Data Object & Attributes

Data set

Dataset은 data objects들로 구성되어있다.

즉, 전체 데이터셋은 여러 data object들로 구성된다.

 

Data Object

Data object는 real-world의 entity와 대응대며 entity를 나타낸다.

Data obejct는 여러 attributes로 구성된다.

 

Data object는 tuple, sample, example, instance, data point, object 등으로 불리기도 한다.

 

Attribute

Data filed, dimensions, features, variables 등으로 불리기도 한다.

Data object의 특징(characteristic or feature)을 나타낸다.

 

Data의 특징

  • Dimensionality(차원)
    • curse of dimensionality
      • 차원이 높아질 수록 성능이 떨어지는 문제가 발생한다.
      • 차원이 높아지면 데이터가 sparse하게 분포하게되서 similarity가 높은 object와 similarity가 낮은 object의 distance가 차이나지 않게 된다.
  • Sparsity(희소성) : 일부 데이터만 드문드문 존재한다.
  • Resolution(해상도) : 데이터의 resolution(scale)에 따라 결과(pattern)가 달라질 수 있다.
  • Distribution(분포) : 중심에서 얼마나 퍼져있는가 (centrality & dispersion)

 

Dataset의 종류

  • Record
    • = relational records = data matrix
    • 예시 : transaction data, text documents(term-frequent vector : 각 단어별 빈도수를 테이블 형태로 나타낸 것)
  • Graph and network
    • node(entity) + edge(relationship)로 구성됨
    • 예시 : social/information networks, world wide web, 분자구조
  • Ordered
    • 순서가 중요한 데이터
    • temproal data : 시간 순서가 존재, time-series(주식 가격, 온도 등)
    • sequential data : 데이터 간 순서가 존재, transaction sequences(거래 간 순서가 중요한 상황)
    • video data, genetic sequence data
  • Spatial(지도 등), Image, Multimedia

 

 

'Computer Science > Data Science' 카테고리의 다른 글

Data Description - 데이터 이해하기  (0) 2022.06.03
Attributes  (0) 2022.06.03
[Classification] Ensemble - 정확도를 높이기 위한 방법  (0) 2022.04.18
Classifier Accuracy Measure  (0) 2022.04.18
[Prediction] Regression  (0) 2022.04.18

댓글