Attribute
= Data field, dimensions, features, variables
Data object의 특징(characteristic or feature)을 나타낸다.
종류
- nomial = categories, states, names of things
- 유한한 수의 value를 가지고 각 value 사이에 대소 관계가 없음
- 예 : 우편번호, id 등
- binary
- 0 or 1 (2개의 state만 가지는 attribute)
- symmetric binary
- 0과 1의 중요도가 동일
- 예 : 성(gender)
- asymmetric binary
- 0과 1의 중요도가 다름 → 주로 1의 중요도 > 0의 중요도
- 예 : 양성/음성
- ordinal
- value 간 순서가 존재하지만 순서 간의 크기는 정해져 있지 않음
- 예 : {small, medium, large}
- numeric = quantitative = integer = real-valued
- value 간 순서가 존재하고 크기를 비교할 수 있다.
- ratio-scaled
- 진정한 0에 대한 의미가 존재한다.
- value 간 크기를 대수적으로 표현할 수 있다.
- 예 : 무게, 길이, 절대온도(켈빈) 등
- interval-scaled
- 일정한 차이를 두고 순서를 가진다.
- 진정한 0에 대한 의미가 존재하지 않는다.
- value 간 크기를 대수적으로 표현할 수 없다.
- 예 : 섭씨/화씨, 날짜
Discrete vs. Continuous Attributes
- Dsicrete attribute
- 유한하고 셀 수 있는 value의 집합
- integer variable로 표현 가능한 경우도 있다.
- binary attribute는 discrete attribute의 special case이다.
- 예시 : 우편번호, 문서 내의 단어 수 등
- Continuous attribute
- 실수가 attribute의 값으로 표현된다.
- practical하게 유한한 자릿수의 실수로 표현한다.
- 주로 floating-point variable로 표현한다.
- 예시 : 온도, 높이, 무게 등
'Computer Science > Data Science' 카테고리의 다른 글
[Data Description] Measuring Central Tendency (0) | 2022.06.03 |
---|---|
Data Description - 데이터 이해하기 (0) | 2022.06.03 |
Data Set, Data Object, Attributes (0) | 2022.06.02 |
[Classification] Ensemble - 정확도를 높이기 위한 방법 (0) | 2022.04.18 |
Classifier Accuracy Measure (0) | 2022.04.18 |
댓글