[Data Processing] Data Cleaning
Data Cleaning 실세계의 데이터들을 dirty 하다. incomplete missing data 등 데이터가 불완전하다. 원인 : 사람/컴퓨터의 실수, attribute에 관심이 떨어져서 정보를 유지하지 않음, 통계적인 정보만 존재하고 구체적인 개별 정보는 없는 경우 noisy : error, outliers, noise 데이터 등 inconsistent 일관되지 않은 정보가 존재한다. rating이나 단위의 차이, 분산되어 저장되는 동일 데이터 등 예 age = 42, birthday = 03/07/2010 rating = "1, 2, 3" vs "A, B, C" intentional missing data와 유사 의도적으로 잘못된 데이터를 넣는 경우 예 : 생년월일을 모를 경우 "1900.0..
2022. 6. 12.