Processing math: 100%
본문 바로가기

카테고리 338

Social Network Social Network Social Network 사회는 각 사람들을 node로, 사회적 관계를 link로 표현하여 그래프로 나타낼 수 있다. 용어 Connected components : 서로 연결되어 도달 가능한 nodes와 그들 사이의 link들의 집합 Giant component : connected component 중 가장 큰 component Network diameter : 하나의 connected component 내에서 두 node의 shortest path 중 가장 긴 것 Cluster : 밀집 되어있는 link들의 집합 Degree : node가 가지는 edge의 수 (친구 수) Social Network의 Quantity에 대한 이슈 Connected components : 얼.. 2022. 6. 13.
[Data Discretization] Binning Binning Equal-width partitioning = equal-distance partitioning 데이터를 동일한 간격으로 나눈다. 문제점 outlier에 의해 영향을 많이 받는다. → outlier는 extreme value이기 때문에 정상 데이터들이 한쪽으로 몰리게 된다. skewed data를 다룰 수 없다. → 한쪽으로 몰려있는 데이터들은 다 동일한 카테고리로 묶인다. Equal-depth partitioning = equal-frequency partitioning 각 구간에 속하는 데이터들의 개수가 동일해지도록 나눈다. equal-width보다 더 좋은 data scaling 방법이다. Binning for Data Smoothing Binning을 했을 때 같은 카테고리(bin.. 2022. 6. 13.
[Data Transformation] Normalization Normalization min-max normalization z-score normalization normalization by decimal scaling Min-max Normalization boundary를 정해서 그 범위 안으로 떨어지도록 한다. new_min, new_max가 새로운 범위가 된다. 때문에 outlier가 있을 경우 데이터가 skewed하게 될 수 있다. Z-score Normalization 데이터의 distribution을 고려하여 범위를 바꾼다. boundary가 존재하지 않아서 outlier는 extreme value를 가질 수 있다. * μ : mean * σ : standard deviation : $\sigma ^2 = E((X-\bar{X.. 2022. 6. 13.
[Data Processing] Data Transformation & Discretization Data Transformation 데이터를 변환하는 과정이다. Original value를 새로운 value로 바꾸는 작업이다. Normalization 기존의 데이터를 새로운 범위로 떨어지도록 바꾸는 작업이다. 방법 min-max normalization z-score normalization normalization by decimal scaling Discretization Concept hierarchy climbing Continuous attribute를 interval로 쪼개어 discrete하게 바꾼다. Classification 등을 위해 사용되기도 한다. 장점 데이터 크기가 줄어든다. 예 : float(4byte) → char(1byte) 비슷한 value는 같은 카테고리로 떨어지기 .. 2022. 6. 13.
[Data Reduction] Data Compression Data Compression 데이터를 작게 만들고 나중에 복구하는 것이 목표이다. 통신 등에서 주로 사용된다. Dimensionality reduction이나 numerosity reduction 또한 data compression의 일종으로 생각되기도 한다. 사람이 차이를 느끼지 못할 정도의 손실이 있더라도 데이터 크기를 많이 줄일 수 있다면 lossy compression이 선호되기도 한다. 오디오 같은 경우에서 lossy compression이 선호된다. 종류 String compression : lossless → 원래대로 완전히 복구될 수 있어야 한다. Audio/video compression : lossy Time sequence : 시간에 따라서 변하는 데이터 2022. 6. 13.