본문 바로가기

Computer Science 254

Proximity : Similarity, Dissimilarity Proximity 두 개의 object가 얼마나 많이 닮았는가를 나타내는 지표를 proximity라 한다. Proximity로써 similarity/dissimilarity을 사용하고 문제마다 정의가 다르다. Similarity, Dissimilarity, Proximity Similarity 값이 높을 수록 많이 닮은 것이고 반대로 dissimilarity가 높을 수록 닮지 않은 것이다. 즉, Similarity가 높을 수록 dissimilarity가 낮아진다. Similarity와 dissimilarity는 반대를 바라보지만 의미하는 것은 동일하다. Similarity 높을수록 많이 닮음을 의미 (how much alike) 주로 0~1의 값을 가진다. Dissimilarity 높을 수록 많이 닮지 .. 2022. 6. 3.
[Data Visualization] Scatter Plot Scatter Plot 두 value의 pair는 평면에서의 점으로 표현됨으로써 두 attribute의 관계가 점으로 표현된다. 하나의 데이터에서 두 attribute 간의 관계를 보여준다. Clustering을 어떻게 나눌지를 시각적으로 확인할 수도 있다. Positvely/Negatively Correlated Data 두 attribute 간의 관계를 확인할 수 있다. 하나의 데이터가 증가함에 따라 나머지 데이터도 증가하는 우상향 개형을 보일 때 두 attribute의 관계를 positively correlated라 한다. 반대로 하나의 데이터가 증가할 때 나머지 데이터는 감소하는 우하향 개형을 보일 때 negatively correlated라 한다. 일정한 관계를 가지지 않는 데이터들을 uncor.. 2022. 6. 3.
[Data Visualization] Quantile-Quantile Plot (Q-Q Plot) Quantile-Quantile Plot (Q-Q Plot) 두 개의 데이터의 하나의 attribute에 대한 분포를 보인다. 한 데이터의 attribute 분포를 다른 데이터의 attribute와 비교해서 보여준다. 기울기가 1인 직선을 긋고 point가 직선보다 위에 존재하면 → data2의 분포가 data1의 분포보다 크게 나타남을 의미한다. point가 직선보다 아래 존재하면 → data1의 분포가 data1의 분포보다 작게 나타남을 의미한다. 아래 그래프에서 branch1의 unit price가 branch2보다 낮음을 알 수 있다. 2022. 6. 3.
[Data Visualization] Quantile Plot Quantile Plot 하나의 데이터에 하나의 attribute의 분포를 나타낸다. Unusual occurence가 두드러지게 보인다. X축은 데이터의 percentage를, y축은 해당 percentage의 최댓값을 나타낸다. 즉, 오름차순으로 정렬된 데이터의 100*$f_i$%는 $y(f_i)$보다 작거나 같음을 의미한다. Quantile plot 그래프는 떨어지지 않고 일정하거나 증가하는 추세만을 보인다. 정렬된 데이터에 대해 나타낸 것이기 때문이다. 2022. 6. 3.
[Data Visualization] Histogram Histogram 각 value에 대한 frequency(빈도수)를 바(bar)의 형태로 나타낸 그래프이다. 어떤 value가 몇 번 발생했는지(frequency)를 나타낸 것이다. 데이터의 distribution을 한눈에 확인할 수 있다. Value들을 카테고리로 묶어서 나타낼 수 있다. 이 때 카테고리는 아래와 같은 조건을 만족해야 한다. 카테고리는 disjoint하다. : 하나의 value가 여러 카테고리에 속하면 안된다. 카테고리의 끝 부분은 붙어있어야 한다. : 비어있는 범위가 발생하여 어떤 카테고리에도 속하지 않은 value가 발생하면 안된다. Histogram v.s. Bar Chart Histogram bar의 넓이가 value를 나타낸다. 카테고리가 균등하게 나뉘지 않아도 된다. Bar .. 2022. 6. 3.