본문 바로가기

Computer Science/Data Science 86

[Data Visualization] Scatter Plot Scatter Plot 두 value의 pair는 평면에서의 점으로 표현됨으로써 두 attribute의 관계가 점으로 표현된다. 하나의 데이터에서 두 attribute 간의 관계를 보여준다. Clustering을 어떻게 나눌지를 시각적으로 확인할 수도 있다. Positvely/Negatively Correlated Data 두 attribute 간의 관계를 확인할 수 있다. 하나의 데이터가 증가함에 따라 나머지 데이터도 증가하는 우상향 개형을 보일 때 두 attribute의 관계를 positively correlated라 한다. 반대로 하나의 데이터가 증가할 때 나머지 데이터는 감소하는 우하향 개형을 보일 때 negatively correlated라 한다. 일정한 관계를 가지지 않는 데이터들을 uncor.. 2022. 6. 3.
[Data Visualization] Quantile-Quantile Plot (Q-Q Plot) Quantile-Quantile Plot (Q-Q Plot) 두 개의 데이터의 하나의 attribute에 대한 분포를 보인다. 한 데이터의 attribute 분포를 다른 데이터의 attribute와 비교해서 보여준다. 기울기가 1인 직선을 긋고 point가 직선보다 위에 존재하면 → data2의 분포가 data1의 분포보다 크게 나타남을 의미한다. point가 직선보다 아래 존재하면 → data1의 분포가 data1의 분포보다 작게 나타남을 의미한다. 아래 그래프에서 branch1의 unit price가 branch2보다 낮음을 알 수 있다. 2022. 6. 3.
[Data Visualization] Quantile Plot Quantile Plot 하나의 데이터에 하나의 attribute의 분포를 나타낸다. Unusual occurence가 두드러지게 보인다. X축은 데이터의 percentage를, y축은 해당 percentage의 최댓값을 나타낸다. 즉, 오름차순으로 정렬된 데이터의 100*$f_i$%는 $y(f_i)$보다 작거나 같음을 의미한다. Quantile plot 그래프는 떨어지지 않고 일정하거나 증가하는 추세만을 보인다. 정렬된 데이터에 대해 나타낸 것이기 때문이다. 2022. 6. 3.
[Data Visualization] Histogram Histogram 각 value에 대한 frequency(빈도수)를 바(bar)의 형태로 나타낸 그래프이다. 어떤 value가 몇 번 발생했는지(frequency)를 나타낸 것이다. 데이터의 distribution을 한눈에 확인할 수 있다. Value들을 카테고리로 묶어서 나타낼 수 있다. 이 때 카테고리는 아래와 같은 조건을 만족해야 한다. 카테고리는 disjoint하다. : 하나의 value가 여러 카테고리에 속하면 안된다. 카테고리의 끝 부분은 붙어있어야 한다. : 비어있는 범위가 발생하여 어떤 카테고리에도 속하지 않은 value가 발생하면 안된다. Histogram v.s. Bar Chart Histogram bar의 넓이가 value를 나타낸다. 카테고리가 균등하게 나뉘지 않아도 된다. Bar .. 2022. 6. 3.
[Data Visualization] Boxplot Boxplot Five values를 그림으로 나타냄으로써 시각적으로 데이터의 분포를 그릴 수 있다. Min/max의 범위를 벗어나서 위치하는 점들을 outlier라 한다. 주로 whisker의 길이는 1.5 * IQR이다. 2022. 6. 3.