Computer Science/Data Science 86 [Social Network] Social Network Generation Social Network Generation Social network 그래프를 생성하는 모델은 크게 2가지가 존재한다. Random graph (erdos-renyi model) 랜덤한 방식으로 그래프를 생성한다. node들이 미리 주어져있고 random selection으로 edge가 생성된다고 가정한다. 그러나 현실의 social network와는 다른 모습을 보인다. scale-free network power law distribution의 형태로 그래프를 생성한다. 평균과 표준편차의 의미가 별로 없게 되는 형태이다. social network의 모습도 scal-free network의 형태를 따른다. 왜 Social Network는 Random Graph가 아닌가? World wide web.. 2022. 6. 13. [Social Network] Social Network Analysis Social Network Analysis Social Network Social network는 heterogeneous하고 multi-relational 한 data가 그래프나 네트워크로 표현된 형태이다. 즉, object의 종류나 link(relation)의 종류가 다양할 수 있음을 의미한다. Link는 object간 relationship이나 interaction을 표현한다. Nodes = objects 다양한 종류의 object가 존재한다. object는 attribute를 가진다. object는 label이나 class를 가질 수 있다. Edges = links 다양한 종류의 link가 존재한다. link는 attribute를 가질 수 있다. link는 방향이 존재할 수 있다. (directe.. 2022. 6. 13. Social Network Social Network Social Network 사회는 각 사람들을 node로, 사회적 관계를 link로 표현하여 그래프로 나타낼 수 있다. 용어 Connected components : 서로 연결되어 도달 가능한 nodes와 그들 사이의 link들의 집합 Giant component : connected component 중 가장 큰 component Network diameter : 하나의 connected component 내에서 두 node의 shortest path 중 가장 긴 것 Cluster : 밀집 되어있는 link들의 집합 Degree : node가 가지는 edge의 수 (친구 수) Social Network의 Quantity에 대한 이슈 Connected components : 얼.. 2022. 6. 13. [Data Discretization] Binning Binning Equal-width partitioning = equal-distance partitioning 데이터를 동일한 간격으로 나눈다. 문제점 outlier에 의해 영향을 많이 받는다. → outlier는 extreme value이기 때문에 정상 데이터들이 한쪽으로 몰리게 된다. skewed data를 다룰 수 없다. → 한쪽으로 몰려있는 데이터들은 다 동일한 카테고리로 묶인다. Equal-depth partitioning = equal-frequency partitioning 각 구간에 속하는 데이터들의 개수가 동일해지도록 나눈다. equal-width보다 더 좋은 data scaling 방법이다. Binning for Data Smoothing Binning을 했을 때 같은 카테고리(bin.. 2022. 6. 13. [Data Transformation] Normalization Normalization min-max normalization z-score normalization normalization by decimal scaling Min-max Normalization boundary를 정해서 그 범위 안으로 떨어지도록 한다. new_min, new_max가 새로운 범위가 된다. 때문에 outlier가 있을 경우 데이터가 skewed하게 될 수 있다. Z-score Normalization 데이터의 distribution을 고려하여 범위를 바꾼다. boundary가 존재하지 않아서 outlier는 extreme value를 가질 수 있다. * $\mu$ : mean * $\sigma$ : standard deviation : $\sigma ^2 = E((X-\bar{X.. 2022. 6. 13. 이전 1 2 3 4 5 ··· 18 다음