본문 바로가기

Computer Science 254

[Social Network] Social Network Mining (Link Mining) Social Network Mining = Link Mining Linked Network Link는 데이터 사이의 relationship을 의미한다. Object와 link의 종류에 따라 linked network는 크게 두 종류로 나눌 수 있다. Homogeneous network = single model social networks object의 종류가 하나이고 link의 종류가 하나이다. 예시 : WWW(world wide web) Heterogeneous network object의 종류가 여러개이고 link의 종류가 여러개이다. 예시 medical network : {patient, doctor, disease}, {contact, treatment} bibilographic network .. 2022. 6. 13.
[Social Network] Social Network Generation Social Network Generation Social network 그래프를 생성하는 모델은 크게 2가지가 존재한다. Random graph (erdos-renyi model) 랜덤한 방식으로 그래프를 생성한다. node들이 미리 주어져있고 random selection으로 edge가 생성된다고 가정한다. 그러나 현실의 social network와는 다른 모습을 보인다. scale-free network power law distribution의 형태로 그래프를 생성한다. 평균과 표준편차의 의미가 별로 없게 되는 형태이다. social network의 모습도 scal-free network의 형태를 따른다. 왜 Social Network는 Random Graph가 아닌가? World wide web.. 2022. 6. 13.
[Social Network] Social Network Analysis Social Network Analysis Social Network Social network는 heterogeneous하고 multi-relational 한 data가 그래프나 네트워크로 표현된 형태이다. 즉, object의 종류나 link(relation)의 종류가 다양할 수 있음을 의미한다. Link는 object간 relationship이나 interaction을 표현한다. Nodes = objects 다양한 종류의 object가 존재한다. object는 attribute를 가진다. object는 label이나 class를 가질 수 있다. Edges = links 다양한 종류의 link가 존재한다. link는 attribute를 가질 수 있다. link는 방향이 존재할 수 있다. (directe.. 2022. 6. 13.
Social Network Social Network Social Network 사회는 각 사람들을 node로, 사회적 관계를 link로 표현하여 그래프로 나타낼 수 있다. 용어 Connected components : 서로 연결되어 도달 가능한 nodes와 그들 사이의 link들의 집합 Giant component : connected component 중 가장 큰 component Network diameter : 하나의 connected component 내에서 두 node의 shortest path 중 가장 긴 것 Cluster : 밀집 되어있는 link들의 집합 Degree : node가 가지는 edge의 수 (친구 수) Social Network의 Quantity에 대한 이슈 Connected components : 얼.. 2022. 6. 13.
[Data Discretization] Binning Binning Equal-width partitioning = equal-distance partitioning 데이터를 동일한 간격으로 나눈다. 문제점 outlier에 의해 영향을 많이 받는다. → outlier는 extreme value이기 때문에 정상 데이터들이 한쪽으로 몰리게 된다. skewed data를 다룰 수 없다. → 한쪽으로 몰려있는 데이터들은 다 동일한 카테고리로 묶인다. Equal-depth partitioning = equal-frequency partitioning 각 구간에 속하는 데이터들의 개수가 동일해지도록 나눈다. equal-width보다 더 좋은 data scaling 방법이다. Binning for Data Smoothing Binning을 했을 때 같은 카테고리(bin.. 2022. 6. 13.