Day 23. 군집탐색 & 추천시스템(기초)

Notice

Recent Posts

Tags more

Archives

관리 메뉴

hojeomi blog

AI/Course

호저미 2021. 2. 25. 12:54

1. 군집(Community)의 정의

2. 군집 구조의 통계적 유의성과 군집성

성공적인 군집 탐색을 정의하기 위해 - 비교대상: 배치 모형
- 배치모형: 각 정점의 연결성(degree)을 보존한 상태에서, 간선들을 무작위로 재배치하여 얻은 그래프
군집성(Modularity)
- 그래프와 군집들의 집합 S가 주어졌을 때, 각 군집 s가 군집 집합 S의 성질을 잘 만족하는지를 살펴보기 위해, 군집 내부의 간선의 수를 그래프와 배치 모형에서 비교함
- (그래프에서 군집 s 내부 간선의 수 - 배치 모형에서 군집 s 내부 간선의 수의 기댓값)을 정규화 한 값 → 군집성은 항상 -1과 +1 사이의 값을 갖음. 보통 군집성이 0.3~0.7 정도의 값을 가질 때, 그래프에 존재하는 통계적으로 유의미한 군집들을 찾아냈다고 할 수 있음
대표적은 군집 탐색 알고리즘은 Girvan-Newman 알고리즘, Louvain 알고리즘

3. Girvan-Newman 알고리즘

4. Louvain 알고리즘

5. 중첩이 있는 군집 탐색

각 정점은 여러 개의 군집에 속할 수 있음
각 군집 A에 대하여 같은 군집에 속하는 두 정점은 P_A 확률로 간선으로 직접 연결됨
두 정점이 여러 군집에 동시에 속할 경우 간선 연결 확률은 독립적. 예를 들어 두 정점이 군집 A와 B에 동시에 속할 경우 두 정점이 간선으로 직접 연결될 확률은 1 - (1 - P_A)(1 - P_B)
어느 군집에도 함께 속하지 않는 두 정점은 낮은 확률 e로 직접 연결됨
중첩 군집 모형이 주어지면, 주어진 그래프의 확률을 계산할 수 있음
- 그래프의 확률: 그래프가 ~하게 그려질 확률
- 그래프의 확률 = (그래프의 각 간선의 두 정점이 모형에 의해 직접 연결될 확률) * (그래프에서 직접 연결되지 않은 각 정점 쌍이 모형에 의해 직접 연결되지 않을 확률)
- 중첩 군집 모형은 하나가 아니라 다양하게 제시될 수 있으므로 각 모형마다 간선이 존재할 확률이 달라지기 때문에 → '모형에 의해'
중첩 군집 탐색은 주어진 그래프의 확률을 최대화하는 중첩 군집 모형을 찾는 과정
- 최우도 추정치(Maximum Likelihood Estimate)를 찾는 과정

6. 완화된 중첩 군집 모형

7. 추천 시스템

내용 기반 추천시스템(Content-based)
- 각 사용자가 구매/만족했던 상품과 유사한 것 추천
협업 필터링 추천시스템
- 유사한 취향의 사용자들이 선호한 상품 추천
- 취향의 유사성은 상관계수(Correlation Coefficient)를 통해 측정함
- 구체적으로 취향의 유사도를 가중치로 사용한 평점의 가중 평균을 통해 평점을 추정함

8. 추천 시스템의 평가

Day 27. 서비스 향 AI 모델 개발 & AI 시대의 커리어 빌딩 (0)	2021.03.02
Day 24. 정점 표현 & 추천시스템(심화) (0)	2021.02.25
Day 22. 페이지랭크 & 전파모델 (0)	2021.02.23
Day 21. 그래프 이론 기초 & 패턴 (0)	2021.02.22
Day 19-1. 어텐션(attention), seq2seq with attention (0)	2021.02.19

'AI/Course' Related Articles

Comments