2015년 8월 13일 목요일

phrase, sentence, document representation

Distributional Representations of Sentences and Documents (2014, Le and Mikolov)
- 단어 단위를 넘어 paragraph를 vector로 embedding
- 꼭 완성된 문장이 아니라도 추상화 가능하다는 것을 장점으로 내세움
- unsupervised
- Paragraph Vector with Distributed Memory (PV-DM)

- Paragraph Vector with Distributed Bag of Words (PV-DBOW)

- 실험방법: 영화 평가 문장 주어짐 -> word embedding ->phrase (sentence) vector 추출 (with gradient descent) -> logistic regression의 입력으로 이용, 영화 평점 예측
- PV-DM 방법이 거의 성능에 영향, PV-DBOW는 보조적 역할
- PV-DM에서 입력 vector의 합계보다는 concatenation 이용이 더 좋은 성능

From Word Embeddings To Document Distances (2015, Kusner, ICML)
- word embedding 결과가 주어진다는 가정 하에, 문서간 거리 측정 방법론 제시
- 논문에서 정의한 word mover's distance에 기반: 두 단어 vector간 거리를 distance로 이용
- 거리 계산 복잡도를 낮출 수 있는 방법론도 같이 제시
- 문서를 직접 추상화하지는 않고 문서간 거리를 근거로 클러스터링 등 수행




댓글 없음:

댓글 쓰기