gensim lda 예제

주제 모델링은 많은 양의 텍스트에서 숨겨진 주제를 추출하는 기술입니다. 잠복 Dirichlet 할당 (LDA)는 파이썬의 Gensim 패키지에서 우수한 구현과 주제 모델링을위한 인기있는 알고리즘입니다. 그러나 문제는 명확하고 분리되고 의미 있는 주제의 좋은 품질을 추출하는 방법입니다. 이는 텍스트 전처리의 품질과 최적의 주제 수를 찾는 전략에 크게 좌우됩니다. 이 자습서는 이러한 두 가지 문제를 모두 해결하려고 시도합니다. 나는 말렛의 구현과 함께 젠심 패키지에서 잠복 디리클 할당 (LDA)를 사용합니다 (겐심을 통해). 말렛은 LDA의 효율적인 구현을 가지고 있습니다. 더 빠르게 실행되는 것으로 알려져 있으며 더 나은 주제 분리를 제공합니다. 또한 스파스 출력 벡터를 저장하려면 약 35GB의 여유 디스크 공간이 필요합니다.

bzip2 (~13GB까지)와 같은 이러한 파일을 즉시 압축하는 것이 좋습니다. Gensim은 압축된 파일로 직접 작업할 수 있으므로 디스크 공간을 절약할 수 있습니다. 변환을 누적할 수 있습니다. 예를 들어 TFIDF 모델을 학습한 다음 TFIDF 위에 잠재 의미 분석 학습을 수행합니다. 우리는 주제 모델링이 무엇을 할 수 있는지 이해하는 것으로 시작했습니다. 젠심의 LDA를 사용하여 기본 토픽 모델을 구축하고 pyLDAvis를 사용하여 주제를 시각화했습니다. 그런 다음 망치의 LDA 구현을 구축했습니다. 일관성 점수를 사용하여 최적의 주제 수를 찾는 방법과 최적의 모델을 선택하는 방법에 대한 논리적 이해를 실현하는 방법을 알아보았습니다.

Gensim은 문서의 각 단어에 대해 고유 ID를 만듭니다. 위에 표시된 생성된 코퍼스는 (word_id, word_frequency)의 매핑입니다. 예를 들어, 궁극적인 목표는 의미상 유사한 문서를 검색하는 것입니다 때, 우리는 수동으로 유사한 문서의 집합에 태그를 지정한 다음 주어진 의미 체계 모델이 유사한 문서를 함께 매핑얼마나 잘 볼 수 있습니다. 일부 변환을 사용하려면 초기화(=학습)해야 합니다. 예를 들어, 단어 모음 WikiCorpus를 학습 데이터로 사용하여 LDA 변환 모델을 학습해 보겠습니다.

Det här inlägget postades i Okategoriserade. Bokmärk permalänken.