Please enable JavaScript.
Coggle requires JavaScript to display documents.
LucyTopic - Coggle Diagram
LucyTopic
논문
전통적인 Topic Modeling의 한계
LDA
토픽 갯수를 직접 정해줘야 함
InterTopic Distance Map에서 가로축, 세로축이 나타내는 정보와 위치 설명이 부족함
bag-of-words 방식으로 단어 간의 의미적 관계 반영 x
토픽 모델링 자체로 인사이트를 전달하기 부족함
Top N Term만으로는 완성된 의미를 전달할 수 없어 후가공이 많이 필요함
영문 LDA 샘플
향상된 토픽 모델링 에 대한 필요성
표현 개선
TF-IDF 기반의 토픽 표현의 한계
요약 방법 제안
abstractive summarization
성능 개선
단계별 성능 개선
embedding 개선 방법 제안
longformer
토픽 모델링 성능 평가 모델
HyperParameter Tuning 기능 추가
Setup
NVIDIA A100 80GB PCIe
Intel(R) Xeon(R) Silver 4310 CPU @ 2.10GHz
Datasets
20 NewsGroups
Trump’s tweets.
Models
LDA
Top2Vec
Enhanced Topic Modling (our model)
토픽모델링 평가
정량적 평가
Coherence Score
Diversity Score
결론 :green_cross:
정성적 평가
관찰 기반 접근 방식
topN 단어에 대한 wordcloud
clustering 결과 관찰
기능 개선과도 연관있음
토픽모델링 HyperParameter 최적화
Grid Search
주요 하이퍼파라미터 선정
UMAP
n_neighbors
HDBSCAN
min_cluster_size
min_samples
단계별 기법 적용
전처리
Cleaning
Deduplication
임베딩
Sentence-Transformers
Longformer
차원 축소
UMAP
클러스터링
HDBSCAN
토픽 표현
Summarization
Single Document
Extractive Summarization
Abstractive Summarization
Single Document Selection for Summarization
요약 모델을 위한 문서 선정 알고리즘
Probabilities
Google Search Rank
Multi Document
검증
설문조사 결과
human evaluation
결론
참고 연구
longformer
Topic Modeling Evaluation(OCTIS, Gensim)
Extractive Summarization:Bertsum
Abstractive Summarization:Bart
BERTopic: Neural topic modeling with a class-based TF-IDF procedure
Top2Vec
특허
배경 기술
텍스트 마이닝
통계기반 토픽모델링
LDA
배경 기술의 한계 : 전통적인 Topic Modeling의 한계
LDA
과정의 한계
토픽 갯수를 직접 정해줘야 함
토픽 모델링 시 사용자가 적절한 토픽 갯수를 정해야 하는 문제점
성능적 한계
bag-of-words 방식으로 단어 간의 의미적 관계 반영 x
활용적 한계
InterTopic Distance Map에서 가로축, 세로축이 나타내는 정보와 위치 설명이 부족함
LDA 자체로 인사이트를 전달하기 부족함
Top N Term만으로는 완성된 의미를 전달할 수 없어 후가공이 많이 필요함
여성정책연구원 lda 진행 샘플
구성
단계별 기법 적용
전처리
Cleaning
Deduplication
임베딩
Sentence-Transformers
longformer 변환
차원 축소
UMAP
클러스터링
HDBSCAN
토픽 표현
Summarization
Single Document
Abstractive Summarization
Single Document Selection for Summarization
요약 모델을 위한 문서 선정 알고리즘
영향력 지수
유의미한 문서 추출
1 more item...
Time Series
효과
한국어 임베딩 모델과 longformer 변환을 통해 정보 손실문제를 개선하여 토픽모델링의 정확도를 향상시킴
문서의 주제를 자동으로 분류
요약문을 통해 사용자에게 비즈니스 인사이트를 완결된 표현으로 제공
비용절감