Hogyan kell alkalmazni a téma modellezés?

szavazat
0

Van 10000 tweetek 5 téma. Tegyük fel, hogy tudom, hogy a földön igazság (a tényleges témája egyes csipog), és én csoport tweet be 5 dokumentum, ahol minden dokumentum tartalmazza tweets egy adott témában. Aztán alkalmazni LDA be az 5 dokumentumok számú témát pedig 5. Ebben az esetben kapok jó téma szó.

Nos, ha én nem tudom az igazságot földre tweets, hogyan lehet belőle input dokumentumok oly módon, hogy LDA továbbra is ad nekem jó téma leíró szavak 5 téma.

Mi történik, ha létre input dokumentumok véletlenszerűen kiválasztott mintán tweets? Mi van, ha ez véget ér fel hasonló témában keverékek input dokumentumok? Amennyiben LDA mindig találni jó téma szavakat abban az esetben, 1. bekezdés?

A kérdést 04/04/2015 04:49
a forrás felhasználó
Más nyelveken...                            


1 válasz

szavazat
2

Ha jól értem, akkor a probléma a témakör modellezés rövid szövegek (tweet). Az egyik megközelítés az, hogy összekapcsolják Tweets a hosszú pszeudo-dokumentumok edzés előtt LDA. Másik oka azt feltételezni, hogy csak egy téma egy dokumentum / Tweet.

Abban az esetben, ha nem tudja a földön igazság címkék Tweets, akkor érdemes kipróbálni az egy téma-per-dokumentum téma modell (azaz keverék-of-unigrams). A modell további részletek vannak leírva:

Jianhua Yin és Jianyong Wang. 2014 Dirichlet Multinomiális Keverék modell alapú megközelítés rövid szöveges Klaszterek. A Proceedings of the ACM 20. SIGKDD International Conference on Knowledge Discovery és adatbányászat, pages 233-242.

Megtalálható az én Java implementáció ezt a modellt, és LDA meg http://jldadmm.sourceforge.net/ Feltételezzük, hogy tudja, ground truth címkéket, akkor is használni a végrehajtás összehasonlítani ezeket a témában modellek dokumentum csoportosítási feladat.

Ha azt szeretné, hogy értékelje a témában koherencia (azaz értékelik, hogy milyen jó téma szó), azt javaslom, hogy vessen egy pillantást a Palmetto eszközkészlet ( https://github.com/AKSW/Palmetto ), amely végrehajtja a téma koherencia számításokat.

Válaszolt 10/07/2015 15:24
a forrás felhasználó

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more