
Augmenting Latent Dirichlet Allocation and Rank Threshold Detection with Ontologies
In einer immer datenintensiveren Umgebung müssen verwertbare Informationen aus riesigen Mengen unterschiedlicher, oft freier Textquellen extrahiert, gefiltert und korreliert werden. Der Nutzen der abgerufenen Informationen hängt davon ab, wie wir diese Schritte durchführen und dem Analysten die relevantesten Informationen präsentieren.
Eine Methode zur Extraktion von Informationen aus freiem Text ist die Latent-Dirichlet-Allokation (LDA), eine Dokumentenkategorisierungstechnik zur Klassifizierung von Dokumenten in zusammenhängende Themen. Obwohl LDA einige implizite Beziehungen wie Synonymie (gleiche Bedeutung) berücksichtigt, werden andere semantische Beziehungen wie Polysemie (unterschiedliche Bedeutungen), Hyponym (untergeordnet), Meronym (Teil von) und Troponomy (Art und Weise) oft ignoriert.
Um dieses Manko auszugleichen, beziehen wir explizite Wort-Ontologien wie WordNet in den LDA-Algorithmus ein, um verschiedene semantische Beziehungen zu berücksichtigen. Experimente mit den 20 Newsgroups-, NIPS-, OHSUMED- und IED-Dokumentensammlungen zeigen, dass die Einbeziehung solchen Wissens die Perplexitätsmessung bei gegebenen Parametern gegenüber LDA allein verbessert.