
Statistical and Semantic Similarity between English Sentences
Dieses Buch stellt verschiedene Algorithmen zur Berechnung semantischer Ähnlichkeiten zwischen englischen Texten vor.
Ich habe drei verschiedene Algorithmen zur Berechnung der Ähnlichkeit englischer Sätze untersucht. Der erste Algorithmus, der in der Literatur gut erforscht ist (Salton und Buckley, 1988, Wu und Salton, 1981), gewichtet die Wörter in jedem Satz nach der Termfrequenz und der inversen Dokumentenfrequenz (tf-idf ) und verwendet keine semantischen Informationen.
Der zweite Algorithmus verwendet Maße für die semantische Distanz zwischen Wörtern, die zur gleichen Wortart gehören. Der dritte Algorithmus kombiniert die tf-idf-Werte und die Werte für die semantische Distanz zwischen den Wörtern. Ich habe die Leistung des zweiten und dritten Algorithmus anhand von zwei Datensätzen bewertet: O'Sheas Satzpaare mit menschlichen Ähnlichkeitsurteilen (Li et al., Aug, Rubenstein und Goodenough, 1965) und Microsoft Researchs Satzparaphrasendatensatz (Rus et al., 2012).
Im O'Shea-Datensatz stimmt der dritte Algorithmus besser mit den menschlichen Einschätzungen überein als der zweite. Im Microsoft-Datensatz gab es keinen signifikanten Unterschied zwischen den beiden Algorithmen.