Statistische und semantische Ähnlichkeit zwischen englischen Sätzen

Originaltitel:

Statistical and Semantic Similarity between English Sentences

Inhalt des Buches:

Dieses Buch stellt verschiedene Algorithmen zur Berechnung semantischer Ähnlichkeiten zwischen englischen Texten vor.

Ich habe drei verschiedene Algorithmen zur Berechnung der Ähnlichkeit englischer Sätze untersucht. Der erste Algorithmus, der in der Literatur gut erforscht ist (Salton und Buckley, 1988, Wu und Salton, 1981), gewichtet die Wörter in jedem Satz nach der Termfrequenz und der inversen Dokumentenfrequenz (tf-idf ) und verwendet keine semantischen Informationen.

Der zweite Algorithmus verwendet Maße für die semantische Distanz zwischen Wörtern, die zur gleichen Wortart gehören. Der dritte Algorithmus kombiniert die tf-idf-Werte und die Werte für die semantische Distanz zwischen den Wörtern. Ich habe die Leistung des zweiten und dritten Algorithmus anhand von zwei Datensätzen bewertet: O'Sheas Satzpaare mit menschlichen Ähnlichkeitsurteilen (Li et al., Aug, Rubenstein und Goodenough, 1965) und Microsoft Researchs Satzparaphrasendatensatz (Rus et al., 2012).

Im O'Shea-Datensatz stimmt der dritte Algorithmus besser mit den menschlichen Einschätzungen überein als der zweite. Im Microsoft-Datensatz gab es keinen signifikanten Unterschied zwischen den beiden Algorithmen.

Weitere Daten des Buches:

ISBN:	9783659616389
Autor:	Anis Zaman
Verlag:	Lap Lambert Academic Pub
Sprache:	Englisch
Einband:	Taschenbuch

Kauf:

Derzeit verfügbar, auf Lager.

Statistische und semantische Ähnlichkeit zwischen englischen Sätzen

Originaltitel:

Inhalt des Buches:

Weitere Daten des Buches:

Kauf:

Weitere Bücher des Autors:

Die Werke des Autors wurden von folgenden Verlagen veröffentlicht: