
Validity, Reliability, and Significance: Empirical Methods for Nlp and Data Science
(Empirische Methoden sind Mittel zur Beantwortung methodischer Fragen der empirischen Wissenschaften mit Hilfe statistischer Verfahren). Zu den in diesem Buch behandelten methodischen Fragen gehören die Probleme der Gültigkeit, Zuverlässigkeit und Signifikanz. Im Falle des maschinellen Lernens entspricht dies den Fragen, ob ein Modell das vorhersagt, was es vorgibt, ob die Leistung eines Modells über Replikationen hinweg konsistent ist und ob ein Leistungsunterschied zwischen zwei Modellen auf Zufall zurückzuführen ist. Das Ziel dieses Buches ist es, diese Fragen durch konkrete statistische Tests zu beantworten, die zur Bewertung der Gültigkeit, Zuverlässigkeit und Signifikanz von Datenannotationen und Vorhersagen des maschinellen Lernens in den Bereichen NLP und Datenwissenschaft angewendet werden können.
Unser Schwerpunkt liegt auf modellbasierten empirischen Methoden, bei denen Datenannotationen und Modellvorhersagen als Trainingsdaten für interpretierbare probabilistische Modelle aus den bekannten Familien der generalisierten additiven Modelle (GAMs) und der linearen Modelle mit gemischten Effekten (LMEMs) behandelt werden. Auf der Grundlage der interpretierbaren Parameter der trainierten GAMs oder LMEMs stellt das Buch modellbasierte statistische Tests vor, wie z. B. einen Validitätstest, der es ermöglicht, zirkuläre Merkmale zu erkennen, die das Lernen umgehen. Darüber hinaus wird ein Reliabilitätskoeffizient erörtert, der die Varianzzerlegung auf der Grundlage von Parametern für zufällige Effekte von LMEMs verwendet. Schließlich wird gezeigt, dass ein Signifikanztest, der auf dem Likelihood-Verhältnis von verschachtelten LMEMs basiert, die auf den Leistungsergebnissen von zwei maschinellen Lernmodellen trainiert wurden, auf natürliche Weise die Einbeziehung von Variationen der Meta-Parametereinstellungen in Hypothesentests ermöglicht und darüber hinaus einen verfeinerten Systemvergleich in Abhängigkeit von den Eigenschaften der Eingabedaten erleichtert.
Dieses Buch kann als Einführung in empirische Methoden für maschinelles Lernen im Allgemeinen verwendet werden, mit einem besonderen Schwerpunkt auf Anwendungen in NLP und Data Science. Das Buch ist in sich abgeschlossen, mit einem Anhang über den mathematischen Hintergrund von GAMs und LMEMs und mit einer begleitenden Webseite, die R-Code enthält, um die im Buch vorgestellten Experimente zu replizieren.