Simulieren von Information Retrieval Testsammlungen

Simulieren von Information Retrieval Testsammlungen (David Hawking)

Originaltitel:

Simulating Information Retrieval Test Collections

Inhalt des Buches:

Simulierte Testsammlungen können in Situationen zum Einsatz kommen, in denen der Zugang zu realen Datensätzen aufgrund von Vertraulichkeitsbedenken oder praktischen Unannehmlichkeiten nicht einfach möglich ist. Sie können die Erprobung von Information Retrieval (IR), die Abstimmung, die Validierung, die Leistungsvorhersage und die Hardware-Dimensionierung unterstützen. Die Genauigkeit und Nützlichkeit der aus einer Simulation gewonnenen Ergebnisse hängen natürlich von der Genauigkeit und Allgemeinheit der zugrunde liegenden Modelle ab. Die Genauigkeit der Emulation eines realen Korpus wird wahrscheinlich durch die Anforderung begrenzt, dass vertrauliche Informationen im realen Korpus nicht aus der emulierten Version extrahiert werden können. Wir stellen eine Reihe von Methoden vor, die den Kompromiss zwischen Emulationstreue und Grad der Wahrung der Privatsphäre untersuchen.

Wir stellen drei verschiedene einfache Arten von Textgeneratoren vor, die auf einer Mikroebene arbeiten: Markov-Modelle, neuronale Netzmodelle und Substitutions-Chiffren. Wir beschreiben auch Methoden auf Makroebene, mit denen wir Makroeigenschaften eines Korpus konstruieren können, und stellen eine Reihe von Modellen für jede der wichtigsten Eigenschaften vor: Dokumentenlängenverteilung, Worthäufigkeitsverteilung (für unabhängige und nicht unabhängige Fälle), Wortlänge und Textdarstellung sowie Korpuswachstum.

Wir präsentieren Ergebnisse zur Emulation bestehender Korpora und zur Skalierung von Korpora um zwei Größenordnungen. Wir zeigen, dass simulierte Sammlungen, die mit relativ einfachen Methoden erzeugt wurden, für einige Zwecke geeignet sind und sehr schnell erzeugt werden können. In der Tat kann es manchmal machbar sein, einen einfachen, leichtgewichtigen Korpusgenerator in einen Indexer zum Zweck von Effizienzstudien einzubetten.

Natürlich kann ein Korpus aus künstlichem Text keine IR-Experimente unterstützen, wenn keine kompatiblen Abfragen vorliegen. Wir diskutieren und experimentieren mit veröffentlichten Methoden zur Abfragegenerierung und zur Emulation von Abfrageprotokollen.

Wir präsentieren eine Proof-of-the-Pudding-Studie, in der wir die Vorhersagegenauigkeit von Effizienz- und Effektivitätsergebnissen beobachten, die auf emulierten Versionen von TREC-Korpora erzielt wurden. Die Studie umfasst drei Open-Source-Retrievalsysteme und mehrere TREC-Datensätze. Es besteht ein Kompromiss zwischen Vertraulichkeit und Vorhersagegenauigkeit, und es gibt interessante Wechselwirkungen zwischen Retrievalsystemen und Datensätzen. Unsere vorläufige Schlussfolgerung ist, dass es Emulationsmethoden gibt, die eine nützliche Vorhersagegenauigkeit erreichen und gleichzeitig ein für viele Anwendungen angemessenes Maß an Vertraulichkeit bieten.

Viele der hier beschriebenen Methoden wurden in dem Open-Source-Projekt SynthaCorpus implementiert, das unter folgender Adresse zu finden ist: https: //bitbucket.org/davidhawking/synthacorpus/.

Weitere Daten des Buches:

ISBN:9783031011955
Autor:
Verlag:
Sprache:Englisch
Einband:Taschenbuch
Erscheinungsjahr:2020
Seitenzahl:162

Kauf:

Derzeit verfügbar, auf Lager.

Ich kaufe es!

Weitere Bücher des Autors:

Simulieren von Information Retrieval Testsammlungen - Simulating Information Retrieval Test...
Simulierte Testsammlungen können in Situationen...
Simulieren von Information Retrieval Testsammlungen - Simulating Information Retrieval Test Collections

Die Werke des Autors wurden von folgenden Verlagen veröffentlicht: