Die «Churer Schriften zur Informationswissenschaft» ist eine elektronische Publikationsreihe des Schweizerischen Instituts für Informationswissenschaft SII der HTW Chur. Die Schriftenreihe umfasst Arbeitsberichte, Forschungsberichte, Diplomarbeiten und sonstige Publikationen zu den Forschungsfeldern der Bibliothekswissenschaft, Archivwissenschaft, Informationswissenschaft und Data Science.

Counteracting Concept Drift in Natural Language Classifiers: Proposal for an Automated Method

Kirsten Scherer Auberson (2018)

Kurzfassung:

Natural Language Classifier helfen Unternehmen zunehmend dabei die Flut von Textdaten zu überwinden. Aber diese Classifier, einmal trainiert, verlieren mit der Zeit ihre Nützlichkeit. Sie bleiben statisch, aber die zugrundeliegende Domäne der Textdaten verändert sich: Ihre Genauigkeit nimmt aufgrund eines Phänomens ab, das als Konzeptdrift bekannt ist. Die Frage ist ob Konzeptdrift durch die Ausgabe eines Classifiers zuverlässig erkannt werden kann, und falls ja: ist es möglich dem durch nachtrainieren des Classifiers entgegenzuwirken. Es wird eine System-Implementierung mittels Proof-of-Concept vorgestellt, bei der das Konfidenzmass des Classifiers zur Erkennung von Konzeptdrift verwendet wird. Der Classifier wird dann iterativ neu trainiert, indem er Stichproben mit niedrigem Konfidenzmass auswählt, sie korrigiert und im Trainingsset der nächsten Iteration verwendet. Die Leistung des Classifiers wird über die Zeit gemessen, und die Leistung des Systems beobachtet. Basierend darauf werden schließlich Empfehlungen gegeben, die sich bei der Implementierung solcher Systeme als nützlich erweisen können.

Schlagwörter: Natural Language Classification, Konzeptdrift, Text Retrieval, Klassifikation, Natural Language Processing, Machine Learning

 

Abstract:

Natural Language Classifiers increasingly help Enterprises overcome the deluge of textual data coming their way. But these classifiers, once trained, lose their usefulness over time, as they remain static but the textual data’s underlying domain evolves: Their accuracy decreases in a phenomenon known as concept drift. Can this phenomenon be reliably detected in the classifier’s output? Once detected, can it be corrected through re-training, and if so, how? A proof-of-concept implementation of a system is presented, in which the classifier’s confi-dence metrics are used to detect concept drift. The classifier is then re-trained iteratively, by selecting test set samples with low confidence value, correcting them, and using them in the next iteration’s training set. The classifier’s performance is measured over time, and the system’s performance is observed. Finally, recommendations based on this implementation are made, which may prove useful in implementing such systems.

Keywords: natural language classification, concept drift, text retrieval, classification, natural language processing, machine learning

Die Churer Schriften zur Informationswissenschaft sind digital und kostenlos zugänglich und stehen für die Verwendung durch Dritte zur Verfügung: https://www.htwchur.ch/htw-chur/angewandte-zukunftstechnologien/schweizerisches-institut-fuer-informationswissenschaft-sii/publikationen/churer-schriften/