Projektpartner
Grundlegende Problemstellung und Zielsetzung
Allgemein:
Self-adjusting memory mit kNN clustering (SAM-kNN) ermöglicht das Lernnen eines Modells, das sich ohne adaptieren von Modellparametern der Komplexität des Lernproblems anpasst und mit Konzeptänderungen (concept drift) umgehen kann.
Problem:
SAM passt sich zwar möglichen Konzeptänderungen an, es ist aber oft schwierig einzusehen welche Änderungen stattfanden oder sie für Menschen verständlich auszudrücken.
Ziel:
Ziel ist es, eine Erweiterung von SAM-kNN mit metric learning zu entwickeln, die auch Konzeptänderungen insbesondere im Featureraum erklären kann.
Keywords / Stichworte: Lernen auf Datenströmen; Interpretierbarkeit von Modellen
Technisches System
Die ML-Lösung wurde auf Grundlage von vorhandenen Driftdatensätzen, teilweise aus realen Anwendungen und küstlichen, sowie selbst erzeugten künstlichen Datensätzen entwickelt.
Lösungsansatz
ML-Methode:
Überwachte Klassifikation auf Datenströmen mit SAM-kNN. Metric learning im Datenraum mit der large margin nearest neighbor (lmnn) Methodik.
Nach welchen allgemeinen inhaltlichen Kriterien wird gelernt?
Auf die Daten im Kurzzeitgedächtnis des SAM Algorithmus wird in regelmäßigen Abständen lmnn angewandt. D.h. wir versuchen eine Transformation des Datenraums zu finden, der die Daten optimal für clustering via kNN anordnet. Diese neue Anordnung ergibt nicht nur bessere Klassifikationsergebnisse in vielen Fällen, sondern auch ein Maß der Relevanz für jedes Feature. Durch die Änderung der Relevanz der Feature über einen längeren Zeitraum lässt sich Featuredrift einfach verständlich darstellen.
Beispielimplementation
Hier geht es direkt zur Beispielimplementation dieser Lösung.
Ansprechpartner
Johannes Kummert
Email
AG Machine Learning
Universität Bielefeld