Projektpartner

Grundlegende Problemstellung und Zielsetzung

Allgemein: Durch die Digitalisierung und den Einsatz von immer mehr Sensoren existiert eine Vielzahl kontinuierlicher Datenströme, die automatisiert ausgewertet werden muss, um aus den Daten einen Mehrwert generieren zu können. Die Zeitreihenklassifikation ist für die vorausschauende Wartung ein wichtiges Instrument, um sich ankündigende Fehlerfälle von Maschinen vorherzusagen. Hierbei wird der kontinuierliche Datenstrom in einzelne Abschnitte (Fenster) unterteilt, die als zu analysierende Probe betrachtet werden.

Problem: Bisherige Ansätze zur Zeitreihenklassifikation betrachten oftmals nicht oder nur nebensächlich die Interpretierbarkeit von den Klassifikatoren. Allerdings kann die Interpretierbarkeit eines Klassifikators ein wichtiges Kriterium für den Einsatz spielen.

Ziel: Ziel des Ansatzes ist es global und inhärent interpretierbare Klassifikatoren zur Zeitreihenklassifikation zu entwerfen. Dabei bezeichnet global interpretierbar, dass das Modell ohne die Hilfe von Beispielen interpretiert werden kann. Inhärent interpretierbar meint, dass das Modell selbst wahrheitsgetreue Erklärungen liefert und das Modell nicht post-hoc mit einer weiteren Methode erklärt wird.

Keywords / Stichworte: Intelligente Zustandsüberwachung und Wartung; Lernen auf Datenströmen; Interpretierbarkeit von Modellen

Technisches System

Die ML-Lösung wurde auf Grundlage des University of California, Riverside, Time Series Archives (UCR TSA) entwickelt.

Welche Sensoren sind in der Technologie integriert?

Das UCR TSA besteht aus einer Vielzahl an Zeitreihendatensätzen aus unterschiedlichen Domänen. Einige Beispiele sind

  • Optischen Spektrometer
  • Elektrokardiografen (EKG-Geräte)
  • Beschleunigungssensoren

Welche Daten werden erhoben?

Es werden jeweils die Datenströme aufgezeichnet und falls nötig in logische Abschnitte unterteilt (z. B. In einzelne Herzschläge). Außerdem sind in dem Zeitreihenarchiv auch künstlich generierte Datensätze vorhanden.

Wie werden die Daten behandelt?

Für eine erste Evaluation des Ansatzes wird eine Teilmenge des UCR TSA verwendet, um die erforderliche Rechenleistung zu reduzieren.

Lösungsansatz

ML-Methode:
Vorverarbeitung der Zeitreihen durch unüberwachtes Clustering und anschließendes Training eines Entscheidungsbaums auf den gelernten Clustern.

Generelles Konzept der ML-Lösung.

Generelles Konzept der ML-Lösung.

Nach welchen allgemeinen inhaltlichen Kriterien werden Entscheidungen getroffen? Wie ist deren Gewichtung?

Als Basis der Entscheidung dienen zufällige Intervalle der Zeitreihen und deren Clusterergebnisse. Durch die Clusterung soll erreicht werden, dass die Verläufe der Intervalle von unterschiedlichen Clustern auch visuell von Menschen deutlich unterschieden werden können und dadurch die Interpretierbarkeit erhöht wird. Die Entscheidung wird dann anhand des trainierten Entscheidungsbaums getroffen. Dabei wird in jedem Knoten des Entscheidungsbaums ein Clusterergebnis als Kriterium verwendet.

Werden neue Merkmale erarbeitet, die nicht speziell erfasst werden (z.B. Kombination erhobener Merkmale)?

Es werden Intervalle zufälliger Länge mit zufälligem Startpunkt ausgewählt. Für jedes Intervall werden Cluster berechnet und die sich ergebenen Clusterschwerpunkte sind neue Merkmale. Eine neu zu klassifizierende Zeitreihe wird anhand der Nähe zu diesen Clusterschwerpunkten, die im Entscheidungsbaum ausgewählt wurden, klassifiziert.

Beispiel eines Intervall-basierten Entscheidungsbaums. Zufällige Intervalle der Zeitreihen dienen als Grundlage für unüberwachtes Clustering. Intervalle aus unterschiedlichen Clustern können visuell deutlich unterschieden werden und sind dadurch interpretierbar. Die Ergebnisse des Clusterings dienen wiederum zur Erstellung des Entscheidungsbaums.

Beispiel eines Intervall-basierten Entscheidungsbaums. Zufällige Intervalle der Zeitreihen dienen als Grundlage für unüberwachtes Clustering. Intervalle aus unterschiedlichen Clustern können visuell deutlich unterschieden werden und sind dadurch interpretierbar. Die Ergebnisse des Clusterings dienen wiederum zur Erstellung des Entscheidungsbaums.

Nach welchen allgemeinen inhaltlichen Kriterien wird gelernt?

Die Ähnlichkeit von Zeitreihen wird anhand der dynamischen Zeitnormierung (dynamic time warping) bewertet und die Qualität von Clusterergebnissen anhand des Silhouette-Scores. Die Auswahl geeigneter Merkmale für einen Knoten des Entscheidungsbaums wird anhand der Informationsgewinnrate getroffen.

Präsentationen und Publikationen

Schmidt, Malte; Lohweg, Volker. Interval-based Interpretable Decision Tree for Time Series Classification. In: Schulte, Horst; Hoffmann, Frank; Mikut, Ralf (Hrsg.): Proceedings – 31. Workshop Computational Intelligence, S. 91–111, KIT Scientific Publishing, 2021.

Ansprechpartner

Malte Schmidt
Email
inIT – Institute Industrial IT
Technische Hochschule Ostwestfalen-Lippe
Campusalle 6
32657 Lemgo