Zeitreihen-Clustering

Blog-Beitrag
Smart Data Services
Dr. Simon Raschke
06
.
11
.
2023

Verbesserte Aggregation bei der Planung

Sie arbeiten im Supply Chain Management und erleben regelmäßig die Herausforderung, das Kaufverhalten Ihrer Kunden und damit Ihre Lager oder Produktionskapazitäten abschätzen zu müssen? Sicherlich haben Sie bereits von Forecasting-Methoden wie NHiTS, DeepAR oder ARIMA aus dem Data-Science-Werkzeugkasten gehört. Diese Methoden versuchen, basierend auf den historischen Daten und weiteren externen Einflussfaktoren die kommende Zeitperiode vorauszusagen. Damit Ihre Planung aber funktionieren kann und Sie überhaupt eine Möglichkeit haben den oft gewaltigen Datenmengen beizukommen, wird häufig Artikel-basierend nach beispielsweise Produktgruppen gruppiert und gemeinsam beplant.  

Die Schwierigkeit eines solchen Ansatzes besteht allerdings häufig darin, dass Artikel und Produkte sich nicht allein deshalb ähnlich verkaufen, weil sie ähnliche Stammdaten aufweisen. Die Frage, ob ein gelbes Shirt sich ähnlich verkauft wie ein schwarzes Shirt, ist nicht damit beantwortet, dass es sich bei beiden um Shirts handelt. Dieser Blogbeitrag beschäftigt sich mit einer möglichen Herangehensweise an dieses Problem.

Ein weiteres Handwerkszeug aus dem Data-Science-Bereich ist das Clustering. Damit gemeint ist eine Vielzahl von Methoden, die versuchen Ähnlichkeiten und Unterschiede zwischen Datenpunkten oder Zeitreihen zu identifizieren und diese so zu Gruppen zuzuordnen. Dazu werden Merkmale der Daten genutzt und kombiniert, die für das menschliche Auge nicht sofort sichtbar sind. Auch die große Datenmenge ist mithilfe der Clustering-Algorithmen nutzbar. Am Ende eines solchen Clustering-Prozesses hat jeder Datenpunkt eine Zuordnung zu einem Cluster erhalten und es können weitere Erkenntnisse basierend auf dem Ergebnis des Clustering gewonnen werden. Auch die Planung und das Forecasting können mithilfe dieser neuen Aggregationsebene verbessert werden, da nun Artikel mit ähnlichem Abverkaufsverhalten gemeinsam betrachtet werden können.

Abbildung 1: Rohdaten mehrerer Zeitreihen.

Den Vorgang des Clustering für Zeitreihen können wir uns einmal anhand eines Beispiels anschauen. In Abbildung 1 sind einige Zeitreihen zu sehen, welche als Rohdaten eher chaotisch aussehen. Es ist nicht sofort klar, wie ein weiteres Vorgehen aussehen kann, wenn man versucht, diese Zeitreihen zu gruppieren oder sie in die Zukunft fortzuschreiben. Am einfachsten würde man jede Zeitreihe für sich nehmen und einzeln ein Forecasting durchführen. Der Nachteil dieser Methodik besteht in der geringen Datenmenge, auf der solche Algorithmen trainiert werden können. Besser wäre es, man hätte mehrere Zeitreihen, die man gemeinsam zum Forecasting nutzen könnte. Hier kommt das Zeitreihen-Clustering ins Spiel.

Grundsätzlich kommen für das Clustering von Zeitreihen zwei Methoden in Frage.

1. Clustering basierend auf Zeitreihenmerkmalen

Ein Ansatz für das Zeitreihen-Clustering in der Supply Chain besteht darin, den KMeans-Algorithmus auf den extrahierten Merkmalen der Zeitreihen anzuwenden. Dabei werden verschiedene statistische Eigenschaften wie Durchschnitt, Standardabweichung, Trend und saisonale Muster verwendet, um jede Zeitreihe durch einen Satz numerischer Merkmale zu repräsentieren.

Die Verwendung von KMeans zur Clusterbildung ermöglicht es uns, ähnliche Zeitreihen zusammenzufassen und Cluster zu bilden, die bestimmte Verhaltensmuster aufweisen. Dies kann beispielsweise bei der Lagerplanung nützlich sein, um ähnliche Produkte zu identifizieren und eine optimale Lagerhaltungsstrategie für jedes Cluster zu entwickeln.

Es ist wichtig anzumerken, dass die Wahl der Merkmale einen erheblichen Einfluss auf die Effektivität des Clustering-Verfahrens hat. Daher ist es ratsam, Domänenexperten hinzuzuziehen, um die relevanten Merkmale zu identifizieren, die spezifisch für die Supply Chain-Problematik sind.

2. Dynamic Time Warping

Dynamic Time Warping ist eine Technik, die dazu dient, ähnliche Muster in Zeitreihen zu finden, auch wenn sie unterschiedliche Längen und Versatz aufweisen. Bei der Anwendung von Dynamic Time Warping im Zeitreihen-Clustering wird die Ähnlichkeit zwischen zwei Zeitreihen berechnet, indem die geringsten Abstandsübereinstimmungen zwischen den Punkten der beiden Zeitreihen ermittelt werden. Dies ermöglicht es uns, Muster zu erkennen, die mit herkömmlichen Clustering-Algorithmen möglicherweise übersehen werden würden.

In unserem Beispiel wurde das Dynamic Time Warping in Verbindung mit dem KMeans-Clustering Algorithmus verwendet, um in den chaotischen Daten Cluster zu erkennen. Wie wir hier sehen können, ergeben sich 3 grundsätzlich unterscheidbare Verläufe, die hier in verschiedenen Farben dargestellt werden.

Abbildung 2: Rohdaten mehrerer Zeitreihen, eingefärbt nach ihrer jeweiligen Cluster-Zugehörigkeit.

Mit dem bloßen Auge ist so eine Zuordnung bei Datenmengen, wie sie üblicherweise in den Planungsabteilungen vorkommen, nicht mehr zu bewerkstelligen. Da wir nun ähnliche Zeitreihen identifiziert haben, ergeben sich Muster in den jeweiligen Clustern. Der Algorithmus hat diese für uns erkannt und entsprechend zugeordnet.

Abbildung 3: Rohdaten mehrerer Zeitreihen in grau, eingeteilt in die 3 Cluster. Die farbigen Kurven kennzeichnen den Zeitreihen-Schwerpunkt, den Mittelwert, des jeweiligen Clusters.

Für die weitere Planung kann es uns nun egal sein, welche Artikel oder Produkte in einem solchen Cluster zusammengeführt werden. Vielleicht verkauft sich ein schwarzes Shirt ähnlich wie ein goldfarbener Armreif und wir hätten ohne diese Methode nicht erkannt, dass sich diese Produkte mit grundlegend unterschiedlichen Stammdaten so sehr ähneln. Die Erkenntnisse aus diesem Prozess können nun nutzbar gemacht werden.  

Das Zeitreihen-Clustering kann uns also im Planungsprozess eine Menge Arbeit abnehmen:

  • Verglichen mit der Planung einzelner Artikel, können wir uns nun auf die Planung der Cluster konzentrieren und ein Forecasting an diesen Prozess anschließen.
  • Forecasting Algorithmen können basierend auf einer Vielzahl ähnlicher Zeitreihen trainiert werden, wodurch sich deren Genauigkeit deutlich erhöhen kann.
  • Wir gewinnen bisher unbekannte Einblicke in die Produktpalette und können Zusammenhänge erkennen, welche nicht offensichtlich sind und nicht aus den Stammdaten der Artikel direkt hervorgehen.

Wenn auch Sie Schwierigkeiten haben, der Datenflut in Ihrem Planungsprozess Herr zu werden, sprechen Sie uns gerne an. Wir freuen uns auf den Austausch.

,

Verfasser des Blog-Beitrags

Dr. Simon Raschke
Dr. Simon Raschke
Senior Cloud Solutions Architect
celver AG

Dr. Simon Raschke ist Senior Cloud Solutions Architect bei der celver AG mit einem naturwissenschaftlichen Background. Besonders reizen ihn Projekte mit komplexen Datenzusammenhängen im Umfeld moderner Cloud-Technologien. Im Fokus steht für ihn dabei, aus unterschiedlich gearteten Daten sinnvolle geschäftsrelevante Informationen zu generieren.

Case Study zum Thema

Mit unseren News erhalten Sie aktuelle Insights zu Smart Planning, Smart Analytics, Smart Data und Smart Cloud.

Jetzt anmelden