30.09.2021 | Forschung & Lehre

Die praktische Anwendung von Autoencoder in der modernen Dimensionsreduktion von Daten



Hochdimensionale Daten können für maschinelle Lernverfahren zum Problem werden, sie führen zu overfitting und großen Modellen. In einer Bachelorarbeit am DSC wurde ein praktischer Lösungsansatz mit Autoencoder entwickelt.

In der Bachelorarbeit von Kien Vinh Luc „Autoencoder for dimension reduction of data in empirical asset pricing model“, betreut von Prof. Dr. Rolf Drechsler und M.Sc. Christopher Metz vom Data Science Center sowie PD. Dr. Christian Fieberg auf dem Gebiet der empirischen Kapitalmarktforschung, wird ein neuer praktischer Ansatz vorgestellt, der die Effizienz und Leistung des maschinellen Lernmodells verbessert, indem er den ursprünglichen hochdimensionalen Datenraum in einem vereinfachten, niedrigdimensionalen Unterraum abbildet, aber dennoch sein Informationen beibehält.

Die explosionsartige Zunahme von Big Data hat uns mit immer mehr Informationen über jedes Problem in unserer Gesellschaft und in der Industrie, insbesondere im Finanzwesen, versorgt. Die globale Finanzkrise und die europäische Schuldenkrise haben deutlich gemacht, wie wichtig es ist, die reichhaltigen und multivariaten Daten zu verstehen, die den Finanzunternehmen, Volkswirtschaften und Märkten zugrunde liegen. Es stimmt, dass die gesammelten hochdimensionalen Daten dem maschinellen Lernmodell helfen, mehr zu lernen und Muster bei der Verallgemeinerung der Daten zu erforschen, aber sie führen auch zu einem Problem: Daten in geringer Qualität, die hochkomplex und korreliert sind. Das führt zu einer beträchtlichen Menge an Redundanz in den Daten und birgt das Risiko einer falschen Vorhersagbarkeit, Identifizierbarkeit, Instabilität und Überanpassung. Daher ist es von entscheidender Bedeutung, die Dimensionalität der Daten zu reduzieren, um abzuschätzen, wie informativ jedes Merkmal im Datensatz ist, und es bei Bedarf zu entfernen, ohne die Struktur der Daten zu verändern.

Herr Luc verwendete in seiner Arbeit Autoencoder (AE), um die Dimension eines Datensatzes von Aktienwerten zu reduzieren. Ein Autoencoder lernt eine Annäherung an eine Identifizierungsfunktion, so dass die Ausgabe der Eingabe ähnlich ist. Mit Eigenschaft komprimiert der AE die Eingabe X zu einer kleineren Raumrepräsentation und rekonstruiert dann die Ausgabe wieder aus dem Raum. Auf diese Weise können wir den Informationsverlust so weit wie möglich kontrollieren und minimieren. Wir extrahieren die erste Komponente des Autoencoders, genannt Encoder, und integrieren sie dann mit dem empirischen „Asset-Pricing-Modell“, um ein neues Modell zu erstellen. Auf diese Weise wird die Eingabe zunächst auf eine kleinere Dimension komprimiert, bevor sie in das empirische „Asset-Pricing-Modell“ weitergegeben wird. Anschließend wir das maschinelle Lerntraining und die Vorhersage wie gewohnt durchgeführt. Die neuen Eingabewerte, in der neuen vorgeschlagenen Struktur, sind die Extraktion der wertvollsten Informationen bei gleichzeitiger Beseitigung der unerwünschten Redundanz. Dadurch wird die große des Modells verkleinert, was zu einer Verbesserung der Vorhersageleistung und auch der Rechenzeit führt.

Die Forschung ist eine gemeinsame Arbeit mit der AGRA-Gruppe des Fachbereichs 3, der empirischen Kapitalmarktforschung des Fachbereichs 7 und dem Data Science Center. Sie wird als Bachelorarbeit an der Universität Bremen eingereicht. Der neue Ansatz kann für die Lösung vieler Probleme in anderen Branchen nützlich sein und angewendet werden. Die Ergebnisse werden für die Forschung aufbereitet und könnten in zukünftigen Publikationen verwendet werden.

Wir gratulieren Herrn Luc zu seiner bestandenen Arbeit und wünschen ihm weiterhin viel Erfolg in seinem privaten und beruflichen Werdegang.

Autor*in: Christoph Metz
Haben Sie Interesse, bei uns eine Abschlußarbeit zu schreiben?

Dann melden Sie sich bei:

Dr. Lena Steinmann
DSC Koordinatorin
+49 (421) 218 - 63941
lena.steinmann@uni-bremen.de



« zurück