22.12.2021 | Forschung & Lehre

Entwicklung eines neuen Ansatzes zur vereinfachten Nutzung von Datenbanken



In einer Bachelorarbeit wurde ein neuartiger Natural Language Processing Ansatz entwickelt, welcher die Nutzung von z.B. SQL Datenbanken für jedermann ermöglicht.

In den vergangenen Jahrzehnten wurde eine große Menge Daten erzeugt, die gespeichert werden muss. Aus diesem Grund gelten moderne Datenbanken als eine fundamentale Innovation, um Daten zu speichern, einfach auszulesen und anschließend gewinnbringend zu nutzen. Da die meisten Menschen jedoch kein Wissen über Datenbanksprachen wie SQL besitzen, existiert eine Barriere wodurch sie das Potential von Datenbanken oftmals nicht in vollen Umfang nutzen können. In einer Bachelorarbeit am DSC wurde ein Ansatz entwickelt, welcher auf der Verwendung von natürlicher Sprachverarbeitung und maschinellem Lernen aufbaut, um die Nutzung von Datenbanken für jedermann zu ermöglichen.

In der Bachelorarbeit von Marcel Franzen „Implementierung einer automatischen Transformierung multilingualer Spracheingaben in Datenbankabfragen“ wird ein neuartiger Ansatz vorgestellt, der bereits vorhandene Ansätze hinsichtlich einer multilingualen Nutzung erweitert, sodass Eingaben in verschiedenen Sprachen, gleiche Ergebnisse erzielen. Daraus resultiert, dass Endanwender:innen mit geringen oder keinen Kenntnissen in SQL Datenbankanfragen erzeugen können.

Für die Verarbeitung natürlicher Sprache verwendet Herr Franzen in seiner Arbeit Worteinbettungen, dabei handelt es sich um Wörter die in einem Vektor kodiert werden. Die Vektoren aus verschiedenen Sprachen sind in einem eigenen Vektorraum angeordnet. Die Vektorräume werden in einen gemeinsamen Vektorraum überführt. Somit liegen einerseits die Vektoren von Wörtern nah bei einander, die eine hohe semantische Ähnlichkeit aufweisen. Andererseits haben dieselben Wörter in unterschiedlichen Sprachen ebenfalls eine hohe Ähnlichkeit bezüglich ihrer Worteinbettungen.
Mit Hilfe dieser Eigenschaften, können so Fragen in deutscher sowie englischer Sprache an eine Datenbank gestellt werden, welche dann in korrespondierende SQL-Abfrage umgewandelt werden. Hierzu werden sowohl die Frage, als auch die Namen der Tabellenspalten durch Worteinbettungen in eine entsprechende Vektorrepräsentation überführt, die dann durch Neuronale Netze weiterverarbeitet werden. Verschiedene kleinere Modelle werden genutzt, um einzelne Teile der SQL-Abfrage vorhersagen zu können, wodurch eine vollständige SQL-Abfrage entsteht. Aufgrund der Multilingualität kann sich die Sprache der Fragen, von der Sprache der Tabellenspalten unterscheiden. Außerdem ist dadurch die Sprache des verwendeten Datensatzes zum Training der Modelle irrelevant.

Frage: Was ist Terrence Ross Nationalität?
Tabelle: player nationality position years in toronto team
SQL-Abfrage: SELECT nationality FROM table WHERE player = ‘terrence ross’
Diese Forschung ist eine gemeinsame Arbeit mit der AGRA-Gruppe des Fachbereichs 3, sowie dem Data Science Center. Sie wurde als Bachelorarbeit an der Universität Bremen eingereicht.

Wir gratulieren Herrn Franzen zu seinem bestandenen Kolloquium und wünschen ihm im beruflichen und privaten weiterhin viel Erfolg.

Autor*in: Christopher Metz
Haben Sie Interesse, bei uns eine Abschlußarbeit zu schreiben?

Dann melden Sie sich bei:

Dr. Lena Steinmann
DSC Koordinatorin
+49 (421) 218 - 63941
lena.steinmann@uni-bremen.de



« zurück