Datenbanksysteme

Datenbanksysteme ermöglichen eine effiziente Verwaltung strukturierter Daten. Beim Umgang mit zeitbehafteten, nach und nach eintreffenden Datensätzen, auf die sehr schnell reagiert werden muss, stoßen sie jedoch an ihre Grenzen.

Projekte:

KYQ: Know Your Queries!

"Sie sollten Ihre Anfragen kennen!" - so könnte man den englischen (kürzeren) Titel des Projekts übersetzen. Es geht darum, nicht einfach eine Datenbank haben zu wollen, sondern sich zuerst auch einmal Gedanken darüber zu machen, was man aus dieser Datenbank dann an Auswertungen (die sich in Anfragen hinschreiben lassen) eigentlich haben möchte. Mit der Erstellung einer Datenbank ist eine Menge Arbeit verbunden, nicht nur mit der Einrichtung der Software auf einem Rechner, sondern vor allem auch mit der Erfassung der ganzen Daten. Dieser Aufwand sollte zielgerichtet erbracht werden. Das Projekt wird also Anfragen sammeln, die zum Teil dann sogar automatisch in einen Datenbank-Entwurf überführt werden können. Das spart zum einen Ressourcen, unterstützt zum anderen aber auch das wichtige Datenschutz-Ziel der sog. Datensparsamkeit.

→ Mehr Informationen

DAMSEL: Bewertung von Datenspeichersystemen

Die Welt der Datenverwaltungssysteme ist in den letzten Jahren sehr viel unübersichtlicher geworden. Neben die gut etablierten Relationalen Datenbanksysteme sind sog. NoSQL-Systeme getreten, die vorgeben, mit viel größeren Datenmengen umgehen zu können, die zugleich aber weniger Funktionen zum effizienten Zugriff auf die Daten anbieten und auch weniger Konsistenzgarantien abgeben. Damit stellt sich die Frage, wann man bei einer Relationalen Datenbank bleiben und wann man auf ein NoSQL-System übergehen sollte. Vor dieser Frage stehen immer mehr Organisationen. Dieses Projekt sammelt die Kriterien, nach denen man eine solche Entscheidung begründet treffen kann - und sollte.

→ Mehr Informationen

E|ASY-Opt INF6: REAPER: A Framework for Materializing and Reusing Deep-Learning Models

Im Rahmen des EFRE-E|ASY-Opt Teilprojektes wird das Potential von Data Mining Methoden im Bereich der Fertigung des produzierenden Gewerbes untersucht. Speziell das Trainieren von Deep-Learning Modellen stellt eine rechenintensive Aufgabe dar, welche mitunter Stunden bis mehrere Tage in Anspruch nehmen kann. Die Trainingszeit kann durch die Verwendung eines bereits trainierten Modells erheblich verkürzt werden, sofern die Ziel und Quellaufgabe in engen Zusammenhang zueinander stehen. Dieser Zusammenhang wird aktuell noch nicht vollumfänglich verstanden.

Das Ziel dieses Forschungsprojektes ist die Umsetzung eines Systems namens REAPER (Reusable Neural Network Pattern Repository), um Data Scientists bei der Speicherung und Wiederverwendung von bereits trainierten Deep-Learning Modellen zu unterstützen.

→ Mehr Informationen

ReProVide: Anfrageoptimierung und Daten-nahe Verarbeitung auf Rekonfigurierbaren SoCs für Big-Data-Analyse

Dieses Projekt wird durch die Deutsche Forschungsgemeinschaft (DFG) im Rahmen des Schwerpunktprogramms SPP 2037 "Scalable Data Management for Future Hardware" gefördert.

Ziel dieses Projekts ist es, neuartige Hardware und Optimierungstechniken für die skalierbare, leistungsfähige Verarbeitung von Big Data bereitzustellen. Wir zielen insbesondere auf große Datenmengen mit flexiblen Schemata (zeilenorientierte, spaltenorientierte, dokumentenorientierte, irreguläre und/oder nicht-indexierte Daten) sowie auf Datenströme, wie sie in der Klick-Strom-Analyse, in Unternehmensquellen wie E-Mails, Software-Logs und Diskussionsforums-Archiven sowie in Sensoren im Internet of Things (IoT) und in Industrie 4.0 zu finden sind. In diesem Bereich untersucht das Projekt das Potenzial Hardware-konfigurierbarer, FPGA-basierter Systems-on-Chip (SoCs) für die Daten-nahe Verarbeitung, bei der Berechnungen direkt bei den Datenquellen stattfinden. Basierend auf FPGA-Technologie und insbesondere deren dynamischer Rekonfiguration schlagen wir eine generische Architektur mit dem Namen ReProVide für die kostengünstige Verarbeitung von Datenbankanfragen vor.

→ Mehr Informationen

SIML: Schemainferenz und maschinelles Lernen

Im Rahmen des Projekts SIML (Schemainferenz und maschinelles Lernen) werden Methoden der topologischen Datenanalyse und des unüberwachten Lernens kombiniert untersucht, eingesetzt und weiterentwickelt, um aus unstrukturierten, multivarianten Daten ein konzeptuelles Schema abzuleiten.

→ Mehr Informationen

ANANIA: Architektur von Nicht-Multiplen Autoencodern mit Nicht-Verlustbehafteter Informations-Agglomeration

Die Kompression von Daten spielt im Datenmanagement nicht erst seit Kurzem eine entscheidende Rolle. Komprimierte Daten lassen sich platzsparender dauerhaft ablegen und effizienter über das Netzwerk versenden. Durch die ständig steigenden Datenmengen erhöht sich die Wichtigkeit guter Kompressionsverfahren jedoch immer weiter.

Im Rahmen von Projekt Anania (Architektur von Nicht-Multiplen Autoencodern mit Nicht-Verlustbehafteter Informations-Agglomeration) erforschen wir, inwiefern klassische Ko…

→ Mehr Informationen

ReProVide II INF6: Query-Optimierung und Near-Data-Processing auf rekonfigurierbaren SoCs für Big Data Analyse (Phase II)

Die schnelle und energieeffiziente Analyse von Petabytes an Daten erfordert eine massiv parallele Verarbeitung bereits an der Datenquelle. Das Ziel des ReProVide-Projekts ist es, neuartige FPGA-basierte Lösungen zur intelligenten Speicherung und quellnahen Datenverarbeitung zusammen mit neuartigen Optimierungstechniken bereitzustellen, die die Geschwindigkeit und Rekonfigurierbarkeit von FPGA-Hardware für die skalierbare und leistungsfähige Reduktion großer Datenmengen nutzen.
In Phase I

→ Mehr Informationen

FST: Erzeugung von Symboltabellen für die Komprimierung von Zeichenketten mit Hilfe von Frequent-Substring Trees

Mit dem andauernden Anstieg globaler Datenvolumina gewinnt die Datenbankkompression immer weiter an Relevanz. Während die Kompression numerischer Datentypen umfassend erforscht wurde, erfährt die Kompression von Zeichenketten erst neuerdings wieder verstärkte wissenschaftliche Beachtung.

Ein vielversprechender Ansatz zur Stringkompression ist die Kompression mittels Symboltabellen, bei der wiederkehrende Substrings innerhalb einer Datenbank durch kurze Codes substituiert werden. Eine ko…

→ Mehr Informationen

SKYSHARK: SKYSHARK - Benchmarking von Datenanalysesystemen mit Echtzeit-Flugdaten

To test and evaluate a heterogeneous stream-processing system consisting of an FPGA-based systemon-chip and a host, we develop a benchmark called SKYSHARK. It uses real-world data from air-traffic control that is publicly available. These data are enhanced for the purpose of the benchmark without changing their characteristics. They are further enriched with aircraft and airport data. We define 14 queries with respect to the particular requirements of our system. They should be useful for other…

→ Mehr Informationen

Kontaktpersonen:
Klaus Meyer-Wegener
Beteiligte Wissenschaftler:
Klaus Meyer-Wegener
Peter Schwab
Melanie Sigl
Maximilian Langohr
Dominik Probst
Richard Lenz
Julian Rith
Stefan Wildermann
Jürgen Teich
Tobias Hahn
Andreas Becher
Lekshmi Beena Gopalakrishnan Nair
Publikationen:
Langohr M., Vogler T., Meyer-Wegener K.:
SKYSHARK: A Benchmark with Real-world Data for Line-rate Stream Processing with FPGAs
Lernen, Wissen, Daten, Analysen (LWDA) (Marburg, 9. Oktober 2023 - 11. Oktober 2023)
In: Leyer M, Wichmann J (Hrsg.): Lernen, Wissen, Daten, Analysen (LWDA) Conference Proceedings, Marburg, Germany, October 9-11, 2023 2023
Open Access: https://ceur-ws.org/Vol-3630/LWDA2023-paper9.pdf
URL: https://ceur-ws.org/Vol-3630/LWDA2023-paper9.pdf
BibTeX: Download

Datenbanksysteme

Sprechzeiten

Projekte:

KYQ: Know Your Queries! KYQ: Know Your Queries!

DAMSEL: Bewertung von Datenspeichersystemen DAMSEL: Bewertung von Datenspeichersystemen

E|ASY-Opt INF6: REAPER: A Framework for Materializing and Reusing Deep-Learning Models E|ASY-Opt INF6: REAPER: A Framework for Materializing and Reusing Deep-Learning Models

ReProVide: Anfrageoptimierung und Daten-nahe Verarbeitung auf Rekonfigurierbaren SoCs für Big-Data-Analyse ReProVide: Anfrageoptimierung und Daten-nahe Verarbeitung auf Rekonfigurierbaren SoCs für Big-Data-Analyse

SIML: Schemainferenz und maschinelles Lernen SIML: Schemainferenz und maschinelles Lernen

ANANIA: Architektur von Nicht-Multiplen Autoencodern mit Nicht-Verlustbehafteter Informations-Agglomeration ANANIA: Architektur von Nicht-Multiplen Autoencodern mit Nicht-Verlustbehafteter Informations-Agglomeration

ReProVide II INF6: Query-Optimierung und Near-Data-Processing auf rekonfigurierbaren SoCs für Big Data Analyse (Phase II) ReProVide II INF6: Query-Optimierung und Near-Data-Processing auf rekonfigurierbaren SoCs für Big Data Analyse (Phase II)

FST: Erzeugung von Symboltabellen für die Komprimierung von Zeichenketten mit Hilfe von Frequent-Substring Trees FST: Erzeugung von Symboltabellen für die Komprimierung von Zeichenketten mit Hilfe von Frequent-Substring Trees

SKYSHARK: SKYSHARK - Benchmarking von Datenanalysesystemen mit Echtzeit-Flugdaten SKYSHARK: SKYSHARK - Benchmarking von Datenanalysesystemen mit Echtzeit-Flugdaten

Kontaktpersonen:

Beteiligte Wissenschaftler:

Publikationen:

KYQ: Know Your Queries!

DAMSEL: Bewertung von Datenspeichersystemen

E|ASY-Opt INF6: REAPER: A Framework for Materializing and Reusing Deep-Learning Models

ReProVide: Anfrageoptimierung und Daten-nahe Verarbeitung auf Rekonfigurierbaren SoCs für Big-Data-Analyse

SIML: Schemainferenz und maschinelles Lernen

ANANIA: Architektur von Nicht-Multiplen Autoencodern mit Nicht-Verlustbehafteter Informations-Agglomeration

ReProVide II INF6: Query-Optimierung und Near-Data-Processing auf rekonfigurierbaren SoCs für Big Data Analyse (Phase II)

FST: Erzeugung von Symboltabellen für die Komprimierung von Zeichenketten mit Hilfe von Frequent-Substring Trees

SKYSHARK: SKYSHARK - Benchmarking von Datenanalysesystemen mit Echtzeit-Flugdaten