Datenbanksysteme
Datenbanksysteme ermöglichen eine effiziente Verwaltung strukturierter Daten. Beim Umgang mit zeitbehafteten, nach und nach eintreffenden Datensätzen, auf die sehr schnell reagiert werden muss, stoßen sie jedoch an ihre Grenzen.
Projekte:
"Sie sollten Ihre Anfragen kennen!" - so könnte man den englischen (kürzeren) Titel des Projekts übersetzen. Es geht darum, nicht einfach eine Datenbank haben zu wollen, sondern sich zuerst auch einmal Gedanken darüber zu machen, was man aus dieser Datenbank dann an Auswertungen (die sich in Anfragen hinschreiben lassen) eigentlich haben möchte. Mit der Erstellung einer Datenbank ist eine Menge Arbeit verbunden, nicht nur mit der Einrichtung der Software auf einem Rechner, sondern vor allem auch mit der Erfassung der ganzen Daten. Dieser Aufwand sollte zielgerichtet erbracht werden. Das Projekt wird also Anfragen sammeln, die zum Teil dann sogar automatisch in einen Datenbank-Entwurf überführt werden können. Das spart zum einen Ressourcen, unterstützt zum anderen aber auch das wichtige Datenschutz-Ziel der sog. Datensparsamkeit.
Die Welt der Datenverwaltungssysteme ist in den letzten Jahren sehr viel unübersichtlicher geworden. Neben die gut etablierten Relationalen Datenbanksysteme sind sog. NoSQL-Systeme getreten, die vorgeben, mit viel größeren Datenmengen umgehen zu können, die zugleich aber weniger Funktionen zum effizienten Zugriff auf die Daten anbieten und auch weniger Konsistenzgarantien abgeben. Damit stellt sich die Frage, wann man bei einer Relationalen Datenbank bleiben und wann man auf ein NoSQL-System übergehen sollte. Vor dieser Frage stehen immer mehr Organisationen. Dieses Projekt sammelt die Kriterien, nach denen man eine solche Entscheidung begründet treffen kann - und sollte.
Im Rahmen des EFRE-E|ASY-Opt Teilprojektes wird das Potential von Data Mining Methoden im Bereich der Fertigung des produzierenden Gewerbes untersucht. Speziell das Trainieren von Deep-Learning Modellen stellt eine rechenintensive Aufgabe dar, welche mitunter Stunden bis mehrere Tage in Anspruch nehmen kann. Die Trainingszeit kann durch die Verwendung eines bereits trainierten Modells erheblich verkürzt werden, sofern die Ziel und Quellaufgabe in engen Zusammenhang zueinander stehen. Dieser Zusammenhang wird aktuell noch nicht vollumfänglich verstanden.
Das Ziel dieses Forschungsprojektes ist die Umsetzung eines Systems namens REAPER (Reusable Neural Network Pattern Repository), um Data Scientists bei der Speicherung und Wiederverwendung von bereits trainierten Deep-Learning Modellen zu unterstützen.
Dieses Projekt wird durch die Deutsche Forschungsgemeinschaft (DFG) im Rahmen des Schwerpunktprogramms SPP 2037 "Scalable Data Management for Future Hardware" gefördert.
Ziel dieses Projekts ist es, neuartige Hardware und Optimierungstechniken für die skalierbare, leistungsfähige Verarbeitung von Big Data bereitzustellen. Wir zielen insbesondere auf große Datenmengen mit flexiblen Schemata (zeilenorientierte, spaltenorientierte, dokumentenorientierte, irreguläre und/oder nicht-indexierte Daten) sowie auf Datenströme, wie sie in der Klick-Strom-Analyse, in Unternehmensquellen wie E-Mails, Software-Logs und Diskussionsforums-Archiven sowie in Sensoren im Internet of Things (IoT) und in Industrie 4.0 zu finden sind. In diesem Bereich untersucht das Projekt das Potenzial Hardware-konfigurierbarer, FPGA-basierter Systems-on-Chip (SoCs) für die Daten-nahe Verarbeitung, bei der Berechnungen direkt bei den Datenquellen stattfinden. Basierend auf FPGA-Technologie und insbesondere deren dynamischer Rekonfiguration schlagen wir eine generische Architektur mit dem Namen ReProVide für die kostengünstige Verarbeitung von Datenbankanfragen vor.
Im Rahmen des Projekts SIML (Schemainferenz und maschinelles Lernen) werden Methoden der topologischen Datenanalyse und des unüberwachten Lernens kombiniert untersucht, eingesetzt und weiterentwickelt, um aus unstrukturierten, multivarianten Daten ein konzeptuelles Schema abzuleiten.
Die Kompression von Daten spielt im Datenmanagement nicht erst seit Kurzem eine entscheidende Rolle. Komprimierte Daten lassen sich platzsparender dauerhaft ablegen und effizienter über das Netzwerk versenden. Durch die ständig steigenden Datenmengen erhöht sich die Wichtigkeit guter Kompressionsverfahren jedoch immer weiter.
Im Rahmen von Projekt Anania (Architektur von Nicht-Multiplen Autoencodern mit Nicht-Verlustbehafteter Informations-Agglomeration) erforschen wir, inwiefern klassische Ko…
Die schnelle und energieeffiziente Analyse von Petabytes an Daten erfordert eine massiv parallele Verarbeitung bereits an der Datenquelle. Das Ziel des ReProVide-Projekts ist es, neuartige FPGA-basierte Lösungen zur intelligenten Speicherung und quellnahen Datenverarbeitung zusammen mit neuartigen Optimierungstechniken bereitzustellen, die die Geschwindigkeit und Rekonfigurierbarkeit von FPGA-Hardware für die skalierbare und leistungsfähige Reduktion großer Datenmengen nutzen.
In Phase I
Mit dem andauernden Anstieg globaler Datenvolumina gewinnt die Datenbankkompression immer weiter an Relevanz. Während die Kompression numerischer Datentypen umfassend erforscht wurde, erfährt die Kompression von Zeichenketten erst neuerdings wieder verstärkte wissenschaftliche Beachtung.
Ein vielversprechender Ansatz zur Stringkompression ist die Kompression mittels Symboltabellen, bei der wiederkehrende Substrings innerhalb einer Datenbank durch kurze Codes substituiert werden. Eine ko…
To test and evaluate a heterogeneous stream-processing system consisting of an FPGA-based systemon-chip and a host, we develop a benchmark called SKYSHARK. It uses real-world data from air-traffic control that is publicly available. These data are enhanced for the purpose of the benchmark without changing their characteristics. They are further enriched with aircraft and airport data. We define 14 queries with respect to the particular requirements of our system. They should be useful for other…
Kontaktpersonen:
- Klaus Meyer-Wegener
Beteiligte Wissenschaftler:
- Klaus Meyer-Wegener
- Peter Schwab
- Melanie Sigl
- Maximilian Langohr
- Dominik Probst
- Richard Lenz
- Julian Rith
- Stefan Wildermann
- Jürgen Teich
- Tobias Hahn
- Andreas Becher
- Lekshmi Beena Gopalakrishnan Nair
Publikationen:
- Langohr M., Vogler T., Meyer-Wegener K.:
SKYSHARK: A Benchmark with Real-world Data for Line-rate Stream Processing with FPGAs
Lernen, Wissen, Daten, Analysen (LWDA) (Marburg, 9. Oktober 2023 - 11. Oktober 2023)
In: Leyer M, Wichmann J (Hrsg.): Lernen, Wissen, Daten, Analysen (LWDA) Conference Proceedings, Marburg, Germany, October 9-11, 2023 2023
Open Access: https://ceur-ws.org/Vol-3630/LWDA2023-paper9.pdf
URL: https://ceur-ws.org/Vol-3630/LWDA2023-paper9.pdf
BibTeX: Download