RL

Professur für evolutionäres Datenmanagement

Professorinnen und Professoren

Adresse

Martensstraße 391058 Erlangen

Kontakt

Prof. Dr. Richard Lenz ist seit 2007 Inhaber der Professur für evolutionäres Datenmanagement und Professor am Lehrstuhl für Informatik 6 (Datenmanagement).
Zwischen Mai 2020 und März 2021 hat er den Lehrstuhl kommissarisch geleitet. Im Oktober 2022 hat er erneut die kommissarische Leitung des Lehrstuhls bis zu dessen Wiederbesetzung übernommen.


Forschung

  • Evolutionäre Informationssysteme
  • Informationssysteme im Gesundheitswesen
  • Datenqualität und Datenintegration
  • Dokument- und Prozessverwaltung (Workflow Management)
  • Forschungsdatenmanagement

  • Adaptives Datenqualitätsmanagement in evolutionär entstandenen Data-Cloud Architekturen

    (Drittmittelfinanzierte Einzelförderung)

    Laufzeit: 1. Januar 2023 – 1. Januar 2026
    Mittelgeber: Siemens AG
    We propose to investigate the following research questions:- Which characteristics enable a data quality framework to best identify and cluster the most relevant data quality problems in arbitrary business data landscapes?- Can we capture the knowledge about typical data quality concerns and possible solutions in a knowledge graph in order to infer potential solutions in any given case?- How can the data quality metrics in such a framework be designed in general to align well with fitness for use in different business contexts?To address these questions we will investigate the types of data quality problems that occur in such an environment. We will also investigate and compare possible methods to systematically detect and monitor such data quality problems. We will conceptualize a framework for data quality monitoring based on an extensible metadata schema for data quality concerns.We will extract and classify relevant generalizable data quality problems. Furthermore, we will examine the limitations of such a framework regarding transferability to different IT landscapes. We will develop a set of tools and methods which solve the data quality reporting problem independently from the specific environment. We will evaluate our proposed framework and adaptation strategy through a proof-of-concept implementation.
  • Data Driven Relationship Discovery in Large Time Series Datasets

    (Drittmittelfinanzierte Einzelförderung)

    Laufzeit: 1. April 2022 – 31. März 2025
    Mittelgeber: Siemens AG
    Modern complex systems, such as power plants or other industrial structures, combined with the rise of IoT and Industry 4.0, produce thousands of time series measuring different aspects within these systems. As time series measure the state of these complex systems, the correct identification and integration of these time series are key to enabling advanced analytics and further optimization. As acquiring contextual information about each time series and their relations is currently a time-consuming and error-prone manual process, techniques to support or even automate this process are in high demand. While there are different available metadata formats, such as Brick, this metadata often is not available for all data sources and is not commonly used for all systems. Integrating time series at scale requires efficient algorithms and robust concepts that can deal with the heterogeneity and high volume of time series from different domains.
    Additional Applications and Outcomes:
    Changepoynt Python PackageChangepoint correlation heavily relies on suitable changepoint detection algorithms, many of which were implemented from research papers within a pip-installable package „changepoynt“ (https://changepoynt.de). Changepoint detection, a critical task in time series analysis, identifies abrupt shifts or transitions in data patterns, offering insights into underlying phenomena. Developed with flexibility and scalability in mind, „changepoynt“ integrates a range of state-of-the-art methods for changepoint detection, empowering researchers across domains to efficiently analyze and interpret their data.
    CATCH: Contextual Anomaly Tracking with Changepoint DetectionTogether with a research partner from the industry, we basically use the inverse of our idea of relationship discovery to detect contextual anomalies. The hypothesis of the project states that signals, which should have relations (e.g. Input-Output measurements of a dynamical system), behave anomalously if they stop showing simultaneous changes. In contrast to classical anomaly detection methods, change point anomaly (the comparison of multiple changepoint signals) is mainly targeted at contextual anomalies, where two signals are measuring the same component, and consequentially should change at similar times when the plant changes operational status. In case the signals change separately, a contextual anomaly occurs.  While the methods are available in theory, the project is necessary to test the applicability, feasibility, and correct parametrization of the methods for selected use cases. A demonstrator for a two-dimensional case can be found under https://anomaly.changescore.de/ and for the multi-dimensional case under https://heatmap.changescore.de/.
  • Processing Heterogeneous Assets and Resources to discover Ontologies and Semantics

    (Projekt aus Eigenmitteln)

    Laufzeit: seit 1. Juni 2019
    Der Zweck des Semantic Web ist es, den weltweiten Zugang zum Wissen der Menschheit in maschinenverarbeitbarer Form zu ermöglichen. Ein großes Hindernis dabei ist, dass Wissen oft entweder inkohärent repräsentiert oder gar nicht externalisiert und nur in den Köpfen von Menschen vorhanden ist. Der Aufbau eines Wissensgraphen und die manuelle Erstellung und Fortschreibung einer Ontologie durch einen Domänenexperten ist eine mühsame Arbeit, die einen großen initialen Aufwand erfordert, bis das Ergebnis verwendet werden kann. Infolgedessen wird vieles Wissen dem Semantic Web oft nie zur Verfügung gestellt werden. Ziel dieser Doktorarbeit ist die Entwicklung eines neuen Ansatzes zum Aufbau von Ontologien aus implizitem Benutzerwissen, das in verschiedenen Artefakten wie Anfrageprotokollen oder Nutzerverhalten verborgen ist.
  • Schemainferenz und maschinelles Lernen

    (Projekt aus Eigenmitteln)

    Laufzeit: 1. August 2018 – 30. September 2021
    Im Rahmen des Projekts SIML (Schemainferenz undmaschinelles Lernen) sollen aus unstrukturierten und semi-strukturierten Daten Informationen gewonnen werden, aus denen ein partielles konzeptuelles Schema abgeleitet werden kann. Methoden der topologischen Datenanalyse (TDA) werden in Kombination mit maschinellen Lernverfahren eingesetzt um dies weitestgehend zu automatisieren. Die Untersuchung von topologischen Merkmalen bietet eine Möglichkeit Informationen über Daten zu gewinnen, die als qualitativ verstanden werden. Insbesondere interessieren wir uns für eine stabile, persistente Form von natürlichen Daten bei der Verwendung von unüberwachten Lernverfahren. Als Kernkonzept sollen funktionale Abhängigkeiten nach der Aufbereitung der Daten untersucht werden, mit deren Hilfe anschließend ein geeignetes Schema definiert werden kann. Dabei gibt es Parallelen und Unterschiede für Zeitreihen bzw. persistente Daten, die ebenfalls herausgearbeitet werden sollen.
    Motivation des Projekts ist der Nachweis, dass Schemataeine natürliche geometrische Struktur in Form eines Simplizialkomplexes aufweisen,die mittels topologischer Methoden untersucht bzw. sichtbar gemacht werden kann.
  • Sprechaktbasiertes Fallmanagement

    (Projekt aus Eigenmitteln)

    Laufzeit: 1. Januar 2015 – 30. September 2018
    Fallmanagementsysteme unterstützen Interaktionen zwischen kooperierenden Benutzern typischerweise, indem gemeinsam zu verwendende Dokumente in einem gemeinsamen Repositorium vorgehalten werden. Im vorliegenden Projekt wird untersucht, ob und wie diese Interaktionen durch Klassifikation als Sprechakte besser unterstützt werden können. Die Sprechakt-Theorie beschreibt die pragmatischen Aspekte kommunikativen Handelns. Dabei werden Äußerungen je nach der pragmatischen Intention des Sprechers in verschiedene Typen von Sprechakten unterteilt, z.B. Fragen, Versprechen, Aufforderungen etc. Diese Intention ist dem Sprecher wohl bewusst, nicht jedoch den Fallmanagementsystemen, die ihn bei seiner Tätigkeit unterstützen sollen.Im Rahmen des Projekts wird erforscht, wie genau die Intention explizit gemacht werden kann, ohne damit den Dokumentationsaufwand substantiell zu erhöhen. Gelingt dies, können aus den getätigten Sprechakten Inferenzen abgeleitet werden, z.B. um an die Erfüllung von Versprechen zu erinnern, Fehler zu vermeiden und fallspezifisch bekannte Kommunikationsmuster zu unterstützen.Um den konkreten Bedarf an Sprechaktunterstützung bewerten zu können, sollen die Anforderungen von Wissensarbeitern verschiedener Domänen sowie aktueller ACM-Systeme und Groupware analysiert werden (ACM = Adaptive Case Management). Basierend auf diesen Anforderungen soll eine Architektur für ein sprechaktbasiertes ACM-System entworfen werden.
  • Open and Collaborative Query-Driven Analytics

    (Projekt aus Eigenmitteln)

    Laufzeit: 1. November 2013 – 31. August 2024
    Mehr und mehr Unternehmen sammeln möglichst alle anfallenden Daten in sogenannten „Data Lakes“. Obwohl die Daten damit prinzipiell für beliebige Analysen zur Verfügung stehen, bleibt es dennoch unerlässlich für die Analyse, ein Verständnis für die Bedeutung und die Verknüpfungsoptionen der Daten zu entwickeln. Analysten, die diese Arbeit bereits geleistet haben, formulieren Anfragen, in denen solches Wissen implizit enthalten ist. Wenn dieses Wissen jedoch nicht mit anderen geteilt wird, bleiben mögliche Synergien ungenutzt und das Verständnis der Daten im „Data Lake“ wird erschwert. Wir extrahieren automatisiert Teile dieses Wissens aus analytischen Anfragen, um es in aufbereiteter Form für nachfolgende Analysen nutzen zu können. Datenanalysten werden dadurch schneller auf relevante Datenquellen aufmerksam und die Datenintegration wird erleichtert.
  • Datenqualität und Innovationsfähigkeit von Medizinprodukten

    (Drittmittelfinanzierte Gruppenförderung – Teilprojekt)

    Titel des Gesamtprojektes: Spitzencluster Medical Valley, Verbund Horizontale Innovationen zur Produkt- und Prozessoptimierung
    Laufzeit: 1. November 2011 – 31. Dezember 2013
    Mittelgeber: BMBF / Spitzencluster
    The integration of medical products into the actual workflows and working processes of a productive environment is a difficult, time-consuming and cost-intensive task for both manufacturers and operators. Despite the standardization of DICOM and HL7, the integration of software components and medical products into a hospital information system still represents a huge task, owing to a lack of appropriate validation environments. The objective of this project is to create a generic test environment for medical products and a method of systematic generation of appropriate test data. The scientific aim is to improve methods for integrating data-processing components into the specific context of an information system. A further important goal is to come up with methods of optimizing data quality in information systems, as well as find methods of dealing with poor quality data. With the aid of models of the target environment, the aim is to improve the requirements profile for components in the pre-development stage. With better, more realistic test data being derived from the models, the result should be improved component integration capability. At the same time, the models should help to identify inadequate data quality in the target environment at an early stage, thus enabling targeted integration preparation.
  • DQ-Step – Improvement of data quality at a reference enterprise in plant engineering

    (Drittmittelfinanzierte Einzelförderung)

    Laufzeit: 15. Januar 2009 – 15. Februar 2012
    Mittelgeber: Industrie
    The application of IT-supported processes in plant engineering – especially in the areas of engineering, procurement, and construction (EPC) – is steadily increasing. Thus, the data quality in the information management systems becomes more and more important. The information management systems have the following challenges: The amounts of data increase, the integration of the tools is not optimized and due to the system heterogeneous. The quality of the deliverables (documents, parts lists, drawings etc.) is often manually assured, whereas corrective actions and extensions are partly not immediately returned to the sources. Instead of that, they are just carried out in the corresponding document. Data sources are partly redundant and data flows are not uniquely defined and applied. Additionally, the inadequate support of the existing Concurrent Engineering often lead to time- and cost-intensive feedback loops in the design process. The research project should lead to techniques and approaches that contribute to an improvement of data quality. More precisely, in the context of the engineering activities, relevant features of the data quality as well as corresponding measurable quality indicators should be determined. To achieve an enduring optimization of the data quality, based on the above mentioned quality indicators, a system architecture should be developed that makes a control of the data quality possible. Generally, quality-assuring techniques should be established in the engineering process as soon and automated as possible. Besides the specific approaches for the existent situation at the reference enterprise, the research project should provide findings that have relevance beyond that and are transferable to other application areas. After comprehensive analysis at the reference enterprise, a problem classification could be reached that separates three superordinate problem classes: missing engineering-relevant information, data errors, and missing projectstatus-relevant information. Based on that, corresponding requirements for the data quality tool to develop were stated. In addition to the functional requirements, the attention was especially paid to the development of a solution that is neutral regarding the existing information system landscape and adaptable to projects in the future. The goal of the data quality tool to develop was the support of Concurrent Engineering and the long-term improvement of data quality. The prototypically realized data quality tool was finally evaluated at the reference enterprise with representatives of the target group; this confirmed that the intended goals were reached. The prototype was installed on a testing plattform at the reference enterprise at the end of the project to be further refined. In the future, the concepts shall be integrated into the information system landscape of the reference enterprise.

Publikationen


2025

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

2000

1999

1997

1996

1995

1994

1993

Lehre

Ämter

  • Mitglied der Kollegialen Leitung des Departments Informatik
  • Mitglied der Studienkommission im Studiengang Informatik
  • MItglied der Studienkommission im Studiengang IT-Sicherheit
  • Mitglied der Masterzulassungskommission im Studiengang Medizintechnik
  • Mitglied im Prüfungsauschuss des Studiengangs Data Science
  • Stellvertretender Sprecher der Kollegialen Leitung der CDI (Competence Unit for Research Data and Information)
  • Mitglied der Zertifikatskommission Medizinische Informatik