Current Funded Projects

A Common Storage Engine for Modern Memory and Storage Hierarchies (SMASH)

Data is becoming increasingly important in science, and this is causing problems with how research is done. Since data is so important, more and more research is being done that requires a lot of data to be processed. This means that traditional systems used to manage data (like file systems and database management systems) are having a hard time keeping up with the flood of data. One problem is that traditional systems rely on different types of memory (primary, secondary, and tertiary) which can have very different performance characteristics. This makes it difficult to take advantage of the unique features of each type of memory. There are also some new technologies that can help with managing data, but they are still having a hard time dealing with the sheer amount of data that is being produced. Therefore, in order to investigating the benefits of a common storage engine that manages a heterogeneous storage landscape, including traditional storage devices and non-volatile memory technologies, SMASH is created. SMASH is part of DFG Priority Program 2377 and is a joint initiative by the DBSE and ParCIO groups at Otto-von-Guericke-Universitat. The core objective of the project is investigating the benefits of a common storage engine that manages a heterogeneous storage landscape, including traditional storage devices and non-volatile memory technologies. It aims to provide a prototypical standalone software library to be used by third-party projects. High-performance computing workflows will be supported through an integration of SMASH into the existing JULEA storage framework. Database systems will be able to use the interface of SMASH directly whenever data is stored or accessed.

Leader:	Prof. Dr. Gunter Saake,Jun.-Prof. Dr. Michael Kuhn,Dr.-Ing. David Broneske
Members:	Sajad Karim,Johannes Wünsche
Keywords:	Non-Volatile Memory, Intel® Optane™ DC Persistent Memory Module, B^ε-Tree, Write-Optimized Storage Engine
Type:	Drittmittelprojekt
Funded by:	DFG Priority Program 2377
Funded:	October 2022 bis October 2025
Website:	SMASH

Optimizing graph databases focussing on data processing and integration of machine learning for large clinical and biological datasets

Graph databases represent an efficient technique for storing and accessing highly interlinked data using a graph structure, such as connections between measurements and environmental parameters or clinical patient data. Its flexible node structure makes it easy to add the results of different examinations covering simple blood pressure measurements, the latest CT and MRT scans, or high-resolution omics analyses (e.g., from tumor biopsies, gut microbiome samples). However, the full potential of data processing and analyses using graph databases is not yet exploited completely in biological and clinical use cases. Especially the huge amount of interconnected data to be loaded, processed, and analyzed results in too long processing times to be integrated into clinical workflows. To this end, novel graph-operator optimizations, as well as a suitable integration of analysis approaches, are necessary.This proposal aims to solve the aforementioned problems in two directions: (i) proposing suitable optimizations for graph database operations, also incorporating the usage of modern hardware, and (ii) the integration of machine learning algorithms for an easier and faster analysis of the biological data. For the first direction, we investigate the state of the art in graph database systems and their storage as well as their processing model. Subsequently, we propose optimizations for efficient graph maintenance and analytical operators. For the second direction, we envision to bring machine learning algorithms closer to their data providers – the graph databases. To this end, as a first step, we feed machine learning algorithms directly with the graph as input by designing suitable graph operators. As a second step, we integrate machine learning directly into the graph database by adding special nodes to represent the model of the machine learning algorithm.The results of our project are improved operators exploiting modern hardware as well as integration concepts for machine learning algorithms. Our generally devised approaches will push operating and analyzing huge graphs in a plethora of use cases beyond our aimed use case of biological and clinical data analysis.

Leader:	Prof. Dr. Gunter Saake, Jun.-Prof. Robert Heyer
Members:	Daniel Walke
Keywords:	Keywords
Type:	Drittmittelprojekt
Funded by:	Land Sachsen-Anhalt
Funded:	December 2021 bis November 2024

AdaptiveAdaptive Data Management in Evolving Heterogeneous Hardware/Software Systems (ADAMANT-II)

Our aim is to develop new processing concepts for exploiting the special characteristics of hardware accelerators in heterogeneous system architectures for classical and non-classical database systems. On the system management level, we want to research alternative query modeling concepts and mapping approaches that are better suited to capture the extended feature sets of heterogeneous hardware/software systems. On the hardware level, we will work on how processing engines for non-classical database systems can benefit from heterogeneous hardware and in which way processing engines mapped across device boundaries may provide benefits for query optimization. Our working hypothesis is that standard query mapping approaches with their consideration of queries on the level of individual operators is not sufficient to explore the extended processing features of heterogeneous system architectures. In the same way, implementing a complete operator on an individual device does not seem to be optimal to exploit heterogeneous systems. We base these claims on our results from the first project phase where we developed the ADAMANT architecture allowing a plug & play integration of heterogeneous hardware accelerators. We will extend ADAMANT by the proposed processing approaches in the second project phase and focus on how to utilize the extended feature sets of heterogeneous systems rather than how to set such systems up.

Bala anna

Leader:	Prof. Dr. Gunter Saake
Members:	Bala Gurumurthy,
Keywords:	heterogeneous hardware, FPGA, Adaptive systems
Type:	Drittmittelprojekt
Funded by:	Deutsche Forschungsgemeinschaft (DFG, SPP 2037)
Funded:	January 2021 bis December 2023

Digitales Programmieren im Team - Adaptive Unterstützung für kollaboratives Lernen

Das kollaborative Programmieren ist Kernbestandteil des beruflichen Alltags in der Informatik. Diese auf einer technischen und sozialen Ebene komplexen Vorgänge werden im Informatikstudium oftmals abstrakt behandelt und spielen in Fachkonzepten zum Programmierenlernen eine untergeordnete Rolle. Im Rahmen von Gruppenarbeiten müssen sich die Lernenden organisieren, koordinieren und ihre Lernprozesse regulieren. Um das Potential kollaborativer Lernformen für das Erlernen von Programmiersprachen und die Förderung sozialer Kompetenzen ausschöpfen zu können, müssen die Lernenden bei Bedarf didaktische Unterstützung erhalten, sowohl vor dem als auch während des Lernprozesses. Im Teilprojekt DiP-iT-OVGU werden wir unterstützt durch die Projektpartner auf der Basis empirischer Studien ein digitales Fachkonzept zum kollaborativen Programmierenlernen entwickeln und evaluieren, welches diesbezügliche (medien-)didaktische Ansätze enthält. Dabei zielen wir auf die Ermöglichung des Transfers an andere Hochschulen. Auf informationstechnischer Ebene wird hierfür ein Prozessmodell entwickelt, das die Nachnutzbarkeit von Forschungsdaten und die Übertragbarkeit von Datenmodellen (z.B. zur adaptiven didaktischen Unterstützung) in andere Lehrveranstaltungen bzw. Lehr-Lernsysteme ermöglicht. Das Teilprojekt ordnet sich in das Ge samtprojekt mit folgenden Zielstellungen ein:

Analyse und Systematisierung von Einstellungen und Vorerfahrungen bei den Akteuren,
Entwicklung konzeptioneller, mediendidaktischer Kriterien für die Einbindung kollaborativen Programmierenlernens in Lehrveranstaltungen,
Entwicklung geeigneter Lehr-Lern-Szenarien und Erstellung eines diesbezüglichen digitalen Fachkonzepts,
empirische Fundierung durch formative und summative Evaluation,
Untersuchung der Effektivität von Formen der instruktionalen Anleitung angelehnt an die Bedarfe der Lernenden,
Unterstützung des Transfers der Erkenntnisse, inhaltlich und technisch.

Leader:	Prof. Dr. Gunter Saake
Members:	Victor Obionwu
Keywords:	Teaching Programming
Type:	Drittmittelprojekt
Funded by:	Bund
Funded:	März 2020 bis August 2023

COOPeR: Cross-device OLTP/OLAP PRocessing

Today's database systems face two challenges. On the one hand, database systems must combine on-line transaction processing (OLTP) and on-line analytic processing (OLAP) to enable real-time analysis of business processes. Real-time analysis of business processes is necessary to improve the quality of generated reports. It is a competitive advantage to use fresh-data rather than historical data for these reports as in traditional OLAP systems. On the other hand, computer systems are increasingly heterogeneous and provide broader hardware promising higher performance. This trend leads to an architecture shift from single-core CPUs database systems to multi-core CPUs with co-processors support. Database systems must take account of both trends in order to improve the report quality, and transaction performance to ensure that database systems meet future requirements (e.g., more complex queries or increased data volumes). Unfortunately, current research focus only on either combining OLTP and OLAP or on co-processor utilization. Therefore, there is no holistic approach for the challenge of merging these research branches. In this project, we address the challenges of database systems that process combined OLTP / OLAP workloads on heterogeneous CPU / co-processor compute platforms. The main challenge is to ensure the ACID properties for OLTP and combined OLTP / OLAP workloads in heterogeneous systems while providing for efficient processing of the combined workloads.

Leader:	Prof. Dr. Gunter Saake
Members:	Marcus Pinnecke
Keywords:	Hybrid Workload Management, Heterogenous Database Systems
Type:	Drittmittelprojekt
Funded by:	Deutsche Forschungsgemeinschaft (DFG)
Funded:	September 2016 bis August 2019

EXtracting Product Lines from vAriaNTs (EXPLANT II)

Eine Software-Produktlinie (SPL) ermöglicht die systematische Verwaltung einer Menge von wiederverwendbaren Softwareartefakten und damit die effiziente Generierung verschiedener Varianten einer Software. In der Praxis erstellen Entwickler jedoch häufig Softwarevarianten ad-hoc, indem sie Softwareartefakte kopieren und an neue Anforderungen anpassen (Clone-and-Own). Die hierbei fehlende Systematik und Automatisierung macht die Wartung und Weiterentwicklung der Varianten oft zeitaufwendig
und fehleranfällig. Wir schlagen daher eine schrittweise Migration von geklonten Softwarevarianten in eine kompositionale (d.h. modular aufgebaute) SPL vor.
In der ersten Projektphase konnten wir bereits beachtliche Ergebnisse bei der Varianten-erhaltenden Transformation und den entsprechenden Analysen auf Modell- und Codeebene erzielen. In der zweiten Phase wollen wir nun auf den daraus gewonnenen Erkenntnisse aufbauen. Dies sind im Besonderen: (1) Eine nur auf Code-Klon Detektion basierende automatisierte Migration erzeugt keine kohärenten Softwareartefakte mit einer bestimmten Funktionalität. (2) Einige potentielle Kooperationspartner hatten Bedenken ihre Systeme zu migrieren, da sie die Einführung neuer Fehler befürchten. (3) Annotative SPL scheinen weniger fehleranfällig und somit robuster gegenüber Änderungen zu sein,
als bisher angenommen. Aufgrund der Probleme mit industriellen Partnern (2) kamen wir zu dem Schluss, dass weitere Forschungen, insbesondere zur Qualitätssicherung
von migrierten SPL, Überführungskosten und Eigenschaften von Softwareartefakten notwendig sind. Wir wollen daher untersuchen, welche Kostenfaktoren bei der Überführung und beim Einsatz von SPL eine Rolle spielen und wie stark deren Einfluss jeweils ist. Weiterhin planen wir Qualitätsmetriken für migrierte SPL aufzuzeigen. In der ersten Projektphase haben wir bereits einen teil-automatisierten Migrationsprozess vorgeschlagen (1), welchen wir nun weiter ausbauen und neue Analysen integrieren wollen. Dabei wollen wir vor Allem untersuchen, ob sich nützliche Informationen, insbesondere über die Intention der Entwickler, aus weiteren Quellen, als dem Code beziehen lassen. Vielversprechende Ansätze sind hier die Analyse von Versionsverwaltungssystemen und die Analyse von existierenden Verhaltens- und Architektur-Modellen eines Systems. Des Weiteren haben wir vor, zur Steigerung des Automatisierungsgrads weitere Refactorings, wie z.B. "Move Method" einzusetzen. Um die Struktur und damit auch die Wartbarkeit der resultierenden Modularisierung zu verbessern, planen wir außerdem unseren Migrationsprozess auf Multi-Software-Produktlinien zu erweitern. Dadurch ließen sich einzelne Funktionalitäten eines Systems besser auftrennen. Ebenfalls wollen wir untersuchen, welche Granularität für migrierte Softwareartefakte am besten geeignet ist und ob annotative
Verfahren (3) für migrierte SPL Vorteile gegenüber kompositionalen Verfahren bringen können.

Website:	Project-Website
Leader:	Gunter Saake, Thomas Leich
Type:	Drittmittelprojekt
Funded by:	DFG
Funded:	01.09.2019 - 31.08.2021
Members:	Jacob Krüger
Keywords:	Software product lines, clone-and-own, migration, product variants, code clones, refactoring

MetaProteomeAnalyzer Service (MetaProtServ)

Die Metaproteomik zielt auf die Erforschung zellulärer Funktionen komlexer Lebensgemeinschaften und ergänzt die Metagenomik and Metatranscriptomik als häufig eingesetzte Werkzeuge in der mikrobiellen Ökologie (z.B. humanes Darm-Mikrobiome, Biogasanlagen). Bioinformatische Werkzeuge, die für die Proteomik von Reinkulturen entwickelt wurden, können nicht zufriedenstellend Ergebnis benutzt werden. So führen Datenbanksuchen für die Proteinidentifizierung mit Metagenomsequenzen zu einer hohen Zahl redundanten Hits in den Suchergebnissen in Bezug auf Taxonomy und Funktion identifizierten Proteine. Für eine bessere Auswertung von Metaproteomdaten wurde deshalb MetaProteomAnalyzer (MPA) Software entwickelt. Im Rahmen von MetaProtServ soll das benutzerfreundliche Programm mit einer graphischen Oberfläche als Webservice verfügbar gemacht werden, um mehr Wissenschaftler von den Vorteilen der Metaproteomik zu überzeugen. Gezieltes Training von Anwendern und ein individueller Support sollen die Zugänglichkeit dieser Software in der wissenschaftlichen Gemeinschaft erleichtern. Die Funktionalität und die Wartungsfreundlichkeit werden für den zukünftigen Webservice sowie für eine eigenständige Version parallel basierend auf einem gemeinsamen Code und einer gemeinsamen Struktur weiterentwickelt. Die Software wird beispielsweise um Schnittstellen für den Import und Export von Metaproteomdaten (mzIdentML) erweitert. Der Webservice wird zukünftig vom de.NBI-Zentrum Bielefeld-Gießen (Center for Microbial Bioinformatics) gehostet, mit dem das de.NBI-Partnerprojekt MetaProtServ assoziiert ist.

Website:	Project-Website
Leader:	Gunter Saake, Dirk Benndorf
Type:	Drittmittelprojekt
Funded by:	Bund
Funded:	01.12.2016 bis 31.10.2021
Members:	Robert Heyer,Kay Schallert,
Keywords:	Bioinformatik, Metaproteomik, Proteinanalyse, Webservices, de.NBI