Data Intensive Computing befasst sich mit der datenzentrischen Verarbeitung einer Vielzahl von Daten (Datenintensität). Zwei wichtige Eigenschaften charakterisieren daher datenintensives Rechnen. Erstens sind die Daten dominant in der Verarbeitung, d. h. die Interpretation der Daten ist in den Daten und ihrer Struktur verborgen, und die Daten bzw. ihre Struktur bestimmen bis zu einem gewissen Grad die Art ihrer (optimalen) Verarbeitung. Zweitens stößt die intensive Art der Datenverarbeitung ständig und zunehmend an die Grenzen der technischen Systeme und Algorithmen. Dies gilt sowohl für die skalierbare Verarbeitung, Einspeisung und Speicherung der Daten, für den technischen Betrieb (5V of Big Data: Volume, Variety, Velocity, Veracity, Value) als auch für das Management der Daten selbst. Data intensive Computing nutzt Techniken aus anderen Forschungsbereichen und entwickelt diese weiter für die spezifische Anwendung im Data intensive Computing. Dazu gehören insbesondere Methoden der künstlichen Intelligenz und des Hochleistungsrechnens.
Die Forschung innerhalb des Themas konzentriert sich auf:
Forschung und Entwicklung zum Datenmanagement
Forschung und Entwicklung zum Datenmanagement
generisch (u. a. FAIR-Prinzipien, Forschungsdatenmanagement, Metadaten, Repositorien, föderierte AAI, Kompression) und anwendungsorientiert (insbesondere bei der Klima- und Materialforschung sowie der Teilchenphysik in Verbindung mit den entsprechenden KIT-Zentren Klima und Umwelt, Materialien, Elementar- und Astroteilchen)
Forschung und Entwicklung von systemnahen Algorithmen, Methoden und Werkzeugen für das Daten-intensive Computing
wie z.B. Algorithmen zur opportunistischen Ressourcennutzung, dynamische Integration von großen Cloud-Ressourcen, Job/Daten-Scheduling.
Forschung und Entwicklung zur Datenanalytik
wie z. B. High Performance Data Analytics, moderne Hardware-Architekturen (Quanten- und Neuro-Computing) für KI/ML, verteilte Datenanalyse, Anytime-Computing).
Forschung zu und Unterstützung von Computational and Data enabled Science and Engineering
z. B. die Simulation und Data Labs im Helmholtz-Programm "Engineering Digital Futures" und das NHR (Nationales Hochleistungsrechnen).
Betrieb und Weiterentwicklung von Forschungsgroßgeräten zum Daten-Intensiven Computing
z.B. High Performance Computing (HPC) / Supercomputer wie HoreKa, Daten- und Analysezentren wie GridKa
Entwicklung und Anwendung von KI / ML-Methoden für extrem große Datensätze
Dies adressiert insbesondere Deep-Learning-Methoden (z.B. 3D/3D+t-Bilder und Videos) zusammen mit dem KCIST-Feld KI und schließt parallele und verteilte Trainingsalgorithmen ein
Entwicklung grundlegender Algorithmen und Datenstrukturen zur Verarbeitung großer Datenmengen
(z. B. Sortierung, Indexdatenstrukturen, Graphenalgorithmen)
Algorithmen, Verfahren und Software für die Extraktion von Wissen aus Daten
und allgemein datengetriebene Algorithmen, Systeme und Methoden.
Verfahren für die hochverteilte Erhebung, Zwischenspeicherung und Übertragung von Sensordaten
insbesondere Systeme und Verfahren zur Verteilung und Verarbeitung von Streaming-Daten.