TH Köln

Master Digital Sciences

Dokumente zur Akkreditierung des Studiengangs

Guided Project SS26_10 »Multimodale Generative KI in den Prozessen von Kreativschaffenden«

Informationen zur Organisation des Moduls

Betreuer
Marvin Reuter, Prof. Dr. Matthias Böhmer
Teamgröße
2-9
Sprache
Deutsch
Beginn
Begin April
Angeboten als
GP-GAK (12 ECTS)

Project Image

Problem Description

Das Forschungsprojekt KIMO hat zum Ziel, eine prototypische Softwareplattform zu entwickeln, die Kreativschaffende dabei unterstützt, schneller interaktive und narrative Anwendungen zu gestalten (bspw. Games, IoT-Prototypen, narrative Inhalte). Dazu analysiert die Plattform bestehende Konzept- und Designdokumente, gewinnt daraus relevante Struktur- und Inhaltsinformationen und stellt diese in einem Editor zur weiteren Bearbeitung bereit. Das GP »Multimodale Generative KI in den Prozessen von Kreativschaffenden (KIMO I)« hat das Ziel, erste Bausteine der Pipeline des Projekts zu konzipieren, dafür verschiedene Ansätze und Technologien zu erproben und einen ersten Prototypen zu entwickeln.

Die derzeitigen Interaktionen mit großen Sprachmodellen beschränken sich meist auf Textbefehle. Text reicht jedoch oft nicht aus, um räumliche, visuelle oder kreative Ideen effizient auszudrücken. Kreativschaffende nutzen bspw. verstärkt Skizzen, Storyboards und Wireframes. Aktuelle Forschungsarbeiten wie SketchGPT [1] oder Code Shaping [2] zeigen, dass die Kombination verschiedener Modalitäten eine wesentlich natürlichere Interaktion ermöglicht.

Die Herausforderung bei solchen Systemen: Wie kann ein System realisiert werden, das unstrukturierte Eingaben (z. B. eine Skizze + natürliche Sprache) versteht und sie in präzise, ausführbare Systemaktionen, abstrakte Beschreibungen oder Modelle übersetzt? Dazu muss die Entwicklung über einfache Chatbots hinausgehen hin zu Architekturen, in denen das LLM als Reasoning-Engine fungiert, um Benutzerbefehle abzugleichen, zu interpretieren und auszuführen.

KIMO ist ein Forschungsprojekt, das vom Land NRW über mehrere Jahre gefördert wird. Wir arbeiten mit den externen Partnern ART+COM und the Good Evil zusammen.

[1] Huang, Z., Gao, C., Shan, Y., Hu, H., Li, Q., Deng, X., Ma, C., Lai, Y.-K., Liu, Y.-J., Tian, F., Dai, G., & Wang, H. (2025). SketchGPT: A Sketch-based Multimodal Interface for Application-Agnostic LLM Interaction. Proceedings of the 38th Annual ACM Symposium on User Interface Software and Technology, UIST 25, 118. https://doi.org/10.1145/3746059.3747598

[2] Yen, R., Zhao, J., & Vogel, D. (2025). Code Shaping: Iterative Code Editing with Free-form AI-Interpreted Sketching. Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems, CHI 25, 117. https://doi.org/10.1145/3706598.3713822

Project Definition

Die genaue Definition, das Vorgehen und der Scope des Projekts werden zu Beginn des Projekts vom Studierendenteam festgelegt. Das Kernziel besteht darin, einen funktionsfähigen Prototyp auf Basis einer Multi-Agenten-Architektur zu entwickeln. Die Projektarbeit folgt einem inkrementell-iterativen Ansatz mit diesen Schritten:

  • Stand der Technik: Analyse der Referenzarchitektur und verwandter Methoden.
  • Konzept- und Technologieauswahl: Definition eines neuartigen Anwendungsszenarios und Auswahl des geeigneten Technologie-Stacks.
  • Prototyping: Iterative Implementierung der Pipeline von der Eingabe bis zur Reaktion.

Learning Outcome

Am Ende des Projekts werden die Studierenden in der Lage sein: Multi-Agenten-Systeme aufzubauen: Die Studierenden lernen, Agenten-Frameworks zu entwerfen und zu implementieren, in denen LLMs als zentrale Entscheidungsengines fungieren, um Aufgaben zu koordinieren und die Logik zu steuern. multimodale Schnittstellen zu implementieren. Die Studierenden lernen, wie verschiedene Eingaben synchronisiert und semantisch aufeinander abgestimmt werden können. interdisziplinäre Arbeitsweisen mit Kreativschaffenden aus verschiedenen Branchen (bspw. Games, Design) kennenzulernen

Participation Requirements

  • Bereitschaft, neue Technologien zu erlernen und damit Systeme zu entwickeln
  • Grundlegendes Verständnis in LLM- und KI-Entwicklung
  • Lust auf Experiementelle Arbeitsweisen und forschungsorientierte Projekte

External Partner

ART+COM und the Good Evil als Kooperationspartner des Forschungsprojekts KIMO