Guided Project SS26_10 »Multimodale Generative KI in den Prozessen von Kreativschaffenden«
Organizational Details
- Supervisor(s)
- Marvin Reuter, Prof. Dr. Matthias Böhmer
- Team size
- 2-9
- Language
- Deutsch
- Start
- Begin April
- Offered as
- GP-GAK (12 ECTS)

Das Forschungsprojekt KIMO hat zum Ziel, eine prototypische Softwareplattform zu entwickeln, die Kreativschaffende dabei unterstützt, schneller interaktive und narrative Anwendungen zu gestalten (bspw. Games, IoT-Prototypen, narrative Inhalte). Dazu analysiert die Plattform bestehende Konzept- und Designdokumente, gewinnt daraus relevante Struktur- und Inhaltsinformationen und stellt diese in einem Editor zur weiteren Bearbeitung bereit. Das GP »Multimodale Generative KI in den Prozessen von Kreativschaffenden (KIMO I)« hat das Ziel, erste Bausteine der Pipeline des Projekts zu konzipieren, dafür verschiedene Ansätze und Technologien zu erproben und einen ersten Prototypen zu entwickeln.
Die derzeitigen Interaktionen mit großen Sprachmodellen beschränken sich meist auf Textbefehle. Text reicht jedoch oft nicht aus, um räumliche, visuelle oder kreative Ideen effizient auszudrücken. Kreativschaffende nutzen bspw. verstärkt Skizzen, Storyboards und Wireframes. Aktuelle Forschungsarbeiten wie SketchGPT [1] oder Code Shaping [2] zeigen, dass die Kombination verschiedener Modalitäten eine wesentlich natürlichere Interaktion ermöglicht.
Die Herausforderung bei solchen Systemen: Wie kann ein System realisiert werden, das unstrukturierte Eingaben (z. B. eine Skizze + natürliche Sprache) versteht und sie in präzise, ausführbare Systemaktionen, abstrakte Beschreibungen oder Modelle übersetzt? Dazu muss die Entwicklung über einfache Chatbots hinausgehen hin zu Architekturen, in denen das LLM als Reasoning-Engine fungiert, um Benutzerbefehle abzugleichen, zu interpretieren und auszuführen.
KIMO ist ein Forschungsprojekt, das vom Land NRW über mehrere Jahre gefördert wird. Wir arbeiten mit den externen Partnern ART+COM und the Good Evil zusammen.
[1] Huang, Z., Gao, C., Shan, Y., Hu, H., Li, Q., Deng, X., Ma, C., Lai, Y.-K., Liu, Y.-J., Tian, F., Dai, G., & Wang, H. (2025). SketchGPT: A Sketch-based Multimodal Interface for Application-Agnostic LLM Interaction. Proceedings of the 38th Annual ACM Symposium on User Interface Software and Technology, UIST 25, 118. https://doi.org/10.1145/3746059.3747598
[2] Yen, R., Zhao, J., & Vogel, D. (2025). Code Shaping: Iterative Code Editing with Free-form AI-Interpreted Sketching. Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems, CHI 25, 117. https://doi.org/10.1145/3706598.3713822
Die genaue Definition, das Vorgehen und der Scope des Projekts werden zu Beginn des Projekts vom Studierendenteam festgelegt. Das Kernziel besteht darin, einen funktionsfähigen Prototyp auf Basis einer Multi-Agenten-Architektur zu entwickeln. Die Projektarbeit folgt einem inkrementell-iterativen Ansatz mit diesen Schritten:
Am Ende des Projekts werden die Studierenden in der Lage sein: Multi-Agenten-Systeme aufzubauen: Die Studierenden lernen, Agenten-Frameworks zu entwerfen und zu implementieren, in denen LLMs als zentrale Entscheidungsengines fungieren, um Aufgaben zu koordinieren und die Logik zu steuern. multimodale Schnittstellen zu implementieren. Die Studierenden lernen, wie verschiedene Eingaben synchronisiert und semantisch aufeinander abgestimmt werden können. interdisziplinäre Arbeitsweisen mit Kreativschaffenden aus verschiedenen Branchen (bspw. Games, Design) kennenzulernen
ART+COM und the Good Evil als Kooperationspartner des Forschungsprojekts KIMO