Das große KI-Missverständnis

Einige Gedanken zu meiner nächsten Unternehmung

Das große KI-Missverständnis
Generiert mit Ideogram und Magnific

Überraschend gelassen und kompetent geht die journalistische Branche mit dem Wandel durch Generative AI (GAI) und große Sprachmodelle (LLM) um. Zumindest ist das mein Eindruck, was den Einsatz für das eigene Metier angeht. Mir wurde das klar, als ich zusammen mit Christina Elmer an der Herausgabe des „Handbuch Daten und KI im Journalismus“ arbeitete, das diesen August erscheinen wird. Die Gelassenheit hat einen speziellen Grund, meine ich: Im Journalismus wird nunmehr seit zahlreichen Jahren an der Schnittstelle von Digitaltechnologie mit Schrift/Sprache gearbeitet. Letzteres ist ureigene Domäne des Journalismus. Durch Datenjournalismus sowie den damit verwandten Automatisierungsbemühungen in der Nachrichtenproduktion hat sich eine spezialisierte Profession von Schrifttechnolog:innen ausgeprägt. (Dazu lesenswert Generative AI in the newsroom und hörenswert Newsroom Robots).

Das war mir vor gut zwölf Monaten noch nicht so klar, als ich eine Art Erweckungserlebnis hatte. Mir fällt kein besserer Begriff ein. Drei Tage lang war ich etwas benommen. Denn was mir dämmerte, war, dass die großen Sprachmodelle fundamentale Veränderungen im digitalen Sektor bedeuten würden. Eigentlich war ich gerade auf dem Absprung. Nach 15 Jahren professioneller und aktivistischer Umtriebigkeit mit Internet, Daten und Software war ich gelangweilt. Jede Website sah gleich aus, jedes Gerät auch; die entsprechenden Diskurse befanden sich in Dauerschleife, das emanzipatorische und progressive Potenzial des Netzes vergammelte in kargen Nischen. 

Doch es packte mich wieder. Mit LLM kommt eine Technologie daher, bei der sich mittels des Gehalts und Kontexts von Schrift programmieren lässt. Texte sind nun semantische Datensätze. Nur funktionieren hier keine mathematischen Formeln, sondern die Logik von Sprachmechanik inklusive ihrer möglichen Vieldeutigkeit. Ja, basierend auf Statistik und Wahrscheinlichkeitsrechnung. Und nein, damit ist weder eine gottgleiche AI im Anflug noch das Erreichen der Singularität. Das halte ich für Unfug. Und ich bin auch kein uneingeschränkter Technikoptimist: Auch die Sorge um die gesellschaftlichen Folgen von Automatisierung durch Software ließ mich 2016 die NGO AlgorithmWatch mitgründen.

Mich fasziniert an den LLM, dass sie Multi-Funktionstools für den Umgang mit Schriftgehalt sind. Gepaart mit multimodalen Funktionen (Text, Audio, Bild, Video In-/Output) sind Interfaces und Automatisierungen machbar, die vorher unmöglich oder unbezahlbar waren. Im Bildungsbereich (Journalismus gehört für mich letztlich dazu), in dem ich mich in Teilbereichen auskenne, sehe ich ein enormes Potenzial.

Freilich steht ein großes Missverständnis im Raum. Zwar war es ein bedeutender Schritt, dass OpenAI mit ChatGPT vor gut 18 Monaten einer breiten Masse verständlich machte, was „AI“ für jede:n einzelne:n im Alltag bedeuten könnte. Zentral dafür war das Chat-Interface, das quasi jede:r durch WhatsApp & Co kennt und somit für sie/ihn KI bedienbar wurde. Hierin lag gleichzeitig die Krux: Die Tech-Demo Chatbot wird von vielen Unkundigen gleichgesetzt mit der Technologie an sich. Und das Bohei um diese Tech-Demo führt zu dem Trugschluss, dass es sinnvoll sei, in jede bestehende Softwareanwendung ein Chat-Interface reinzukloppen. 

Tech-Analyst Ben Evans stellte unlängst in seinem Essay „Looking for AI use-cases“  fest, dass auch nach anderthalb Jahren ChatGPT die wirklich überzeugenden Anwendungen von GAI/LLM noch fehlen würden (außer, so Evans, vielleicht in der Programmier-Assistenz). Nun, es geschieht einiges; so wird viel an der Arbeit für die Infrastruktur und an Prozessen von sinnvollen AI-Anwendungen gewerkelt und es gibt spannende Entwicklungen etwa im medizinischen Sektor, in der Materialforschung sowie der Bearbeitung und Kreation digitaler Inhalte. 

Doch tatsächlich fehlt die KI-Killer-Anwendung noch. Evans erinnert daran, wie bahnbrechend das Konzept der Tabellenkalkulation war und 1979 die Anschaffung eines damals noch enorm teuren PCs rechtfertigte. Lustigerweise kann bislang kein LLM mit Formeln für Excel, Google Spreadsheets & Co umgehen.

Meine These, warum es bislang an wirklich überzeugenden LLM-Anwendungen mangelt, lautet: Während für Datenjournalist:innen & Co eine Technologie der Datafizierung von Semantik nur konsequent ist, bedeutet eine Automatisierung mittels Semantik ein Paradigmenwechsel, der quer zu den gängigen Skills und Berufszuschnitten vieler Sektoren liegt. Oder anders gesagt: Es mangelt an Leuten, die gelernt haben, komplexere Gedanken und Sachverhalte aufzuschreiben, also mit Sprache zu arbeiten, und gleichzeitig ein fundiertes Verständnis von Softwareproduktion haben. Deswegen denken sich dann IT-Ingenieure Begriffe wie „Prompt Engineering“ aus. Obwohl sie nichts anderes meinen als sich sprachlich exakt auszudrücken, wenn man LLM instruiert.

Das neue Paradigma der LLM-Technologie erfordert neue Herangehens- und Denkweisen für das UX, das Nutzungserlebnis bei Software. Ethan Mollicks Newsletter „One Useful Thing“ finde ich dazu generell inspirierend. Etwa empfiehlt er die Technologie im Einsatz wie eine Person zu behandeln. Das benötigte Um-die-Ecke-denken wird auch in einem Forschungspapier von Apple-Mitarbeitenden zu einem spezialisierten LLM deutlich. Dieses kann nachvollziehen, was ein User auf dem Touch Interface anstellt. Klingt erst einmal trivial: Apple sollte das doch eigentlich per Betriebssystem „sehen“ können, was der User auf dem Screen tut. Tut es, nur hat es keine Idee davon, was inhaltlich vorgeht. Per LLM geht das, weil es via Beschreibung der Bildschirmdarstellung, dem „Sehen“ von Icons, Bildern und Schrift den Kontext interpretieren kann. Dadurch entsteht eine ganze Bandbreite an Möglichkeiten – nicht zuletzt auch die automatische Bedienung einer vorher nie verwendeten App.

Das alles bedeutet auch neue Auseinandersetzungen. Sprachräume sind immer auch Ideologieräume, in denen Nuancen über Wesentlichkeiten mitentscheiden und Manipulation stattfinden können. Es entsteht ein neuer Layer an privatwirtschaftlichen und staatlichen Gatekeepern, denen wir die Beschreibung von Geschichte und Gegenwart nicht überlassen dürfen. 

So hat mein eingangs erwähntes „Erweckungserlebnis“ zu meiner Entscheidung geführt, noch einmal in die Softwareproduktion einzusteigen. Weil mich die neuen Möglichkeiten kicken. Aber auch weil ich die Notwendigkeit sehe, dass hier Lösungen und Dienste entstehen, die nachvollziehbar und gemeinwohlorientiert operieren. Bei meinem Vorhaben wird es um Wissenstransfer gehen. Lässt sich doch per LLM-Technologie geduldig zuhören, zuschauen und lassen sich Fragen stellen. Mehr dazu demnächst hier im Newsletter oder im Gespräch.