Auf Augenhöhe mit der KI

Die menschliche Wahrnehmung ist komplex und der Schlüssel zu unserem Umgang mit der Welt. Bei den damit verbundenen kognitiven Prozessen spielen sprachliche Vorgänge eine enorm wichtige Rolle – ein Aspekt, den sich KI-Systeme wie IBM Watson bereits sehr erfolgreich zunutze machen. Doch unsere Umgebung besteht nicht nur aus Sprache. Aus diesem Grund bringt das MIT-IBM Watson AI Lab dem System nun das Sehen bei.
Es ist eine einzigartige Erfolgsgeschichte: Die künstliche Intelligenz von IBM, die nach einem der ersten Präsidenten des Unternehmens benannt wurde, ist aus aktuellen Digitalisierungsprojekten längst nicht mehr wegzudenken. Von der interaktiven Kundenbetreuung bis hin zum Einsatz als buchstäblicher Dr. Watson im Gesundheitsmanagement ist die KI mittlerweile überall dort im Einsatz, wo lernfähige Systeme gefragt sind, die den Umgang mit großen Datenmengen im Dialog mit dem menschlichen Nutzer so anwenderfreundlich wie möglich gestalten. Schon vor Jahren schaffte es das Programm, ganz eigenständig gegen menschliche Konkurrenten im TV-Quiz Jeopardy zu gewinnen. Lernfähig ist Watson bisher vor allem durch seinen textbasierten Ansatz; das System operiert mit natürlicher Sprache und erschließt sich so die Aspekte der Welt, in der der jeweilige Kunde gerade unterwegs ist. Das macht es so bequem, etwa mit Watson-basierten Chatbots zu interagieren: Sie sprechen unsere Sprache. Aber an der Schnittstelle zum digitalen Gesprächspartner gibt es bisher ein großes Defizit. Denn das Computerprogramm ist weitgehend blind für die Erfahrung dynamischer visueller Ereignisse.
Sehen und verstehen
Das unterscheidet Watson grundlegend von seinen menschlichen Nutzern. „Während wir aufwachsen, blicken wir uns um, sehen Menschen und Objekte in Bewegung, hören Geräusche, die Menschen und Objekte verursachen. Ein KI-System sollte auf dieselbe Art lernen. Dafür muss es mit Videos und dynamischen Informationen gefüttert werden“, fasst Aude Oliva gegenüber der Software Development Times die Problematik zusammen. Oliva gehört zu den Initiatoren eines neuen Forschungsprojekts am MIT, das sich genau diesem Aspekt der Lernerweiterung für künstliche Intelligenz widmet. Zwar erkennt Watson bereits Bilder, um aber Ereignisse in Bewegung zu erfassen und aus deren Beobachtung Rückschlüsse zu ziehen – also zu lernen –, sind neue Algorithmen nötig. Die Basis dafür liefert das MIT-IBM Watson AI Lab nun mit dem „Moments in Time Dataset“, einer strukturierten Sammlung von dreisekündigen Videos, welche Menschen, Tiere und Objekte in Aktion zeigen. „Mit diesem Dataset wird die Entwicklung neuer KI-Modelle möglich, welche sich der Komplexität und den abstrakten Abwägungen annähern, die ein Mensch jeden Tag vollzieht“, erklärt Oliva weiter.
Das Set, das den Grundstein für eine exemplarische dynamische Abbildung der Welt liefern soll, umfasst derzeit eine Million dieser Kurzvideos und ist damit die größte Sammlung, die jemals für einen solchen Zweck erstellt wurde. Die Auswahl stellte die Forscher vor eine ganze Reihe von Herausforderungen; so ging es neben der Festlegung distinktiver Aktionskategorien auch darum, adäquate Quellen zu finden und die gesammelten Filme so zu konfigurieren, dass ein KI-Programm möglichst unvoreingenommen daraus lernen kann. Das vorliegende Ergebnis ist beeindruckend und dennoch nur ein erster Schritt auf dem Weg zur visuell lernfähigen Künstlichen Intelligenz. Darauf aufbauend wird es in Zukunft darum gehen, Algorithmen zu erfinden, die Analogien herstellen, unvorhergesehene Handlungen und Aktionen antizipieren und bestimmte Szenarien interpretieren können – also die Dynamik in einer möglichst großen Vielzahl von Videos erkennbar und verwertbar machen.
Unter vier Augen
Ein doppelt visionärer Ansatz, der auch den täglichen Gebrauch von Watson und ähnlichen Systemen im Kundendialog revolutionieren könnte. Denn so „intuitiv“ Watson bisher auch auf natürliche Sprache reagiert, so eingeschränkt ist die KI doch, wenn es darum geht, alle Aspekte menschlicher Interaktion zu berücksichtigen. Doch schon bald könnte es mithilfe dieser neuen Algorithmen möglich sein, eine Künstliche Intelligenz fit zu machen für das, was sie vor sich sieht. Der Austausch mit dem Kunden könnte dann neben den bisher gängigen Schnittstellen beispielsweise auch über eine Skype-Cam erfolgen; die KI hätte dann die Möglichkeit, neben den eingegebenen Informationen auch Mimik, Körperhaltung und ähnliche visuelle Aspekte ihres Gegenübers aufzunehmen und in Echtzeit zu interpretieren. Und das wäre dann tatsächlich fast schon ein Dialog auf Augenhöhe.
Autor: Redaktion Zukunft. Kunde.
Bild: © lassedesignen – AdobeStock