„Maxine“ – Bessere Video-Telefonie mit stabilerer Verbindung dank KI

Das US-amerikanische Unternehmen Nvidia hat die Künstliche-Intelligenz-Plattform „Maxine“ entwickelt, mit welcher eine stabilere Videotelefonie mit lediglich einem Zehntel der Bandbreite möglich ist. Schlechte oder unscharfe Bilder während einer Video-Konferenz sollen mit der Plattform in Zukunft der Vergangenheit angehören.

Weshalb wurde „Maxine“ entwickelt?

Laut Aussage des Unternehmens werden täglich rund 30 Millionen Videokonferenzen abgehalten. Seit der immer noch andauernden Corona-Pandemie ist die Video-Telefonie für viele Menschen die einzige Möglichkeit geworden mit Freunden, Familien und Kollegen auch visuell in Kontakt bleiben zu können. Umso ärgerlicher ist es, wenn die Verbindung ständig abbricht oder der Gegenüber nur verpixelt zu erkennen ist. Darüber hinaus ist es bei einem herkömmlichen Video-Telefonat nicht möglich, dass sich beide Teilnehmer direkt in die Augen blicken. Mit der KI-Plattform „Maxine“ will Nvidia allen nun ein besseres Videokommunikationserlebnis ermöglichen, bei welchem es so aussieht, als würden die Nutzer wirklich direkt in die Kamera schauen. Zudem sollen auch Personen, denen lediglich eine geringe Bandbreite zur Verfügung steht, die Möglichkeit bekommen die Videotelefonie zu nutzen. Bisher kommt „Maxine“ ausschließlich bei Avaya zum Einsatz.

Wie funktioniert die KI-Plattform?

An die Stelle der klassischen Video-Codecs, bei denen es sich um Algorithmenpaare handelt, die für die Kodierung und Dekodierung von digitalen Videos verantwortlich sind, tritt eine Kompression mithilfe neuronaler Netze. „Maxine“ sendet keine vollen Bilder, sondern lediglich einen kompakten Datenstrom. Dieser Datenstrom umfasst ausschließlich bestimmte Schlüsselbereiche des Gesichts. Die Schlüsselbereiche befinden sich nahe dem Munde, der Nase und der Augen. Auf dem Gerät des Bildempfängers kommt nun ein sogenanntes Generative Adversarial Network, kurz GAN, zum Einsatz. Hierbei handelt es sich um ein System, dessen Aufgabe es ist, basierend auf einer Reihe von realen Beispieldaten eigene Kreationen zu erstellen. Konkret bedeutet dies, dass nur die wichtigsten Punkte eines Gesichts übertragen werden, der Rest wird dann von der Künstlichen-Intelligenz-Plattform reanimiert. Aus dem ersten Bild und den folgenden Schlüsseldatenpunkten werden weitere Bilder ideal nachgebildet. Um dies umzusetzen, genügt die Rechenleistung des Grafikprozessors des Empfängers.

Welche Vorteile bietet „Maxine“?

Das Unternehmen gibt an, hierfür lediglich ein Zehntel der Bandbreite zu benötigen, die für ein normales Video-Telefonat nötig ist. Die benötigte Bandbreite könnte darüber hinaus in Zukunft noch geringer ausfallen. Steht die gleiche Bandbreite wie bei einer normalen Video-Telefonie zur Verfügung, wirkt das Maxine-Video deutlich schärfer. Die KI-Plattform ist demnach für alle geeignet, die Datenvolumen sparen und darüber hinaus ein besseres Video-Erlebnis haben möchten. „Maxine“ funktioniert selbst dann, wenn der Nutzer beispielsweise eine Mund-Nase-Maske oder Sonnenbrille trägt. Die Blickrichtung sowie die Kopfhaltung werden automatisch auf die Bildmitte ausgerichtet. Der andere Teilnehmer hat demnach immer den Eindruck, dass er direkt angeschaut wird. Wer sich nicht selbst bei der Video-Telefonie zeigen möchte, hat außerdem die Möglichkeit einen Avatar-Kopf mit den eigenen Gesichtszügen zu erstellen.

Vorstellung bei YouTube

Sie sehen gerade einen Platzhalterinhalt von Standard. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Inhalt entsperren Erforderlichen Service akzeptieren und Inhalte entsperren

Mehr Informationen

Bildquelle: nvidia.com