Beunruhigend gute Microsoft-Technologie: Foto und Audio wird zum sprechenden Video

News 22.04.2024 um 09:40 Uhr Jusuf Hatic Als bevorzugte Quelle auf Google hinzufügen

Quelle: Microsoft

Ein Forschungsteam von Microsoft stellt mit VASA-1 eine neue KI vor, die mithilfe eines einfachen Passfotos und einer Audiodatei "ein lebensechtes Video" generiert

OpenAI hat mit Sora den ersten Schritt gemacht, nun zieht Microsoft nach: Wie ein Forschungsteam des Redmonder Unternehmens erklärt, hat man mit VASA-1 ein Modell für lebensechte Avatare entwickelt, welches insbesondere den Vorteil der Echtzeitberechnung auf seiner Seite sieht.

Die Anforderungen für ein solches generiertes Video sind ähnlich genügsam. Hier reicht ein einziges Foto einer Person im Stile eines biometrischen Passbildes sowie eine Tonspur, die beispielsweise von klassischer Text-to-Speech-Software stammen kann. VASA-1 kann hieraus ein "hyperrealistisches Video" erzeugen, welches in der Offline-Verarbeitung bei einer Auflösung von 512 x 512 Pixeln sowie 45 Fps geschieht. Genutzt wurde hierfür eine herkömmliche Nvidia Geforce RTX 4090 - die Latenz soll gerade einmal bei 170 Millisekunden liegen.

Anwender können innerhalb von VASA-1 einzelne Parameter festlegen. So sei etwa die Blickrichtung, Neigungswinkel des Kopfes oder die Stimmhöhe anpassbar. Im Hinblick auf die Animationen selbst hätten sich bisherige KI-Modelle den Forschern zufolge primär auf die lippensynchrone Wiedergabe spezialisiert - VASA-1 hingegen könne zusätzlich dazu auch realistische Kopfbewegungen, Mimik oder weitere Feinheiten "lebensecht" animieren.

Empfohlener redaktioneller Inhalt [EMBED_URL] An dieser Stelle finden Sie externe Inhalte von [PLATTFORM]. Zum Schutz Ihrer persönlichen Daten werden externe Einbindungen erst angezeigt, wenn Sie dies durch Klick auf "Alle externen Inhalte laden" bestätigen: Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit werden personenbezogene Daten an Drittplattformen übermittelt. Mehr dazu in unserer Datenschutzerklärung.

Externe Inhalte Mehr dazu in unserer Datenschutzerklärung.

Komplett einwandfrei sind aber auch diese generierten Videos nicht, zumindest auf den zweiten Blick. So wirken einige der "Kopfzuckungen" unnatürlich; zudem sind innerhalb einzelner Mundbewegungen verformte Zähne zu sehen. Immerhin soll es sich bei VASA-1 ausschließlich um ein Forschungsprojekt zu Demonstrationszwecken handeln, ein Produkt oder API-Release sei nicht vorgesehen. Wie das Forschungsteam beteuert, sei man sich der Möglichkeit des Missbrauchs solcher KI-Modelle bewusst, hebt allerdings auch das "erhebliche positive Potenzial der Technik" hervor.

Quelle: Microsoft

Artikel teilen

Beunruhigend gute Microsoft-Technologie: Foto und Audio wird zum sprechenden Video Ein Forschungsteam von Microsoft stellt mit VASA-1 eine neue KI vor, die mithilfe eines einfachen Passfotos und einer Audiodatei "ein lebensechtes Video" generiert

Per E-Mail versenden

Artikel teilen

Kommentare (8)