Kameras

Wie KI deine alten Familienfotos animiert – und wohin Deepfakes als nächstes gehen

Ein Beispiel für eine Deep Nostalgia-Fotoanimation

(Bildnachweis: MyHeritage)

Das letzte Jahr hat eine Reihe von Momenten im Stil von Black Mirror hervorgebracht, aber einer der denkwürdigsten war die Einführung eines KI-Tools, das unsere alten Familienfotos mit verstörendem Realismus animieren konnte.

'Deep Nostalgia' genannt, landete es Ende Februar und bezauberte die sozialen Medien mit seiner Fähigkeit, alle Arten von Gesichtern schnell und überzeugend zu animieren: entfernte Verwandte, Statuen, Tätowierungen und natürlich das Poster für Der Albtraum in der Elm Street .



Wie so ziemlich alles teilte die Technik im Internet. Einige fanden, dass es ein herzerwärmender Cheat-Code war, um alte Beziehungen zu „treffen“, die sie noch nie getroffen hatten. Andere fühlten, dass es an Nekromantie grenzte. Die meisten von uns befanden sich wahrscheinlich irgendwo dazwischen in einem Konfliktbereich. Aber die große Neuigkeit für die Fotografie ist, dass sie jetzt existiert – und zwar in einer Form, die enormes Mainstream-Potenzial hat.

(Bildnachweis: MyHeritage)

Aber wie genau reanimieren KI und maschinelles Lernen Ihre alten Familienfotos? Und wohin führt das alles? 'Deep Nostalgia' stammt von der Genealogie-Firma MyHeritage, hat die Technologie jedoch tatsächlich von der israelischen Firma D-ID (kurz für 'De-Identification') lizenziert.

das büro komplette serie schwarzer freitag
  • Cyber ​​Monday-Angebote: Sehen Sie sich jetzt die besten Angebote an!

Wir führten ein faszinierendes Gespräch mit Gil Perry, Mitbegründer und CEO von D-ID, um die Antworten auf diese Fragen herauszufinden – und warum er glaubt, dass die meisten visuellen Medien im Internet in den nächsten zehn Jahren „synthetische“ sein werden...

Horrorfilme

Die „Live Portrait“-Technologie von D-ID mag neu sein, ihre Grundlagen jedoch nicht. Gesichtsreanimation basierend auf maschinellem Lernen wurde vorgeführt schon 1997 , während im Jahr 2016 die Face2Face-Programm hat uns 'Deep Nostalgia' Schüttelfrost beschert, indem sie George Bush und Wladimir Putin in digitale Echtzeit-Marionetten verwandelt haben.

Aber in den letzten Jahren hat die Technologie einen entscheidenden Sprung gemacht – von den leicht beruhigenden Beschränkungen der universitären Forschungsarbeiten auf unsere Smartphones. Mit kostenlosen Diensten wie Deep Nostalgia und Avatarify, die überzeugende Videos aus einem einzigen Standfoto erstellen können, wurde die neu animierte Box von Pandora aufgerissen.

Seit einiger Zeit ist es für Computer relativ einfach, eine neue Person in Fotoform zu erfinden – wenn Sie es noch nicht gesehen haben, entschuldigen wir uns, dass wir Sie in den Kaninchenbau geschickt haben Diese Person existiert nicht , das 2019 selbst viral ging.

Keine dieser Personen existiert. Sie wurden von einem GAN (Generative Adversarial Network) am . erstellt Diese Person existiert nicht . Verwenden Sie die Schaltfläche in der unteren rechten Ecke, um eine neue Person zu erstellen und die Stunden zu sehen.(Bildnachweis: Diese Person existiert nicht)

Viel schwieriger ist es, aus einem einzelnen Standbild überzeugend eine sich bewegende Person zu generieren, die Informationen enthält, die einfach nicht vorhanden sind. Dies ist es, was D-ID anscheinend gelungen ist, zu knacken. Wie Gil Perry uns sagte: „Das Schwierige ist nicht nur das Gesicht zu verändern und zu animieren. Die Raketenwissenschaft hier ist, wie man es zu 100 % echt aussehen lässt.“

Fallout 3 Abwärtskompatibilität xbox one

Laut Perry war die größte Herausforderung, die D-ID mit seinen 'Live-Portraits' bewältigen musste, der Mangel an Informationen, die man von einem einzelnen Foto erhält. Frühere Versuche zur Gesichtsreanimation erforderten viele Trainingsdaten und hatten auch mit 'Okklusion' zu kämpfen (Teile des Gesichts wurden durch Hände oder andere Gegenstände verdeckt). Aber hier hat D-ID große Fortschritte gemacht.

(Bildnachweis: MyHeritage)

„Der schwierige Teil ist, wenn Sie keine unterschiedlichen Blickwinkel haben – zum Beispiel können Sie ein Foto hochladen, das sehr frontal und ohne Zähne ist“, sagte er. „Unsere Algorithmen wissen, wie man die fehlenden Teile, die man auf dem Foto nicht hatte, vorhersagt und erstellt – zum Beispiel Ohren, Zähne, der Hintergrund. Im Grunde durchqueren wir das, was die Leute das unheimliche Tal nennen.'

Die gemischte Reaktion des Internets auf „Deep Nostalgia“ (das auf der Technologie von D-ID basiert) zeigt vielleicht, dass es diese Schwelle noch nicht vollständig überschritten hat, aber es macht sicherlich gute Fortschritte. Es wurden kürzlich neue 'Treiber' oder Animationen hinzugefügt, einschließlich der Möglichkeit, Ihrem Motiv einen Kuss zuzuwerfen oder zustimmend zu nicken. Und dies ist nur der Anfang der Wiederbelebung der Ambitionen von D-ID.

Was hast Du getan?

Der Grund, warum die „Live Portrait“-Technologie von D-ID so anpassungsfähig ist (sie wird in allem verwendet, von Museums-Apps bis hin zu sozialen Netzwerken), liegt darin, dass Flexibilität in ihren Prozess integriert ist. Also, wie genau funktioniert es?

„Das Live-Porträt funktioniert so, dass wir eine Reihe von Fahrervideos haben“, sagt Perry. „Wir haben ungefähr 100 dieser Bewegungen. Wenn ein Benutzer ein Foto hochlädt, verwendet das Unternehmen unsere API. Dann wissen unsere Algorithmen, wie man Landmarken, eine Reihe von Punkten auf der Vorderseite des Standbilds, transformiert, um sich ähnlich wie die Landmarken oder Punkte auf der Vorderseite des Fahrervideos zu verhalten und zu bewegen.'

Entscheidend ist, dass die Personen und Unternehmen, die die Technologie von D-ID lizenzieren, nicht auf ihre eigene Bewegungsbibliothek beschränkt sind – sie können auch ihre eigenen erstellen. 'Derzeit haben wir genügend Treiber, aber einige unserer Kunden arbeiten daran, selbst Treiber zu erstellen', erklärte Perry. Dies unterstützt auch ein weiteres D-ID-Produkt namens 'Talking Heads', das Text oder Audio in realistische Videos von sprechenden Personen verwandelt.

Die „Talking Heads“-Funktion von D-ID hat massive Auswirkungen auf Filme und YouTube. Theoretisch könnten YouTuber Videos einfach in ihren Schlafanzug schreiben und die Präsentation ihren virtuellen Avataren überlassen. Aber für die Fotografie ist „Live Portraits“ die große Bombe – insbesondere für Stock-Foto-Unternehmen.

Wir wandeln im Grunde alle Fotos der Welt in Videos um – wir sagen gerne, dass wir die Welt mit Harry Potter vergleichen

Grand Theft Auto 5 Mods für Erwachsene

Gil Perry, D-ID

'Für sie kann dies aus zwei Gründen wirklich bahnbrechend sein', sagte Perry. „Erstens können wir alle ihre Fotos in Videos umwandeln. Und zweitens findet der Benutzer bei der Suche nach einem Foto meistens nicht genau das, was er braucht. Wir können den Ausdruck ändern – wenn Sie möchten, dass die Person ein bisschen glücklicher ist oder in eine andere Richtung schaut, können wir das alles mit einem Klick ändern.'

Es ist eine Sache, Twitter oder TikTok mit einem animierten Foto zu beeindrucken, aber eine ganz andere, die Stock-Foto-Veteranen davon zu überzeugen, dass ein digital veränderter Gesichtsausdruck ihren hohen Ansprüchen gerecht wird. Ist die Technik für solche Profis wirklich ausreichend gekocht? »Ja, das tun wir bereits«, sagte Perry. „Wir verkaufen an Fotografen und kommen mit den größten Stock Footage-Unternehmen schnell voran. Wir haben diesen Monat auch ein weiteres börsennotiertes Unternehmen, das für Fotoalben und das Scannen von Fotos sehr bekannt ist.'

In diesem Sinne fordert die Reanimationstechnologie von D-ID die Definition dessen, was ein Foto eigentlich ist, in Frage. Anstelle eines eingefrorenen Moments in der Zeit sind Fotos jetzt ein Ausgangspunkt für KI und maschinelles Lernen, um unendlich veränderbare alternative Realitäten zu schaffen. Fotografie ist seit ihrer Geburt anfällig für Manipulationen, insbesondere in der Post-Photoshop-Ära. Aber da das Erstellen realistischer Videos aus einem einzelnen Standbild ein ganz neues Ballspiel ist, besteht da nicht ein ernsthaftes Missbrauchspotenzial?

Tempomat

Die meisten großen sozialen Netzwerke, darunter Facebook und TikTok, haben Deepfakes verboten, die sich von solchen wie „Deep Nostalgia“ dadurch unterscheiden, dass sie dazu dienen, falsche Informationen zu täuschen oder zu verbreiten. Aber selbst unschuldige Implementierungen der Technologie, wie die 'Live Portraits' von D-ID, könnten theoretisch in die falschen Hände geraten.

Glücklicherweise hat D-ID dies berücksichtigt. Tatsächlich begann das Unternehmen 2017 als Innovator in der Datenschutztechnologie, der sich gegen den Aufstieg der Gesichtserkennung schützte. Als Perry zusammen mit seinen Mitbegründern Sella Blondheim und Eliran Kuta D-ID entwickelte, entwickelten sie ein System zur De-Identifikation von Gesichtern (daher der Firmenname), dessen Ziel es war, eine datenschutzfreundliche Firewall für Fotos und Videos zu schaffen.

Laut Perry ist dies ein ziemlich solider Baustein, um sichere KI-Gesichtstechnologie zu bauen. 'Als wir uns entschieden haben, in diesen Markt einzusteigen, haben wir verstanden, dass mit dieser Technologie das Potenzial besteht, schlechte Dinge zu tun', sagte er. »Das wäre mit oder ohne uns passiert. Wir haben beschlossen, dass wir einsteigen und sicherstellen, dass wir den Markt in die richtige Richtung lenken. Unsere Mission war es, die Privatsphäre vor Gesichtserkennung zu schützen. Wir haben den richtigen Hintergrund und das richtige Wissen.'

Aber es geht auch darum, praktische Puffer zu schaffen, um sicherzustellen, dass die sozialen Medien nicht mit böswilligen Tom Cruises (oder Schlimmerem) überflutet werden. Niemand kann sich einfach die D-ID-Technologie von der Stange holen, um Videos wie die oben genannten zu erstellen, für die noch fortgeschrittene VFX-Fähigkeiten erforderlich sind, selbst wenn diese mit dem Open-Source-Algorithmus DeepFaceLab erstellt wurden.

'Wir bauen Leitplanken um die Technologie, sodass Sie damit nicht wirklich viel Schaden anrichten können', sagte Perry. 'In 'Deep Nostalgia' kann man zum Beispiel sehen, es sind nur nostalgische und lustige Bewegungen. Wir haben viele Tests durchgeführt, um sicherzustellen, dass es nur gute Emotionen weckt. Wir haben einen Algorithmus geschrieben, den wir über Twitter ausgeführt haben, und alle Antworten überprüft, um zu sehen, ob sie positiv oder negativ sind. Wir haben gesehen, dass 95 % davon positiv waren.'

Darüber hinaus sagt D-ID, dass es ein Manifest erstellt, das in Kürze veröffentlicht wird, und an Möglichkeiten arbeitet, Organisationen zu helfen, zu erkennen, ob ein Foto manipuliert wurde. „Wir bestehen auch darauf, dass unsere Kunden, wenn es möglich ist, eine Markierung hinzufügen, die dem Betrachter deutlich macht, dass es sich nicht um echte Fotos oder Videos handelt“, fügt Perry hinzu.

Synth-Pop

Dies alles beruhigt diejenigen, die an diesem Punkt möglicherweise über den bevorstehenden Untergang der Realität hyperventilieren, oder zumindest unsere Fähigkeit, dem zu vertrauen, was wir online sehen. Und D-ID sieht seine Technologie sicherlich als ziemlich unschuldig an. „Wir wandeln im Grunde alle Fotos der Welt in Videos um – wir sagen gerne, dass wir die Welt mit Harry Potter vergleichen“, sagt Perry.

Aber es besteht auch kein Zweifel, dass Technologien wie die von D-ID schwerwiegende Auswirkungen auf unseren Online-Medienkonsum haben. Photoshop hat zwar 1987 die Bildmanipulation demokratisiert, doch längst ist die Online-Welt auf Video umgestiegen – nicht zuletzt deshalb war „Deep Nostalgia“ ein solcher Social-Media-Hit.

wann kommt die schwarze witwe kostenlos auf disney plus?

Wie lange wird es also dauern, bis die Mehrheit der Medien, die wir im Internet sehen, sogenannte „synthetische Medien“ sind? 'Ich glaube, dass in 5-10 Jahren die meisten Medien synthetisch sein werden', sagt Perry. 'Ich glaube, wir werden dazu beitragen, dass dies in fünf Jahren geschieht, und sicherstellen, dass es richtig läuft.'

In der Zwischenzeit gibt es viel auszubügeln, aber kurzfristig erwarten Sie, dass diese 'Deep Nostalgia'-Videos noch animierter werden. D-ID kann bereits Familienfotos mit mehreren Gesichtern animieren und sagt, dass das Animieren der Körper von Menschen 'in der Roadmap' ist. Mit den neusten 'Neuralfiltern' von Photoshop, die ebenfalls mit von der Partie sind, wird das Leben für unsere Fotos und Videos sehr interessant – hoffen wir nur, dass es mehr als Harry Potter als Nightmare on AI Street ist.

  • Warum die KI-Tools von Photoshop und Luminar noch nicht ganz bereit sind, echte Fotografie zu töten

Mark ist Kamera-Redakteur bei ArmenianReporter. Nachdem Mark lächerliche 17 Jahre im Tech-Journalismus gearbeitet hat, versucht er nun, den Weltrekord für die Anzahl der von einer Person gehorten Kamerataschen zu brechen. Zuvor war er Kamera-Redakteur bei Trusted Reviews, stellvertretender Redakteur bei Stuff.tv sowie Feature-Redakteur und Review-Redakteur beim Stuff-Magazin. Als Freiberufler hat er zu Titeln wie The Sunday Times, FourFourTwo und Arena beigetragen. Und in einem früheren Leben gewann er auch den Young Sportswriter of the Year des Daily Telegraph. Aber das war, bevor er die seltsame Freude entdeckte, um 4 Uhr morgens für ein Fotoshooting in der Londoner Square Mile aufzustehen.

Weitere Neuigkeiten zu Kameras anzeigen