KI ist besser als wir im Lippenlesen
berühmter regisseur von herr der ringe Peter Jackson’s Dokumentarfilm aus dem Jahr 2018 über das Leben und die Bestrebungen britischer und neuseeländischer Soldaten während des Ersten Weltkriegs Sie sollen nicht alt werdenMehr als hundert Jahre stumme Aufnahmen von Färbungdas gab es vorher nicht DialogeEs wurde modernisiert durch die neue Tonaufnahme für
Es wurde auch eine künstliche Intelligenz entwickelt, die den von Ihnen geschriebenen Satz in ein Video umwandelt.
Jackson, die Leute im Archivmaterial zu dem, was du gesagt hast Er stellte ein Team von forensischen Lippenlesern ein, um ihre aufgezeichneten Gespräche vorherzusagen, um eine Vorstellung davon zu bekommen, was vor sich ging. Man sagt, “ LippenleserSie waren so sensibel, dass sie sogar die Dialekte und Akzente der Sprecher identifizieren konnten.“
Jackson gab es 2018 dem Daily Sentinel. Aussage „Diese Typen lebten nicht in einer stillen Schwarz-Weiß-Welt, und dieser Film handelt nicht vom Krieg, sondern von der Kriegserfahrung der Soldaten“, sagte er. „Ich wollte, dass das Publikum so genau wie möglich sieht, was die Soldaten sahen, wie sie sahen und hörten.“ ihre Ausdrücke Gebraucht.
Das hat eine Studie aus dem Jahr 2009 ergeben, dass die meisten Menschen nur von den Lippen lesen eine Genauigkeitsrate von 20 Prozent.offenbart, dass er hat, und dass die CDC Hörverlust bei Kindern – Leitfaden für Elternschätzt, dass „ein guter Sprachleser nur 4 bis 5 Wörter in einem Satz mit 12 Wörtern sehen kann“ ziemlich groß eine sprachliche Leistung. In ähnlicher Weise wurden in einer Studie, die 2011 an der University of Oklahoma durchgeführt wurde, nur Probanden verwendet 10 Prozent vonEr konnte richtig lesen.
Der Kontext ist wichtig
Lippenlesen CTO des App-Entwicklers Liopa, Dr. „Wir betrachten Sprache normalerweise als das, was wir hören, aber wir betrachten Sprache nicht als das, was wir hören“, sagte Fabian Campbell-West per E-Mail gegenüber West Engadget. hörbarer Teil„So wie wir es wahrnehmen, kann die Sprache einer Person in visuelle und auditive Einheiten unterteilt werden. mein VisumVisuelle Einheiten, die Lippenbewegungen genannt werden, werden als Lippenbewegungen gesehen. PhonemHöreinheiten, die Schallwellen genannt werden, werden als Schallwellen gehört.
„Wenn wir miteinander kommunizieren, tun wir das normalerweise Kommunikation von Angesicht zu Angesicht bevorzugt, weil wir sowohl für visuelle als auch für auditive Informationen empfindlich sind“, fuhr er fort. „Allerdings gibt es etwa dreimal so viele Phoneme wie visuelle Elemente. Mit anderen Worten, LippenbewegungenEr allein enthält nicht so viele Informationen wie der hörbare Teil der Sprache.“
damals Universität OxfordUnter Berufung auf Fishers frühere Arbeit im Jahr 2016 sagte Yannis Assael, ein Forscher und LipNet-Entwickler: „Es ist eine Funktion der Lippen und manchmal der Zunge und der Zähne sowie des Lippenlesens. die meisten von ihnen sind verstecktUnd es ist schwer, Mehrdeutigkeiten ohne Kontext auszuräumen“, sagte er.
einer größeren Verwandlung zum allgemeinen Kontext Darüber hinaus geschieht vieles, was Menschen beim Sprechen vermitteln, nonverbal. Campbell-West sagt: „Zusätzlich zum Anhören der Person wenn du sehen kannstDie Kommunikation ist normalerweise einfacher“, sagt er. viel mehr Es zeigte Nuancen. Intelligente automatisierte Systeme zum Verständnis menschlicher Kommunikation erschaffenDafür gibt es viel mehr Potenzial, als es derzeit möglich ist.“
Blick auf den Baum, mit Blick auf den Wald
Mensch und Maschine Obwohl Lippenleser das gleiche allgemeine Endziel haben, unterscheiden sich die Ziele ihrer einzelnen Prozesse stark. Eine Gruppe von Forschern der Iran Science and Technology University im Jahr 2021 befürwortetWie zum Beispiel: „In den vergangenen Jahren wurden verschiedene Methoden für das Lippenlesen einer Person vorgeschlagen, aber es gibt einen signifikanten Unterschied zwischen diesen Methoden und den in der künstlichen Intelligenz vorgeschlagenen Lippenlesemethoden. Beim maschinellen Lesen geht es darum, visuelle Informationen in Worte umzuwandeln… Der Hauptzweck des Lippenlesens besteht jedoch nicht darin, jedes einzelne gesprochene Wort zu verstehen, sondern die Bedeutung der Sprache zu entschlüsseln.“
Kurz gesagt: „Menschen war meistens faulUnd weil wir so viel Vorwissen haben, verlassen sie sich auf den Kontext“, erklärt er. Und diese Inkonsistenz im Prozess – mit Blick auf den Wald, während Sie den Baum betrachtensprachliches Äquivalent – eine einzigartige Herausforderung für das Ziel, das Lippenlesen zu automatisieren.
„Eine der größten Hürden bei Studien zum Lippenlesen ist das Fehlen einer standardisierten und praktischen Datenbank“, sagte Hao. „Die Größe und Qualität der Datenbank bestimmt den Trainingseffekt dieses Modells, und eine hervorragende Datenbank wird auch die Entdeckung und Lösung von immer komplexeren und schwierigeren Problemen bei Aufgaben des Lippenlesens fördern.“ Andere HindernisseUmgebungsfaktoren wie schlechte Beleuchtung und sich ändernde Hintergründe, der Hautton des Sprechers, der Drehwinkel des Kopfes (der den Blickwinkel des Mundes verändert) und das verdeckende Vorhandensein von Falten und Bärten können Bildverarbeitungssysteme verwirren.
Angriff Wie bereits erwähnt, „ist das Lippenlesen mit einer Maschine schwierig, da es das Entfernen räumlich-zeitlicher Merkmale aus dem Video erfordert (da sowohl Position als auch Bewegung wichtig sind).“ Mit diesem, Xinjiang-Universität Wie Mingfeng Hao von A.S. in der 2020 A Survey on Lip Reading Technology erklärt, „kann die zur Videoklassifizierung gehörende Aktionserkennung durch ein einzelnes Bild klassifiziert werden.“ Daher „wird das Lippenlesen oft von einem einzigen Bild abgeleitet. mit SprachinhaltEs muss relevante Merkmale extrahieren und die zeitliche Beziehung zwischen der gesamten Bildsequenz analysieren, um den Inhalt zu extrahieren.“ Dies erfordert sowohl die Verarbeitung natürlicher Sprache als auch maschinelles SehenEs ist ein Hindernis, das Fähigkeiten erfordert.
verkürzte Suppe
Spracherkennung heute zur Eingangsquelle abhängig von den drei Arten. Worüber wir heute sprechen, fällt in den Bereich der visuellen Spracherkennungsforschung (VSR) – was bedeutet, dass nur visuelle Werkzeuge verwendet werden, um zu verstehen, was übertragen wird. Gegen das, ganz auf den SoundAutomatische Spracherkennung (ASR) basierend auf „Hey Siri“ und auditiv-visuelle automatische Spracherkennung (AV-ASR), die sowohl auditive als auch visuelle Hinweise in ihre Vorhersagen einbezieht.
Campbell-West „Die Forschung zur automatischen Spracherkennung (ASR) ist extrem ausgereift und der aktuelle Stand der Technik ist im Vergleich zu dem, was zu Beginn der Forschung möglich war, nicht wiederzuerkennen“, sagte er. „Die visuelle Spracherkennung (VSR) befindet sich noch in einem relativ frühen Stadium und die Systeme werden weiter ausgereift sein.“ Liopas Patienten im Krankenhaus sind aktiv verbale Kommunikation Die SRAVI-Anwendung, die es ihnen ermöglicht, zu kommunizieren, unabhängig davon, ob sie es einrichten können oder nicht, basiert auf der zweiten Methode. „Dies kann beide Wissensmodi nutzen, um die Mängel des anderen zu überwinden“, sagte er. „Es wird in Zukunft sicherlich Systeme geben, die zusätzliche Hinweise nutzen, um das Verständnis zu unterstützen.“
„Campbell-West fuhr fort: „Es gibt mehrere Unterschiede zwischen VSR-Implementierungen. „Aus technischer Sicht ist die Architektur für die Erstellung von Modellen unterschiedlich … Deep-Learning-Probleme können aus zwei verschiedenen Blickwinkeln angegangen werden: Der erste besteht darin, die bestmögliche Architektur zu suchen, und der zweite darin, große Datenmengen zu verwenden so viel Variation wie möglich abdecken. Beide Ansätze sind wichtig und können kombiniert werden.“
VSR-Studien In den Anfängen mussten Datensätze wie AVLetters manuell beschriftet und kategorisiert werden; Dies schränkt die Datenmenge, die zum Trainieren von Modellen für maschinelles Lernen verfügbar ist, stark ein. arbeitsintensiv Es war eine Einschränkung. Aus diesem Grund basieren die ersten Recherchen auf absoluten Grundlagen (Definition auf Alphabet- und Zahlenebene). fokussiert, dann zur Definition auf Wort- und Satzebene und zur Satzebene übergegangen, menschliche SpracheEs ist die heutige Spitzentechnologie, die darauf abzielt, natürlichere Umgebungen und Situationen zu verstehen.
In den letzten Jahren allgemein Trainingsmodelle hauptsächlich im Internet fortgeschritteneres Deep LearningTechniken und die enorme Ausweitung von sozialen und visuellen Medien, die online ausgestrahlt werden, haben es Forschern ermöglicht, viel größere Datensätze zu erstellen, wie z. B. die Oxford-BBC Lip Reading Sentences 2 (LRS2), die auf Tausenden von gesprochenen Zeilen aus verschiedenen BBC-Programmen basieren. LRS3-TEDaus verschiedenen TED-Programmen 150.000 SätzeBeim Sammeln gehört die LSVSR-Datenbank (Large Scale Visual Speech Recognition) zu den größten, die es derzeit gibt. 2.934.899Sprachausdruck u 127.000mit mehr als 1.000 Wörtern 140.000 Stundenbietet Audio-Segment.
Und das ist nur Englischnot: Ähnliche Datensätze, ein Array Chinesischbasierend auf dem Gedicht HIT-AVDB-II oder dem gleichen 15 Sätze Es ist für eine Reihe von Sprachen verfügbar, darunter IV2, eine französische Datenbank mit 300 Sprechern. Ähnliche Sätze Russisch, Spanischund TschechischAuch für Bewerbungen verfügbar.
Schau voraus
Campbell-West ist die Zukunft von VSR Die Geschichte von ASREr sagt, es könnte sehr ähnlich sein: „Wie es für ASR während seiner Entwicklung in den letzten Jahrzehnten war, ist es der Einführung von VSR voraus. viele HindernisseDer Datenschutz ist natürlich das Größte von allen. Campbell-West sagt, dass jüngere Generationen weniger Angst davor haben, ihr Leben online zu dokumentieren. ZuständeEr fügt hinzu: „Die Menschen sind zu Recht datenschutzbewusster als früher. Menschen können ein Mikrofon tolerieren, wenn sie eine Kamera nicht ausstehen können.“
Trotzdem, Campbell-West, VSR’s hohe Genauigkeit bleibt gespannt auf potenzielle zukünftige Anwendungen wie automatische Untertitelung. Campbell-West sagt: „Wenn du mit jemandem redest, setzt du deine Brille auf. Sie können Live-Untertitel erhaltenein Echtzeit-Untertitelsystem für Ich sehe voraus„Für jeden, der schwerhörig ist, könnte dies eine lebensverändernde Praxis sein, aber auch für den allgemeinen Gebrauch in lauten Umgebungen kann es nützlich sein.“
„Es gibt Situationen, in denen Lärm ASR sehr schwierig macht, aber Sprachsteuerung von Vorteil ist, wie in einem Auto“, sagte er. fortgesetzt . „VSR kann dazu beitragen, diese Systeme für Fahrer und Passagiere besser und sicherer zu machen.“
Andererseits in seinem Labor an der UW Gehirn-Computer-SchnittstelleProfessor Adrian, der Technologien umfassend erforscht hat K. C. Leetragbare Textanzeigen als „vorübergehende“ Option, bis die BCI-Technologie ausgereifter ist. als Vorsichtsmaßnahme er sieht. „Wir wollen BCI nicht bis zu dem Punkt verkaufen, an dem wir sagen: ‚Okay, wir werden von Gehirn zu Gehirn kommunizieren, ohne laut zu sprechen'“, sagte Lee. sagte . „In etwa einem Jahrzehnt werden Sie sehen, wie biologische Signale in Hörgeräten verwendet werden. Die Fähigkeit des Geräts, zu sehen, wohin Ihre Augen schauen, kann einen Hinweis darauf geben, worauf Sie sich beim Hören konzentrieren müssen.“
Lee sagte: „Er sagt wirklich ‚Ja, wir werden hirngesteuerte Hörgeräte bekommen.‘ Ich zögere„Ich denke, es ist machbar, aber du weißt, dass es einige Zeit dauern wird.“