Künstliche Intelligenz, die menschliche Stimmen von Microsoft imitieren kann
Wir wissen, dass sich die künstliche Intelligenz erheblich weiterentwickelt und in letzter Zeit an Popularität gewonnen hat. Systeme wie Midjourney und DALL-E, die Bilder aus Texten erstellen, und Modelle wie ChatGPT, die alles beantworteten, was wir fragten, haben auf der ganzen Welt Wirkung gezeigt. Wenn jetzt von MicrosoftEin brandneuer KI-Durchbruch ist da.
US-Technologieriese, Modell der künstlichen Intelligenz, das Sprache aus Text erstellen kann VALL– ZU‘ eingeführt Das System, das neue Wege in der künstlichen Intelligenz beschreiten kann, kann menschliche Stimmen leicht transformieren. imitieren können gesprochen wurde. Diese vertraute Form der Technologie hat für einige Aufregung gesorgt.
Kann Geräusche mit nur einem 3-Sekunden-Sample imitieren
Laut Ars Technica, VALL-E, nur ein dreisekündiges Hörbeispiel Es kann die Stimme eines Menschen imitieren. Es kann sogar Ergebnisse liefern, die dem Tonfall im Vergleich zum Gefühl des Sprechers entsprechen, wobei seine Möglichkeiten nicht darauf beschränkt sind.
Microsoft hat angekündigt, dass ein Sprachmodell, VALL-E, von Meta im Oktober 2022 eingeführt wurde. EnCodec‘ Er gibt an, von der sogenannten Technologie profitiert zu haben. Das Modell zieht Schlussfolgerungen, indem es Text und Geräusche verwendet, anstatt die Präzedenzsysteme, die wir normalerweise sehen. Grundsätzlich, wie eine Person klingt analysiert Dank EnCodec zerlegt es diese Informationen in weitere Bestandteile und gleicht die Trainingsdaten ab. Dadurch werden verschiedene Sätze erzeugt, indem der Laut im Beispiel nachgeahmt wird.
In einem gemeinsamen Artikel über künstliche Intelligenz nannten die Forscher VALL-E, mehr als 7.000vom Lautsprecher 60.000 Stunden Englisch Er gibt an, mit den Sprachaufnahmen in seiner Sprache trainiert zu haben. Damit das System ein angemessenes Ergebnis liefert, sollte der Ton in den Samples dem Ton in den Trainingsinformationen nahe kommen.
Microsoft hat einige Beispiele von VALL-E auf GitHub veröffentlicht. Betrachtet man die Beispiele, so zeigt sich, dass künstliche Intelligenz an manchen Stellen mit der Stimme eines Roboters auftaucht, an manchen Stellen aber überraschend hoch ist. realistisch es scheint so als. Außerdem bewahrt VALL-E in den Beispielen den Ton des Lautsprechers; selbst Ergebnis relativ zur Umgebung kann man auch sehen. Wenn beispielsweise der Originalsprecher von einem hallenden Ort spricht, erzeugt das System entsprechend Ton.
Diese Art von Technologie ist nicht ohne Risiken.
Natürlich ist diese Technik etwas hektisch. Personen, die auf das Böse abzielen, können eine Person dazu bringen, so zu tun, als hätte sie etwas gesagt, was sie nicht gesagt hat kann sich ausgeben und Betrug kann zu einer Zunahme von Vorfällen führen. Sie können es sich als die Risiken von Deepfake vorstellen, das in letzter Zeit populär geworden ist. Microsoft Open-Source-Code aufgrund von Risiken nicht zu tunWir können jedoch sagen, dass Präzedenztechnologien diese Risiken mit sich bringen können.