banner

Blog

Jul 28, 2023

Mit ein wenig Hilfe von PVC-Rohren täuschen Forscher in Wisconsin einige Spracherkennungssysteme vor

Ist es möglich, Computersysteme auszutricksen, die die Stimme einer Person als Passcode verwenden? Einige Ingenieure aus Wisconsin sagen, die Antwort sei „Ja“, und dass sie dies teilweise mithilfe von Kunststoffrohren erreicht hätten, die man in einem Baumarkt finden könne.

Einige Online-Banking-Systeme verwenden die automatische Sprechererkennung – einfacher ausgedrückt – die Stimme eines Kontoinhabers als Passcode. Kassem Fawaz, Professor für Elektrotechnik und Informationstechnik an der UW-Madison, sagt, dass auch Apple iPhone-Benutzer wahrscheinlich mit dem virtuellen Assistenten Siri vertraut sind, der nur auf den Besitzer reagiert.

„Der Grund, warum Siri nur auf Sie antwortet, liegt darin, dass sie diese Technologie namens Sprecheridentifikation verwenden. Sie erhalten also eine Art Stimmabdruck, der einem Fingerabdruck ähnelt, und können feststellen, ob er von Ihnen oder jemand anderem stammt . Und so kann Siri sicherstellen, dass der Benutzer oder Besitzer des Telefons mit ihm spricht“, sagt Fawaz.

Aber Fawaz und zwei UW-Madison Ph.D. Studierende sind Teil einer universitätsübergreifenden Initiative zur Verbesserung der digitalen Sicherheit. Und so haben sie nach Möglichkeiten gesucht, die Computersysteme auszutricksen. Sie und andere haben bereits daran gearbeitet, die menschliche Stimme zu klonen und einen Computer wie diese Person sprechen zu lassen.

Kürzlich, so Fawaz, hätten die Ingenieure erkannt, dass sie von digital auf analog umsteigen könnten, um viele Systeme zur Sprechererkennung auszutricksen.

„Und so kamen wir auf die Idee, eine Art analoges Gerät zu entwickeln, das über keinerlei digitale Elektronik verfügt und es einem ermöglicht, sich als andere auszugeben“, sagt Fawaz.

Ph.D. Die Studentin Shimaa Ahmed sagt, sie habe zunächst versucht, durch die Pappröhre zu sprechen, die in vielen Papierhandtuchrollen zu finden sei, und dabei Prominente nachgeahmt.

„Und es hat funktioniert. Als ich einige der Promi-Stimmen durch diese Küchenpapierrolle geschickt habe, hat sich die Vorhersage dieser Prominenten verändert“, sagt Ahmed.

Schließlich kaufte Fawaz in der Sanitärabteilung eines Baumarkts ein PVC-Kunststoffrohr, und das Team begann damit, es zu verwenden.

Fawaz sagt, sie hätten erkannt, dass die Röhren Mängel aufwiesen.

„Normale Sanitärrohre haben feste Abmessungen, oder? Sie können die Länge steuern, indem Sie sie abschneiden. Aber Sie können den Durchmesser nicht steuern. Für einige der Experimente brauchten wir Rohre mit einem speziellen Durchmesser, den Sie bei Ace Hardware nicht finden können „Was wir also tun mussten, um diese Röhren herzustellen, und der einfachste Weg, die Röhren herzustellen, besteht darin, sie in 3D zu drucken“, sagt Fawaz.

Das Team wandte sich an den damaligen Studenten und heutigen Doktoranden. Student Yash Wani, der einige Röhren in 3D gedruckt hat. Wani sagt, die Arbeit habe seinen akademischen Schwerpunkt verändert.

„Ehrlich gesagt war es sehr cool, dass ich auf diese Weise meinen Doktortitel gemacht habe. Es war cool genug für mich, damit weiterzumachen“, sagt er.

Die Forscher entwickelten einen Algorithmus oder strenge Anweisungen, die die Rohrabmessungen ermittelten, die erforderlich waren, um die Resonanz – das heißt Tonintensität und -qualität – fast jeder Stimme so umzuwandeln, dass sie eine andere nachahmte.

In einer Aufnahme las Ahmed aus einem herkömmlichen Sprachdatensatz vor und klang ein bisschen wie die Schauspielerin Lisa Kudrow – Sie wissen schon, Phoebe aus Friends.

„Da war nichts am Felsen“, lautete die Lesung. Ahmed versuchte es auch mit einer Nachahmung der Schauspielerin Kelly Reilly, die in der Fernsehserie Yellowstone mitspielt. „‚Ich habe keine Ahnung‘, antwortete Phillip“, sagte Ahmed in der Aufnahme.

Es handelte sich nicht um exakte Nachahmungen. Aber sie waren gut genug, um durch die digitalen Angriffsfilter eines Sprachauthentifizierungssystems zu gelangen und es auszutricksen. Die Ingenieure der UW-Madison verwendeten in ihrem Experiment auch die Stimmen anderer Studenten und berichteten, dass sie in einem Test mit 91 Stimmen die Sicherheitssysteme in 60 % der Fälle täuschten.

Gut genug, um eine Arbeit zu schreiben und Ahmed die Ergebnisse diesen Monat auf einem Sicherheitssymposium in Kalifornien vorzustellen.

„Die Leute waren neugierig, wie wir Geräte wie Röhren herstellen können, aber noch komplizierter war, dass wir jede Person nachahmen können“, sagt Ahmed.

Laut Fawaz sind sich alle Hersteller von Sprecheridentifikationssystemen – Apple, Google, IBM, Microsoft und andere – der verschiedenen Mängel ihrer Technologie bewusst und versuchen, diese zu beheben.

Zu den Geldgebern der UW-Forschung zählen die National Science Foundation und DARPA – der große Forschungszweig des Verteidigungsministeriums.

AKTIE