Nu kan AI-simulatorer fejka människoröster

Foto: Mostphotos

En avgörande pusselbit på världens IT-karta läggs av Baidu, ”Kinas Google”, som har lyckats med att relativt trovärdigt härma en persons tal och accent. Digital röstkloning öppnar både för nytta och för bedrägerier.

Kinesiska internetjätten Baidu har utvecklat ett program som med en ljudinspelning på bara några sekunder kan klona en mänsklig röst. Andra teknikföretag arbetar på liknande projekt för att manipulera mänskliga röster – och observatörer varnar att tekniken kan användas i brottsligt syfte, från spridande av falska nyheter till lösenordsfiske och andra bedrägerier.

Manipulerade ljudinspelningar kan sätta ord i mun på politiker, saker de aldrig skulle säga – kanske även förklara krig. Det kan sänka redan smutsiga valkampanjer till helt nya avgrundsdjup. Medborgare som inte är i direkt maktposition kan å sin sida utsättas för utpressningsförsök för saker de aldrig sagt.

Photoshop för röster. Mjukvaruföretaget Adobe demonstrerade för två år sedan Adobe Voco, som omedelbart beskrevs som ett ”Photoshop för röster”. Photoshop är Adobes industriledande program för redigering och manipulation av bilder. Vid demonstrationen av Voco ändrades en TV-komikers uttalande ”Jag pussade mina hundar och min fru” med några snabba tangentnedslag till ”Jag kysste Jordan tre gånger”. Voco har ännu inte börjat säljas, men enligt observatörer fortsätter Adobe att utveckla programmet.

Baidu, som ofta kallas Kinas Google, har en forskningsavdelning som framhåller teknikens positiva möjligheter: att omedelbart uttrycka skriven text till tal för synskadade, eller att låta förälderns digitala röstkopia läsa godnattsagan för barn när de vuxna inte fysiskt kan vara på plats. Eller varför inte låta din digitala assistent på smartmobilen uttrycka sig med en mer bekant röst?

Klon. Lammet Dolly (1996–2003), var det första däggdjur som fötts efter att ha klonats från en cell av ett vuxet djur. Numera går det även att skapa rätt så trovärdiga digitala kloner av människoröster. Foto: Wikimedia/Neverbutterfly

Race inom djupinlärning. Utvecklingen på området går oerhört snabbt. Baidus program Deep Voice sades förra året kunna härma en mänsklig röst efter att ha absorberat 30 minuters tal. Nu uppges det räcka med ljudklipp på 3,7 sekunder. Observatörer påpekar dock att det ännu rör sig om en ljudkvalitet långt från hifi.

Baidu förklarar att dess projekt inspirerats av traditionella text till tal-program, men tillägger att bolaget använder så kallade neurala nätverk och förenklade funktioner. Deep Voice bygger på artificiell intelligens och djupinlärning (deep learning), en form av maskinlärning där data analyseras i många lager och därefter översätts till signaler i ett försök att efterlikna hur en mänsklig hjärna processar information. Deep Voice använder sig av fonem, det talade språkets minsta byggklossar och ljudsyntes, som gör det möjligt att efterhärma inte bara röstläge utan också accent.

Googles Wavenet ska också kunna imitera vilken mänsklig röst som helst, enligt bolaget. Kanadensiska Lyrebird uppges bara behöva ett sampel på 60 sekunder, och låter varje internetsurfare testa med sin egen röst. Bolagets simulator kan även skapa nya meningar med unika variationer som intonation och känslor. Det går att lyssna till sampel här: https://lyrebird.ai/demo.

Leif Bergström  text

Läs hela artikeln i papperstidningen eller i den finlandssvenska tidskriftsajten Paperini!