IThon.hu | Techben otthon vagyunk!

Éneklő AI-t alkotott a Microsoft

A redmondiak egy kínai egyetemmel fogtak össze, a közös munkával létrehozott mesterséges intelligencia több nyelven is képes dalra fakadni.

Manapság már kevés olyan területe maradt a tartalomelőállításnak, ahol ne bukkant volna fel az AI, azaz a mesterséges intelligencia. A YouTube például hemzseg a színészeket mímelő  deepfake videóktól, nemrég pedig a Microsoft News és az MSN hírszolgáltatása mögött álló hús-vér szerkesztők egy részét cserélték le az új technológiára.  A jelek szerint a szoftvercég ezúttal az énekesek babérjaira pályázik, méghozzá a Csöcsiangi Egyetemmel közösen készített DeepSinger nevű algoritmussal.

Ez az egyedülálló AI a hivatalos dokumentáció szerint angol, kantoni, és kínai nyelven is képes énekhangokat generálni. A projekt mögött álló kutatók állítják: a DeepSinger a dalszövegek, az időtartam, valamint a hangmagasság és a referenciahangok kalkulálásával  olyan eredményt produkál, ami mind a hangok pontossága, mind a hangzás természetessége szempontjából magas színvonalúnak tekinthető. A minőségellenőrzés során minimum 20 főből álló tesztcsoportoknak mutatták meg a mesterséges intelligencia által generált dalokat, s arra az eredményre jutottak, hogy a hallgatók csak elenyésző különbségeket érzékeltek az eredeti anyagokhoz képest.

Forrás: Franck V/Unsplash

A DeepSinger létrehozásához a kutatóknak össze kellett állítaniuk egy speciális adathalmazt, amellyel trenírozhatták az algoritmust. Ehhez különböző weboldalakon több ezer órányi zenét vizsgáltattak át az AI-val, ami automatikusan különválasztotta az éneket a többi hangtól, az így kapott tiszta sávokat pedig elemi egységekre, ún. fonémákra bontotta.  A DeepSinger 89 énekestől összesen 92 órányi anyagot gyűjtött be, amiből már sikerrel kinyerhette a szintetizáláshoz elengedhetetlen információkat, többek között a hangok időtartamáról és magasságáról.

A Microsoft algoritmusának hatékonyságáról a hivatalos dokumentáció hangmintáit böngészve bárki meggyőződhet. S hogy milyen hasznosítási területei lehetnek a DeepSingernek? Az AI elsősorban a stúdiómunkát könnyíthetné meg. Fejlettebb formában képessé válhatna például a hibás felvételek kijavítására, vagy akár utólagos változtatásokra is, méghozzá az előadó közreműködése nélkül. Az elsőre remekül hangzó lehetőség persze veszélyeket is rejt magában, hiszen a technológiával később olyan dalszövegek is az énekesek szájába adhatók, amelyekhez valójában semmi közük sincs. Az előrehaladottabb állapotnál tartó beszédszintetizálás már okozott ilyen problémákat, Jay-Z például jelenleg is perben áll egy YouTube csatorna készítőjével, amiért az engedély nélkül használta hangjának mesterséges mását néhány korábbi videójában.

Forrás: VentureBeat

Borítókép: Bogomil Mihail/Unsplash

Kapcsolódó cikkeink

Csak Siri!

Anikó

Az Inteles Macekre is érkezik az Élő szöveg funkció

Anikó

Böngészőben futtatható Windows verzióval rukkolt elő a Microsoft

Anikó