A redmondiak egy kínai egyetemmel fogtak össze, a közös munkával létrehozott mesterséges intelligencia több nyelven is képes dalra fakadni.
Manapság már kevés olyan területe maradt a tartalomelőállításnak, ahol ne bukkant volna fel az AI, azaz a mesterséges intelligencia. A YouTube például hemzseg a színészeket mímelő deepfake videóktól, nemrég pedig a Microsoft News és az MSN hírszolgáltatása mögött álló hús-vér szerkesztők egy részét cserélték le az új technológiára. A jelek szerint a szoftvercég ezúttal az énekesek babérjaira pályázik, méghozzá a Csöcsiangi Egyetemmel közösen készített DeepSinger nevű algoritmussal.
Ez az egyedülálló AI a hivatalos dokumentáció szerint angol, kantoni, és kínai nyelven is képes énekhangokat generálni. A projekt mögött álló kutatók állítják: a DeepSinger a dalszövegek, az időtartam, valamint a hangmagasság és a referenciahangok kalkulálásával olyan eredményt produkál, ami mind a hangok pontossága, mind a hangzás természetessége szempontjából magas színvonalúnak tekinthető. A minőségellenőrzés során minimum 20 főből álló tesztcsoportoknak mutatták meg a mesterséges intelligencia által generált dalokat, s arra az eredményre jutottak, hogy a hallgatók csak elenyésző különbségeket érzékeltek az eredeti anyagokhoz képest.
A DeepSinger létrehozásához a kutatóknak össze kellett állítaniuk egy speciális adathalmazt, amellyel trenírozhatták az algoritmust. Ehhez különböző weboldalakon több ezer órányi zenét vizsgáltattak át az AI-val, ami automatikusan különválasztotta az éneket a többi hangtól, az így kapott tiszta sávokat pedig elemi egységekre, ún. fonémákra bontotta. A DeepSinger 89 énekestől összesen 92 órányi anyagot gyűjtött be, amiből már sikerrel kinyerhette a szintetizáláshoz elengedhetetlen információkat, többek között a hangok időtartamáról és magasságáról.
A Microsoft algoritmusának hatékonyságáról a hivatalos dokumentáció hangmintáit böngészve bárki meggyőződhet. S hogy milyen hasznosítási területei lehetnek a DeepSingernek? Az AI elsősorban a stúdiómunkát könnyíthetné meg. Fejlettebb formában képessé válhatna például a hibás felvételek kijavítására, vagy akár utólagos változtatásokra is, méghozzá az előadó közreműködése nélkül. Az elsőre remekül hangzó lehetőség persze veszélyeket is rejt magában, hiszen a technológiával később olyan dalszövegek is az énekesek szájába adhatók, amelyekhez valójában semmi közük sincs. Az előrehaladottabb állapotnál tartó beszédszintetizálás már okozott ilyen problémákat, Jay-Z például jelenleg is perben áll egy YouTube csatorna készítőjével, amiért az engedély nélkül használta hangjának mesterséges mását néhány korábbi videójában.
Forrás: VentureBeat
Borítókép: Bogomil Mihail/Unsplash