Diskusije – Poslovi budućnosti

Kako napraviti automatizovan sistem za kreiranje Facijalnih animacija pomoću umjetne inteligencije?

Poslovi budućnosti

Kako napraviti automatizovan sistem za kreiranje Facijalnih animacija pomoću umjetne inteligencije?

Posted by Siniša Milošević on 21/05/2020 at 13:17
Pozdrav Lonac, več duže vrijeme radim na sistemu umjetne inteligencije, nešto poput virtuelnog asistenta spojenog sa chatbotom otvorenog domena. Za sada koristi Evolved Transofrmer Generativni model sa sintezu rečenica i odgovora nazad korisniku, u tekstualnom okruženju (nešto poput razmjene poruka). Sada želim da ovom sistemu dam glas i facu. Za glas mislim koristiti google Wavenet za sintezu govora, kao i možda Real-time-voice cloning: https://github.com/CorentinJ/Real-Time-Voice-Cloning

Ali dolazim do problema kod generisanja facijalnih animacija. Tačnije ne mogu da pronađem neki automatizovani sistem koji koristi audio input i pomoču njega generiše facijalne animacije na ciljani model/sliku. Jedan takav model je prikazan u ovom naučnom radu, ali ja kao ni moji drugari sa kojim radim na ovome ne možemo da smislimo kod za tu metodu. Ovo je taj naučni rad o kojem govorim: https://link.springer.com/article/10.1007/s11263-019-01251-8

Pronašao sam sistem koji je Dr. Justus Thies i njegov tim napravili: https://justusthies.github.io/posts/neural-voice-puppetry/

U dokumentaciji iskazano je da koriste kombinaciju Real-time-voice-cloning sistema ujedno istom tehnogijom iza deepfakes: https://colab.research.google.com/github/AliaksandrSiarohin/first-order-model/blob/master/demo.ipynb

Trenutno kao privremeno riješenje, koristimo google wavenet voice synthesis, spojen sa gore first-order-motion-modelom. Snimamo sami izvorni video gdje izgovaramo određene riječi, pa onda sistem sam prenese na ciljanu sliku, i onda sistem “sašije” output na osnovu texta našeg generativnog modela. Suvišno je reči da ovakva metoda nije skalabilna, jer da bi sistem uspiješno funkcionisao trebali bi snimiti svih par miliona riječi engleskog jezika, sa izrazima sve 4 predefinisane emocije i različitim izrazima lica, što nije moguće. Također ovaj sistem može samo da generiše video output veličine 256x256px, naravno teoretski full HD output bi bio moguć, ali za to trebao bi server sa 40TB RAM memorije, zbog ogromne količine podataka koji se prenosi sa videa izvora na ciljanu sliku ili model.

Pronašao sam par modela za generativne facijalne animacije, ali output nije izvrstan i izgleda previše strašno za 3D modele koji nisu prisutni u datasetu. Predpostavljamo da je ovo zbog toga što neuralna mreža ovog sistema nije istrenirana najbolje za različite ciljane modele. Sistem o kojem govorim je: https://github.com/TimoBolkart/voca/blob/master/README.md

Sad, pitanje je isto kao navedeno gore, da li neko zna ili ima neku skalabilnu metodu za generisanje facijalnih animacije na osnovu zvukovnog inputa. Bonus bodovi da se može spojiti sa emocijonalnim diskriminatorom Google Machine Vission API-a i na osnovu emocionalnih naljepnica da generiše različit output za isti audio, ali u zavisnosti od emocionalnog stanja koje ciljani model treba da izrazi, kao što su istraživači iz nvidia-e napravili koji možete vidjeti u ovom videu: https://youtu.be/ZtP3gl_2kBM

Da mogu koristio bih Nvidin sistem iz tog videa, ali na žalost kod za ovaj sistem nije dostupan.
Siniša Milošević replied 4 years, 8 mjeseci prije 2 Members · 2 Replies
2 Replies

Azer Bašić

Član
22/05/2020 at 22:27

Poštovanje,Nisam toliko upucen sto se tice ove teme, možda i nije nešto sto vam moze pomoci. Da li ste probali sa Unreal Enginom. Ono što sam mogao uraditi i radio sam je kreiranje AIa sa gesturama lica i tijela. Ali mozda Vama to ne odgovara.
Siniša Milošević

Član
30/04/2021 at 13:51

Za neki Legacy ovog pitanja, u slučaju da ima neko još ko pretražuje ovu temu, ili možda nađe korisno, Nvidia je objavila unutar svoje omniverse platforme audio2face model https://www.nvidia.com/en-us/omniverse/i možete da pronađete dokumentaciju o softveru ovdje: https://forums.developer.nvidia.com/t/information-about-audio2face/175790Također zato što je trenutno još uvijek u beta fazi, jedino je dostupan za windows 10. Također ako imate pristup Metahuman-u od Unreal emgine-a možete zajedno odraditi mnogo dobrih stvari.

Poslovi budućnosti

Kako napraviti automatizovan sistem za kreiranje Facijalnih animacija pomoću umjetne inteligencije?

Kako napraviti automatizovan sistem za kreiranje Facijalnih animacija pomoću umjetne inteligencije?

Azer Bašić

Siniša Milošević