Poslovi budućnosti
Pronalazimo i pripremamo te za nove, perspektivne profesije koje će oblikovati tržište rada.
Kako napraviti automatizovan sistem za kreiranje Facijalnih animacija pomoću umjetne inteligencije?
-
Kako napraviti automatizovan sistem za kreiranje Facijalnih animacija pomoću umjetne inteligencije?
Pozdrav Lonac, več duže vrijeme radim na sistemu umjetne inteligencije, nešto poput virtuelnog asistenta spojenog sa chatbotom otvorenog domena. Za sada koristi Evolved Transofrmer Generativni model sa sintezu rečenica i odgovora nazad korisniku, u tekstualnom okruženju (nešto poput razmjene poruka). Sada želim da ovom sistemu dam glas i facu. Za glas mislim koristiti google Wavenet za sintezu govora, kao i možda Real-time-voice cloning: https://github.com/CorentinJ/Real-Time-Voice-Cloning
Ali dolazim do problema kod generisanja facijalnih animacija. Tačnije ne mogu da pronađem neki automatizovani sistem koji koristi audio input i pomoču njega generiše facijalne animacije na ciljani model/sliku. Jedan takav model je prikazan u ovom naučnom radu, ali ja kao ni moji drugari sa kojim radim na ovome ne možemo da smislimo kod za tu metodu. Ovo je taj naučni rad o kojem govorim: https://link.springer.com/article/10.1007/s11263-019-01251-8
Pronašao sam sistem koji je Dr. Justus Thies i njegov tim napravili: https://justusthies.github.io/posts/neural-voice-puppetry/
U dokumentaciji iskazano je da koriste kombinaciju Real-time-voice-cloning sistema ujedno istom tehnogijom iza deepfakes: https://colab.research.google.com/github/AliaksandrSiarohin/first-order-model/blob/master/demo.ipynb
Trenutno kao privremeno riješenje, koristimo google wavenet voice synthesis, spojen sa gore first-order-motion-modelom. Snimamo sami izvorni video gdje izgovaramo određene riječi, pa onda sistem sam prenese na ciljanu sliku, i onda sistem “sašije” output na osnovu texta našeg generativnog modela. Suvišno je reči da ovakva metoda nije skalabilna, jer da bi sistem uspiješno funkcionisao trebali bi snimiti svih par miliona riječi engleskog jezika, sa izrazima sve 4 predefinisane emocije i različitim izrazima lica, što nije moguće. Također ovaj sistem može samo da generiše video output veličine 256x256px, naravno teoretski full HD output bi bio moguć, ali za to trebao bi server sa 40TB RAM memorije, zbog ogromne količine podataka koji se prenosi sa videa izvora na ciljanu sliku ili model.
Pronašao sam par modela za generativne facijalne animacije, ali output nije izvrstan i izgleda previše strašno za 3D modele koji nisu prisutni u datasetu. Predpostavljamo da je ovo zbog toga što neuralna mreža ovog sistema nije istrenirana najbolje za različite ciljane modele. Sistem o kojem govorim je: https://github.com/TimoBolkart/voca/blob/master/README.md
Sad, pitanje je isto kao navedeno gore, da li neko zna ili ima neku skalabilnu metodu za generisanje facijalnih animacije na osnovu zvukovnog inputa. Bonus bodovi da se može spojiti sa emocijonalnim diskriminatorom Google Machine Vission API-a i na osnovu emocionalnih naljepnica da generiše različit output za isti audio, ali u zavisnosti od emocionalnog stanja koje ciljani model treba da izrazi, kao što su istraživači iz nvidia-e napravili koji možete vidjeti u ovom videu: https://youtu.be/ZtP3gl_2kBM
Da mogu koristio bih Nvidin sistem iz tog videa, ali na žalost kod za ovaj sistem nije dostupan.
Log in to reply.
