VALL-E Kecerdasan Buatan Audio

Rakaman video pun boleh deepfake. Apatah lagi rakaman suara. Satu kajian dari Microsoft telah diterbitkan dengan nama Vall-E. Ini merupakan kajian kecerdasan buatan (AI) 'text-to-speech' iaitu mengubah teks kepada suara. Walaupun sudah ada sebelum ini, tapi suara yang dihasilkan tidak mempunyai emosi dan tidak dapat diubah mengikut individu.

Model Vall-E dengan hanya mengunakan 3 saat sampel audio, suara yang dihasilkan boleh ditiru dengan tone secara emosi dari individu asal. Sehingga suasana ruangan juga dapat dihasilkan. Contoh hasil boleh dilihat di sini.

Penyelidik telah melatih Vall-E dari 60,000 jam bahasa Inggeris dari lebih 7,000 pembual. Walaupun keputusan buat masa ini tidak sempurna, tetapi hasilnya seakan pembual sebenar.

Walau bagaimanapun, mungkin Microsoft memikirkan risiko. Tiada code dikeluarkan untuk dikongsi. Dalam terbitannya, dinyatakan "Oleh kerana Vall-E mampu menghasilkan perbualan dengan mengekalkan identity pembual, ianya mungkin akan membawa risiko jika disalah guna antaranya penipuan ideniti suara or penyamaran."

Tak hairan, kalau kajian ini akan dikembangkan dan pastinya pihak lain akan menjalan kajian yang serupa.

My KuchingNews