End to end lip synchronization with a temporal autoencoder

Yoav Shalev, Lior Wolf

نتاج البحث: فصل من :كتاب / تقرير / مؤتمرمنشور من مؤتمرمراجعة النظراء

ملخص

We study the problem of syncing the lip movement in a video with the audio stream. Our solution finds an optimal alignment using a dual-domain recurrent neural network that is trained on synthetic data we generate by dropping and duplicating video frames. Once the alignment is found, we modify the video in order to sync the two sources. Our method is shown to greatly outperform the literature methods on a variety of existing and new benchmarks. As an application, we demonstrate our ability to robustly align text-to-speech generated audio with an existing video stream. Our code is attached as supplementary.

اللغة الأصليةالإنجليزيّة
عنوان منشور المضيفProceedings - 2020 IEEE Winter Conference on Applications of Computer Vision, WACV 2020
ناشرInstitute of Electrical and Electronics Engineers Inc.
الصفحات330-339
عدد الصفحات10
رقم المعيار الدولي للكتب (الإلكتروني)9781728165530
المعرِّفات الرقمية للأشياء
حالة النشرنُشِر - مارس 2020
الحدث2020 IEEE/CVF Winter Conference on Applications of Computer Vision, WACV 2020 - Snowmass Village, الولايات المتّحدة
المدة: ١ مارس ٢٠٢٠٥ مارس ٢٠٢٠

سلسلة المنشورات

الاسمProceedings - 2020 IEEE Winter Conference on Applications of Computer Vision, WACV 2020

!!Conference

!!Conference2020 IEEE/CVF Winter Conference on Applications of Computer Vision, WACV 2020
الدولة/الإقليمالولايات المتّحدة
المدينةSnowmass Village
المدة١/٠٣/٢٠٥/٠٣/٢٠

All Science Journal Classification (ASJC) codes

  • !!Computer Science Applications
  • !!Computer Vision and Pattern Recognition

بصمة

أدرس بدقة موضوعات البحث “End to end lip synchronization with a temporal autoencoder'. فهما يشكلان معًا بصمة فريدة.

قم بذكر هذا