End to end lip synchronization with a temporal autoencoder

Yoav Shalev, Lior Wolf

פרסום מחקרי: פרק בספר / בדוח / בכנספרסום בספר כנסביקורת עמיתים

תקציר

We study the problem of syncing the lip movement in a video with the audio stream. Our solution finds an optimal alignment using a dual-domain recurrent neural network that is trained on synthetic data we generate by dropping and duplicating video frames. Once the alignment is found, we modify the video in order to sync the two sources. Our method is shown to greatly outperform the literature methods on a variety of existing and new benchmarks. As an application, we demonstrate our ability to robustly align text-to-speech generated audio with an existing video stream. Our code is attached as supplementary.

שפה מקוריתאנגלית
כותר פרסום המארחProceedings - 2020 IEEE Winter Conference on Applications of Computer Vision, WACV 2020
מוציא לאורInstitute of Electrical and Electronics Engineers Inc.
עמודים330-339
מספר עמודים10
מסת"ב (אלקטרוני)9781728165530
מזהי עצם דיגיטלי (DOIs)
סטטוס פרסוםפורסם - מרץ 2020
אירוע2020 IEEE/CVF Winter Conference on Applications of Computer Vision, WACV 2020 - Snowmass Village, ארצות הברית
משך הזמן: 1 מרץ 20205 מרץ 2020

סדרות פרסומים

שםProceedings - 2020 IEEE Winter Conference on Applications of Computer Vision, WACV 2020

כנס

כנס2020 IEEE/CVF Winter Conference on Applications of Computer Vision, WACV 2020
מדינה/אזורארצות הברית
עירSnowmass Village
תקופה1/03/205/03/20

ASJC Scopus subject areas

  • ???subjectarea.asjc.1700.1706???
  • ???subjectarea.asjc.1700.1707???

טביעת אצבע

להלן מוצגים תחומי המחקר של הפרסום 'End to end lip synchronization with a temporal autoencoder'. יחד הם יוצרים טביעת אצבע ייחודית.

פורמט ציטוט ביבליוגרפי