Brief Announcement: Gradual Learning of Deep Recurrent Neural Network

Ziv Aharoni, Gal Rattner, Haim Permuter

פרסום מחקרי: פרק בספר / בדוח / בכנספרסום בספר כנסביקורת עמיתים

תקציר

Deep Recurrent Neural Networks (RNNs) achieve state-of-the-art results in many sequence-to-sequence modeling tasks. However, deep RNNs are difficult to train and tend to suffer from overfitting. Motivated by the Data Processing Inequality (DPI) we formulate the multi-layered network as a Markov chain, introducing a training method that comprises training the network gradually and using layer-wise gradient clipping. In total, we have found that applying our methods combined with previously introduced regularization and optimization methods resulted in improvement to the state-of-the-art architectures operating in language modeling tasks.

שפה מקוריתאנגלית אמריקאית
כותר פרסום המארחCyber Security Cryptography and Machine Learning - Second International Symposium, CSCML 2018, Proceedings
עורכיםItai Dinur, Shlomi Dolev, Sachin Lodha
מוציא לאורSpringer Verlag
עמודים274-277
מספר עמודים4
מסת"ב (אלקטרוני)978-3-319-94147-9
מסת"ב (מודפס)978-3-319-94146-2
מזהי עצם דיגיטלי (DOIs)
סטטוס פרסוםפורסם - 17 יוני 2018
אירוע2nd International Symposium on Cyber Security Cryptography and Machine Learning, CSCML 2018 - Beer-Sheva, ישראל
משך הזמן: 21 יוני 201822 יוני 2018

סדרות פרסומים

שםLecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)
כרך10879 LNCS

כנס

כנס2nd International Symposium on Cyber Security Cryptography and Machine Learning, CSCML 2018
מדינה/אזורישראל
עירBeer-Sheva
תקופה21/06/1822/06/18

ASJC Scopus subject areas

  • ???subjectarea.asjc.2600.2614???
  • ???subjectarea.asjc.1700.1700???

טביעת אצבע

להלן מוצגים תחומי המחקר של הפרסום 'Brief Announcement: Gradual Learning of Deep Recurrent Neural Network'. יחד הם יוצרים טביעת אצבע ייחודית.

פורמט ציטוט ביבליוגרפי