Temporal difference methods for the variance of the reward to go

Aviv Tamar, Dotan Di Castro, Shie Mannor

פרסום מחקרי: פרסום בכתב עתמאמר מכנסביקורת עמיתים

תקציר

In this paper we extend temporal difference policy evaluation algorithms to performance criteria that include the variance of the cumulative reward. Such criteria are useful for risk management, and are important in domains such as finance and process control. We propose variants of both TD(0) and LSTD(λ) with linear function approximation, prove their convergence, and demonstrate their utility in a 4-dimensional continuous state space problem.

שפה מקוריתאנגלית
עמודים (מ-עד)1532-1540
מספר עמודים9
כתב עתProceedings of Machine Learning Research
כרך28
סטטוס פרסוםפורסם - 2013
אירוע30th International Conference on Machine Learning, ICML 2013 - Atlanta, GA, ארצות הברית
משך הזמן: 16 יוני 201321 יוני 2013

ASJC Scopus subject areas

  • ???subjectarea.asjc.1700.1709???
  • ???subjectarea.asjc.3300.3312???

טביעת אצבע

להלן מוצגים תחומי המחקר של הפרסום 'Temporal difference methods for the variance of the reward to go'. יחד הם יוצרים טביעת אצבע ייחודית.

פורמט ציטוט ביבליוגרפי