Материнские платы

Более 1600 моделей
mboards.ru
Популярные | Все

Оптимальная отдача

28.05.2017

Для измерения производительности агента во времени, необходимо ввести понятие отдачи. Как отдача обычно рассматривается накопление значений сигнала воз«- награждения в течение определенного времени. Агент обязан максимизировать среднее ожидаемое вознаграждение за время t, обозначаемое как Для определения понятия отдачи применяются три принципиально разных способа, каждый из которых приводит к формированию отличных от других форм поведения.

Метод бесконечного горизонта не ограничивается конечной областью определения (в следующей формуле с» обозначает бесконечность). Но вместо этого для обеспечения возможности довести вычисления до конца применяется обесцениваемое вознаграждение; чем дальше в будущее, тем в меньшей степени вознаграждение влияет на отдачу. В каждом шаге вознаграждение масштабируется с помощью выражения со степенью у (греческая буква гамма). Интересуют интернет провайдеры москвы? Выбирайте Комплат – только здесь вы найдете самые выгодные тарифы.

В модели среднего вознаграждения отдача выражается в терминах усредненного по времени значения вознаграждения. Этот метод может рассматриваться как частный случай модели бесконечного горизонта, за исключением того, что у=1 и сумма усредняется:

Основным недостатком метода со средним вознаграждением является то, что понятие времени игнорируется. Потенциальное вознаграждение, которое должно быть получено в далеком будущем, является столь же важным, что и вознаграждение, предоставляемое в следующий момент времени. Но вместо этого более предпочтительным является метод с обесцениваемым вознаграждением.








Голосов: 2 Оценка: 6
ASUS P9X79 WS
Голосов: 2 Оценка: 6
Jetway M2A692-VDP
Голосов: 1 Оценка: 6
EPoX EP-5EPAJ
Загрузка...