ЕСР это "давайте наберём случайных отсчётов и вычислим по ним изменение параметров распределения вероятности, используя естественный градиент". Последний определён, как градиент, умноженный на матрицу, обратную матрице Фишера, которая, в свою очередь, определена, как сумма внешних произведений градиента параметров распределения логарифма вероятности в некоей точке.
Две находки за сегодня:
- Градиент вероятности работает столь же прекрасно, как и градиент логарифма вероятности при формировании градиента и матрицы Фишера,
- А вот отключение использования естественного градиента отключает сходимость на квадратичной задаче
Второе было ясно и без меня (на это указывается в исходной статье про ЕСР). Но вот первое оказалось весьма интересным - понятно, что градиенты вероятности и логарифма вероятности сонаправлены, однако они должны иметь совершенно разные длины. Разительно разные.