protoder 0 7 ноября, 2020 Опубликовано 7 ноября, 2020 · Жалоба Здравствуйте. Поясните пожалуйста, кто понимает. До какого-то момента идея стохастический градиентного спуска мне казалась ясной. Но тут наткнулся на одну статью, и вся ясность пропала. И чем дальше копаю, тем все хуже. ТО есть по началу я просто решил, что в статье ошибка. Но ет - многие авторы с ней солидарны. Вот смотрите. Пусть у меня нейросеть для распознавания цифр. Есть MNIST, 60000 примеров картинок 28х28, то есть 784 входа. Я делаю алгоритм обратного распределения методом градиентного спуска. Как я привык? Я беру один пример, прогоняю ее через сетку, и сразу же корректирую коэффициенты методом обратного распространения. ОК. Я полагал, что это и есть нормальный градиентный спуск. А схоластический - это когда я в каждом шаге беру не все 784 входа, а только его часть. Так вот. Я натолкнулся на другой алгоритм. Что вроде бы мы прогоняем все 60000 примеров, определяем вероятность ошибки (Cross entropy loss, я так понимаю), и только тут корректируем веса. А стохастический градиентный спуск - это когда мы берем один пример ( то есть то, что раньше я считал обычным градиентным спуском). Ну или не один пример, а несколько. Черт с ними, с терминами. НО - как мы можем выполнить обратное распределение по всем 60000 примерам? Мы можем определить частные производные - что по значению входов, что по коэффициентам W - только для конкретной входной комбинации. Для одного примера. Как можно ее определить по сразу 50000 входов? Что-то я где-то не так понял. Буду очень признателен, если прольете свет. Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться