Все видео Новые видео Популярные видео Категории видео

Авто	Видео-блоги	ДТП, аварии	Для маленьких	Еда, напитки
Животные	Закон и право	Знаменитости	Игры	Искусство
Комедии	Красота, мода	Кулинария, рецепты	Люди	Мото
Музыка	Мультфильмы	Наука, технологии	Новости	Образование
Политика	Праздники	Приколы	Природа	Происшествия
Путешествия	Развлечения	Ржач	Семья	Сериалы
Спорт	Стиль жизни	ТВ передачи	Танцы	Технологии
Товары	Ужасы	Фильмы	Шоу-бизнес	Юмор

Разбиение выборки

Запишетесь на полный курс Машинного обучения на Python по адресу support@ittensive.com

Разбиение всех данных (исходной выборки) делается для оценки качества работы модели на независимых данных. Поскольку обычно таких данных нет, их выделяют из основной массы - разделяют выборку на обучающую и проверочную части. На обучающей обучают (строят) модель машинного обучения, на проверочной - проверяют качество (выбранную метрику) работы этой модели.

Обычно данные делят в соотношении 60/40, 80/20 или 85/15. Такие пропорции выбраны для минимизации ошибки как первого, так и второго рода.

Проверочная выборка нужна для оценки качества работы разных моделей друг относительно друга. Для оптимизации гиперпараметров одной модели используют перекрестную валидацию.

Перекрестная валидация
Для оптимизации гиперпараметров модели (параметров самой функции, которая выбрана моделью) используют дополнительное разбиение обучающей выборки на несколько (обычно 5) частей - так называемая перекрестная валидация на k-частях. Затем модель обучают k раз, каждый раз "вырезая" из обучающей выборки какую-то часть - и проверяя точность модели на оставшейся части данных. В итоге, получают эффективность работы модели для данного значения гиперпараметра. При этом проверка происходит на всех обучающих данных.

После нахождения оптимальных гиперпараметров проверяют их итоговую точность уже на проверочной выборке.

Валидация эпох
При обучении нейросетей на каждой эпохе обучения также обучающую выборку часто делят случайным образом на 2 части - обучающую и валидационную. Это необходимо для оценки переобучения нейросети (т.е. насколько нейросеть подгоняется под данные вместо выявления характерных особенностей).

Если по валидационной оценке эпохи точность модели не улучается, то обучение останавливают.

Видео Разбиение выборки канала Центр digital профессий ITtensive

Показать

Комментарии отсутствуют