Загрузка страницы

Разбиение выборки

Запишетесь на полный курс Машинного обучения на Python по адресу support@ittensive.com

Разбиение всех данных (исходной выборки) делается для оценки качества работы модели на независимых данных. Поскольку обычно таких данных нет, их выделяют из основной массы - разделяют выборку на обучающую и проверочную части. На обучающей обучают (строят) модель машинного обучения, на проверочной - проверяют качество (выбранную метрику) работы этой модели.

Обычно данные делят в соотношении 60/40, 80/20 или 85/15. Такие пропорции выбраны для минимизации ошибки как первого, так и второго рода.

Проверочная выборка нужна для оценки качества работы разных моделей друг относительно друга. Для оптимизации гиперпараметров одной модели используют перекрестную валидацию.

Перекрестная валидация
Для оптимизации гиперпараметров модели (параметров самой функции, которая выбрана моделью) используют дополнительное разбиение обучающей выборки на несколько (обычно 5) частей - так называемая перекрестная валидация на k-частях. Затем модель обучают k раз, каждый раз "вырезая" из обучающей выборки какую-то часть - и проверяя точность модели на оставшейся части данных. В итоге, получают эффективность работы модели для данного значения гиперпараметра. При этом проверка происходит на всех обучающих данных.

После нахождения оптимальных гиперпараметров проверяют их итоговую точность уже на проверочной выборке.

Валидация эпох
При обучении нейросетей на каждой эпохе обучения также обучающую выборку часто делят случайным образом на 2 части - обучающую и валидационную. Это необходимо для оценки переобучения нейросети (т.е. насколько нейросеть подгоняется под данные вместо выявления характерных особенностей).

Если по валидационной оценке эпохи точность модели не улучается, то обучение останавливают.

Видео Разбиение выборки канала Центр digital профессий ITtensive
Показать
Комментарии отсутствуют
Введите заголовок:

Введите адрес ссылки:

Введите адрес видео с YouTube:

Зарегистрируйтесь или войдите с
Информация о видео
6 мая 2020 г. 14:18:35
00:09:48
Другие видео канала
Обучение с подкреплениемОбучение с подкреплениемМетод Монте-КарлоМетод Монте-КарлоАвтокодировщики для поиска аномалийАвтокодировщики для поиска аномалийПарзеновские деревья для оптимизации гиперпараметровПарзеновские деревья для оптимизации гиперпараметровСамообучение (self-supervised learning)Самообучение (self-supervised learning)Цепи МарковаЦепи МарковаКак обучить нейронную сеть?Как обучить нейронную сеть?Путь аналитика данныхПуть аналитика данныхПринцип оптимальности БеллманаПринцип оптимальности БеллманаКак получить работу аналитиком данных на Python, не имея опыта работы в этой сфере?Как получить работу аналитиком данных на Python, не имея опыта работы в этой сфере?Почему Гитлер все же решился напасть? Лекция Леонида Млечина о Второй мировойПочему Гитлер все же решился напасть? Лекция Леонида Млечина о Второй мировойПланирование исследования часть 2 - Расчет размера выборки / Простая статистикаПланирование исследования часть 2 - Расчет размера выборки / Простая статистикаМетрики обучения с подкреплениемМетрики обучения с подкреплениемЛекция 10. Деревья классификации и регрессииЛекция 10. Деревья классификации и регрессииНаука и воровские понятия: бывший уголовник и ученый мутят бизнес – Дизель Шоу 2019 | ЮМОР ICTVНаука и воровские понятия: бывший уголовник и ученый мутят бизнес – Дизель Шоу 2019 | ЮМОР ICTV[DeepLearning | видео 3] В чем на самом деле заключается метод обратного распространения?[DeepLearning | видео 3] В чем на самом деле заключается метод обратного распространения?Машинное обучение. Лекция 2. Основы работы с данными. КлассификацияМашинное обучение. Лекция 2. Основы работы с данными. КлассификацияДеление выборки на обучающую и тестовуюДеление выборки на обучающую и тестовуюАлгоритмы на Python 3. Лекция №1Алгоритмы на Python 3. Лекция №1Q-learningQ-learning
Яндекс.Метрика