Все видео Новые видео Популярные видео Категории видео

Авто	Видео-блоги	ДТП, аварии	Для маленьких	Еда, напитки
Животные	Закон и право	Знаменитости	Игры	Искусство
Комедии	Красота, мода	Кулинария, рецепты	Люди	Мото
Музыка	Мультфильмы	Наука, технологии	Новости	Образование
Политика	Праздники	Приколы	Природа	Происшествия
Путешествия	Развлечения	Ржач	Семья	Сериалы
Спорт	Стиль жизни	ТВ передачи	Танцы	Технологии
Товары	Ужасы	Фильмы	Шоу-бизнес	Юмор

Логистическая регрессия

Запишетесь на полный курс Машинного обучения на Python по адресу support@ittensive.com

В отличие от обычной регрессии, в методе логистической регрессии не производится предсказание значения числовой переменной исходя из выборки исходных значений. Вместо этого, значением функции является вероятность того, что данное исходное значение принадлежит к определенному классу.

Для простоты, давайте предположим, что у нас есть только два класса и вероятность, которую мы будем определять, P+ вероятности того, что некоторое значение принадлежит классу "+". И конечно P- = 1 - P+. Таким образом, результат логистической регрессии всегда находится в интервале [0, 1].

Основная идея логистической регрессии заключается в том, что пространство исходных значений может быть разделено линейной границей (т.е. прямой) на две соответствующих классам области. В случае двух измерений — это просто прямая линия без изгибов. В случае трех — плоскость, далее - гиперплоскость. Эта граница задается в зависимости от имеющихся исходных данных и обучающего алгоритма. Чтобы все работало, точки исходных данных должны разделяться линейной границей на две вышеупомянутых области. Если точки исходных данных удовлетворяют этому требованию, то их можно назвать линейно разделяемыми.

Логистическая регрессия
Указанная разделяющая плоскость называется линейным дискриминантом, так как она является линейной с точки зрения своей функции, и позволяет модели производить разделение, дискриминацию точек на различные классы.

Как происходит разделение
Если взять две исходные переменные - x1 и x2, тогда функция, соответствующая границе, примет вид:

β0 + β1x1 + β2x2

Важно отметить, что и x1, и x2 являются исходными переменными, а выходная переменная не является частью исходного пространства в отличие от метода линейной регрессии.

Рассмотрим точку (a, b). Подставляя эти значения вместо x1 и x2 в граничную функцию, получим результат

β0 + β1a + β2b

Теперь, в зависимости от положения (a, b) будет три варианта:

1. (a, b) лежит в области, ограниченной точками класса "+". Тогда значение граничной функции будет положительной, находясь где-то в пределах (0,oo). С математической точки зрения, чем больше величина этого значения, тем больше расстояние между точкой и границей. А это означает большую вероятность того, что (a, b) принадлежит классу "+". Следовательно, вероятность будет находиться в пределах (0,5, 1].

2. (a, b) лежит в области, ограниченной точками класса "-". Теперь значение граничной функции будет отрицательной, находясь в пределах (-oo, 0). Но, как и в случае с положительным значением, чем больше величина выходного значения по модулю, тем больше вероятность, что (a, b) принадлежит классу "-", и вероятность находится в интервале [0, 0.5).

3. (a, b) лежит на самой границе. Это означает, что модель действительно не может определить, принадлежит ли (a, b) к классу "+" или к классу "-". И в результате, вероятность будет равняться 0,5.
В итоге получили функцию, с помощью которой возможно получить значение в пределах (-oo, oo), имея точку исходных данных. Преобразовать полученное значение в вероятность P+ можно с помощью функции отношения шансов (OR).

P(X) / (1 - P(X))

где P(X) - вероятность события X. Очевидно, что вероятность и отношение шансов содержат одинаковую информацию. Но, в то время как P(X) находится в пределах от 0 до 1, OR(X) находится в пределах от 0 до oo.

Обозначив за t значение граничной функции, вычисленное выше, функция логистической регрессии примет вид:

P+ = e^t / (1 + e^t)

Видео Логистическая регрессия канала Центр digital профессий ITtensive

Показать

Комментарии отсутствуют