Логистическая регрессия

Логистическая регрессия- это процесс моделирования вероятности дискретного результата с учетом входной переменной. Наиболее распространенная логистическая регрессия моделирует двоичный результат; что-то, что может принимать два значения, такие как истина / ложь, да / нет и так далее. Полиномиальная логистическая регрессия может моделировать сценарии, в которых существует более двух возможных дискретных результатов. Логистическая регрессия - это полезный метод анализа проблем классификации, когда вы пытаетесь определить, подходит ли новая выборка лучше всего к категории. Поскольку аспекты кибербезопасности представляют собой проблемы классификации, такие как обнаружение атак, логистическая регрессия является полезным аналитическим методом.

Методы машинного обучения

3.5.5 Логистическая регрессия

Логистическая регрессия, несмотря на свое название, является скорее моделью классификации, чем моделью регрессии. Логистическая регрессия - это простой и более эффективный метод для задач двоичной и линейной классификации. Это модель классификации, которую очень легко реализовать и которая обеспечивает очень хорошую производительность с линейно разделяемыми классами. Это широко используемый алгоритм классификации в промышленности. Модель логистической регрессии, такая как Adaline и персептрон, представляет собой статистический метод бинарной классификации, который можно обобщить на многоклассовую классификацию. Scikit-learn имеет высокооптимизированную версию реализации логистической регрессии, которая поддерживает задачу многоклассовой классификации (Raschka, 2015).

Пример использования аналитики больших данных

RO Sinnott,. Ю. Сан, в Big Data, 2016

Логистическая регрессия

LR - это преобразование линейной регрессии с использованием сигмовидной функции. Вертикальная ось обозначает вероятность данной классификации, а горизонтальная ось - значение x . Предполагается, что распределение y | x - распределение Бернулли. Формула LR следующая:

Здесь β 0 + β 1 x аналогичен линейной модели y = ax + b . Логистическая функция применяет сигмовидную функцию, чтобы ограничить значение y от большого масштаба до диапазона 0–1.

Параметры эксперимента для LR следующие. Буква « C » похожа на модель SVM. Это обратная степень регуляризации. Большие значения означают более низкую регуляризацию. Термин « соответствие _ пересечение » представляет собой постоянное число, которое добавляется к функции принятия решения LR. Термин « решатель » позволяет различным алгоритмам определения градиента устанавливать β i . « Lbfgs » - это сокращение от алгоритма Ройдена-Флетчера-Гольдфарба-Шанно с ограниченной памятью [18]. Термин « либлинеарный » применяется к алгоритмам спуска координат для оптимизации параметров LR [19]. Термин « max _ iter”Обозначает количество раз, необходимое для схождения градиентного спуска (Таблица 4).

Таблица 4. Параметры LR для поиска по сетке

C Fit_intercept Решатель Макс_итер 1.0, 1e5
Правда ложьlbfgs, liblinear100, 200

После поиска по сетке идеальная оценка (0,686) достигается, когда « fit _ intercept » имеет значение True, « C » равно 1,0 и « solver » является « liblinear ».

Графики кривой обучения для параметров по умолчанию и оптимизированных параметров LR показаны на рис. 11 и 12. Как видно, разница между точностью обучения и точностью теста постепенно уменьшается, однако точность не улучшается.

Рис 11. Кривая обучения настройке параметров LR по умолчанию.

Рис 12. Оптимизированная кривая обучения настройке параметров LR.

Выбор функций и классификация данных микрочипов с использованием методов машинного обучения

15.3.2.1 Классификатор логистической регрессии

LR - параметрическая форма распределения PY | X, где Y - дискретное значение, а X = x 1… xn - вектор, содержащий дискретные или непрерывные значения [86]. Параметрическую модель LR можно записать как

Параметр W LR выбирается путем максимизации вероятности условных данных. Это вероятность наблюдаемых значений Y в обучающих данных. Ограничение можно записать как

Data Mining, Статистика

II.A.1 Логистическая регрессия

Логистическая регрессия полезна, когда переменная ответа является двоичной, но независимые переменные являются непрерывными. Это было бы так, если бы кто-то прогнозировал, является ли клиент хорошим кредитным риском, используя информацию об их доходе, годах работы, возрасте, образовании и других непрерывных переменных.

В таких приложениях используется модель

где Y = 1, если клиент представляет собой хороший риск, X- вектор независимых переменных для этого клиента, а θ - неизвестные параметры, которые необходимо оценить на основе данных. Эта модель выгодна тем, что при трансформации

получаем линейную модель p = XT θ. Таким образом, будет применяться весь обычный механизм множественной линейной регрессии.

Логистическая регрессия может быть изменена для обработки категориальных независимых переменных путем определения фиктивных переменных, но это становится непрактичным, если существует много категорий. Точно так же можно распространить подход на случаи, когда переменная ответа является политомической (т. Е. Принимает более двух категориальных значений). Кроме того, логистическая регрессия может включать взаимодействия продуктов путем определения новых независимых переменных из исходного набора, но это тоже становится непрактичным, если существует много потенциальных взаимодействий. Логистическая регрессия реализуется относительно быстро, что является привлекательным для приложений интеллектуального анализа данных с большими наборами данных. Возможно, главная ценность логистической регрессии заключается в том, что она дает важное теоретическое окно для изучения поведения более сложных методологий классификации (Friedman et al., 2000).

Количественные методы управления продуктом

Эрик Бенджамин Сеуферт, в Freemium Economics, 2014

Логистическая регрессия

Логистическая регрессия - чрезвычайно надежный и гибкий метод предсказания дихотомической классификации; то есть он используется для прогнозирования двоичного результата или состояния, такого как да / нет , успех / неудача , и произойдет / не произойдет . Логистическая регрессия решает многие проблемы, с которыми сталкивается при разработке продукта freemium, которые не может выполнить линейная регрессия, потому что вместо прогнозирования числового значения (например, общего дохода пользователя за все время), она прогнозирует дискретное, дихотомическое значение (например, пользователь потратит деньги или не тратьте деньги на товар). По этой причине логистическую регрессию точнее назвать логистической классификацией.

Проблемы, связанные со здоровьем, часто приводятся в качестве примеров, для которых подходит логистическая регрессия, например, есть ли у человека конкретное заболевание или недомогание с учетом набора симптомов. Но примеров применимости логистической регрессии для разработки продуктов freemium множество и они очевидны, потому что сегментация пользователей является такой важной частью успешной реализации модели freemium. Чтобы оптимизировать взаимодействие с пользователем в контексте модели freemium, необходимо учитывать вкусы и особенности поведения пользователя, а выполнение этого на раннем этапе использования продукта позволяет добиться максимальной степени оптимизации. Логистическая регрессия, пожалуй, один из лучших способов проведения такой классификации.

Подобно линейной регрессии, логистическая регрессия создает модель взаимосвязи между несколькими переменными. Логистическая регрессия подходит, когда прогнозируемая переменная является вероятностью в двоичном диапазоне от 0 до 1.

В таких случаях линейная регрессия не подходит, потому что значения независимых переменных ограничены 0 и 1; движение за пределы зависимых значений, представленных в наборе данных выборки, может привести к невозможным результатам (ниже 0 или выше 1). Следовательно, кривая вероятности в двоичной шкале должна иметь сигмовидную форму (s-образную) и математически ограничиваться между 0 и 1, что обеспечивает модель логистической регрессии. См. Рисунок 3.26.

Рисунок 3.26. Уравнение линейной регрессии в линейной шкале ( слева ) и уравнение логистической регрессии в шкале вероятностей ( справа ).

Идеальная форма S на кривой вероятности в логистической регрессии соответствует идеально прямой линии в линейной регрессии; Чтобы проверить остаточное расстояние от кривой в логистической регрессии для оценки соответствия модели, данные должны быть преобразованы. Это делается путем преобразования вероятностей в шансы , создания логистической функции из шансов и, вместо подбора кривой с использованием наименьшего значения остатков, итеративного тестирования различных параметров до тех пор, пока не будет найдено наилучшее соответствие для логарифмических шансов (так называемое максимальное -правдоподобный метод).

Метод максимального правдоподобия требует больших вычислительных ресурсов и, хотя он может быть реализован в программном обеспечении для работы с электронными таблицами, лучше всего подходит для пакетов статистического программного обеспечения. Выходные данные логистической регрессии представлены в виде отношения шансов , которое представляет собой числовые шансы (ограниченные 0 и бесконечностью) двоичной зависимой переменной, истинной при увеличении независимой переменной на одну единицу.

По сравнению с результатами линейной регрессии, которая могла бы выглядеть так: «Увеличение удержания пользователей в первый день на одну единицу коррелирует с увеличением на 10 единиц дохода пользователей за все время жизни», результаты логистической регрессии будут выглядеть так: «Одно- Увеличение количества единиц в день удержания пользователей в первый день коррелирует с увеличением в 10 раз шансов, что пользователь в конечном итоге потратит деньги на продукт (а не не потратит деньги) ».

Поскольку логистические модели по своей сути гетероскедастичны, и, следовательно, метод максимального правдоподобия не стремится минимизировать дисперсию в модели, не существует меры соответствия в логистической регрессии, аналогичной статистике R 2 в линейной регрессии. Там существуют, однако, несколько псевдо - R 2 статистические данные , которые передают ту же самую основную информацию о -благость форме, как и R 2 и формулируются по той же шкале от 0 до 1 (хотя в некоторых случаях, точные значения 0 или 1 может быть невозможно). Некоторые общие статистические данные псевдо- R 2, сообщаемые статистическими пакетами, включают R 2 Макфаддена, скорректированный R 2 Макфаддена, R 2 Эфрона иКокс-Снелл Р 2. Как и в случае со статистикой OLS R 2, чем ближе значение псевдо- R 2 к 1, тем лучше модель соответствует данным.

Когнитивные вычисления: теория и приложения

В. Н. Гудивада,. Д.Л. Рао, в Справочнике по статистике, 2016 г.

4.1 Логистическая регрессия

Логистическая регрессия - это, по сути, алгоритм классификации. Слово «регрессия» в его названии происходит от его близкого родственника в области регрессии, известной как линейная регрессия . Учитывая, что классы являются дискретными в задачах контролируемой классификации, цель алгоритмов - найти границы решениясреди классов. Границы решения отделяют примеры одного класса от другого. В зависимости от экземпляра проблемы границы решения могут быть сложными и нелинейными по геометрической форме. В общем, разные алгоритмы машинного обучения имеют разные предположения относительно формы границ принятия решений. В случае логистической регрессии предполагается, что границы принятия решения линейны. То есть они являются гиперплоскостями в многомерном пространстве признаков, где размерность пространства признаков просто определяется количеством элементов в векторе признаков обучающего примера.

Параметры модели логистической регрессии - это примерно веса функций. Каждому взвешенному вектору признаков сопоставляется значение от 0 до 1 с помощью S-образной логистической функции. Это значение интерпретируется как вероятность принадлежности примера к определенному классу. Алгоритм обучения настраивает веса, чтобы правильно классифицировать обучающие примеры. Здесь неизбежно возникает проблема недопущения переобучения. Метод градиентного спуска и несколько его вариантов популярны для настройки весов. После выбора весов логистическая функция применяется к любому невидимому примеру, чтобы получить вероятность его принадлежности к классу.

Из-за упрощенного предположения о линейных границах решений логистическая регрессия часто является первым алгоритмом, который следует использовать для решения проблем классификации. Кроме того, известно, что из-за линейных несложных границ принятия решений логистическая регрессия менее склонна к переобучению. Интуитивно переобучение происходит, когда мы пытаемся правильно классифицировать каждый обучающий пример, произвольно перемещая границу принятия решения. Кроме того, градиентный спуск обычно работает очень быстро и, таким образом, ускоряет этап обучения логистической регрессии. Все эти преимущества оправдывают популярное применение логистической регрессии к множеству задач классификации. С другой стороны, упрощенные допущения моделирования могут привести к тому, что они не подходят для богатых и сложных наборов данных.

Логистическая регрессия использовалась во множестве прикладных областей. Онорио и Ортис (2015) использовали его для изучения структуры и параметров модели социальной сети, которая отражает стратегическое поведение людей. Модель использовалась для поиска наиболее влиятельных лиц в сети (Irfan and Ortiz, 2011, 2014). Логистическая регрессия также использовалась в ГИС (Ayalew and Yamagishi, 2005; Lee, 2005), фильтрации спама в электронной почте (Chang et al., 2008) и других задачах обработки естественного языка (Jurafsky and Martin, 2009; Nadkarni et al. , 2011), распознавание речи (Jurafsky, Martin, 2009), финансы (Laitinen, Laitinen, 2001; Maher, Sen, 1997) и более широкая область распознавания образов (Bishop, 2006).

Точная медицина в цифровой патологии с помощью анализа изображений и машинного обучения

Питер Д. Кайе Бакалавр, доктор медицинских наук, доктор философии. Огнен Аранджелович M.Eng. (Оксон), доктор философии (Кантаб), Искусственный интеллект и глубокое обучение в патологии, 2021 г.

Методы, основанные на логистической регрессии

Логистическая регрессия - еще один широко используемый, хорошо понимаемый и часто хорошо работающий метод обучения с учителем. В логистической регрессии условная вероятность зависимой переменной (класса) y моделируется как множественная линейная регрессия с логит-преобразованием независимых переменных (входных характеристик) x 1 ,…, x n :

Модель обучается (т. Е. Параметр веса w изучен) путем максимизации правдоподобия модели в наборе обучающих данных, определяемой следующим образом:

штрафуется сложностью модели:

который можно переформулировать как минимизацию следующей регуляризованной отрицательной логарифмической вероятности:

Подход с координатным спуском, такой как описанный Yu et al. [25], можно использовать для минимизации L.

Сбор данных

Джон А. Бандж, Дин Х. Джадсон, в Энциклопедии социальных измерений, 2005 г.

Логистическая регрессия

Логистическая регрессия - это хорошо известная процедура, которую можно использовать для классификации. Это вариант множественной регрессии, при котором ответ является бинарным, а не количественным. В простейшем варианте переменные признаков считаются неслучайными. Ответ, представляющий собой класс, представляет собой двоичную случайную величину, которая принимает значение 1 (для интересующего класса) с некоторой вероятностью p и значение 0 с вероятностью 1 - p . «Вероятность успеха» p является функцией значений переменных характеристик; в частности, логарифм отношения шансов или «логарифм шансов», log [ p / ( 1 - p)], является линейной функцией переменных-предикторов. Чтобы использовать логистическую регрессию для классификации, устанавливается пороговое значение, обычно 0,5; случай присваивается классу 1, если его оцененная или подобранная вероятность успеха больше (или равна) отсечке, и ему присваивается класс 0, если оцененная вероятность меньше порогового значения. Из-за природы задействованных функций это эквивалентно границе линейной классификации, хотя это (не обязательно) то же самое, что было бы получено из линейного дискриминантного анализа.

Как и стандартная множественная регрессия, логистическая регрессия включает в себя тесты гипотез значимости каждой переменной, а также другие тесты, оценки и оценки согласия. В настройке классификации тесты значимости переменных могут использоваться для выбора признаков: современные вычислительные реализации включают несколько вариантов пошагового (итеративного) выбора переменных. Из-за концептуальной аналогии с обычной множественной регрессией и простоты автоматического выбора переменных логистическая классификация, вероятно, является наиболее часто используемой процедурой интеллектуального анализа данных. Другое преимущество состоит в том, что он дает вероятность успеха с учетом значений переменных признаков, а не только предсказанного класса, что позволяет сортировать наблюдения по вероятности успеха и устанавливать произвольное ограничение для классификации.не обязательно 0,5. Но везде, где установлено ограничение, логистическая классификация в основном влечет за собой линейную границу классификации, и это накладывает ограничение на потенциальную эффективность классификатора. Некоторая гибкость может быть достигнута путем введения преобразований (например, полиномов) и взаимодействий между переменными признаков.

Принципы и методы науки о данных

Калидас Йетуру, в Справочнике статистики, 2020

2.3 Логистическая регрессия

Логистическая регрессия - это один из фундаментальных алгоритмов классификации, в котором логарифмические шансы в пользу одного из классов определяются и максимизируются с помощью вектора весов. В отличии от линейной регрессии , где ш ⋅ х непосредственно используются для прогнозирования у координат, в формулировке логистической регрессии ш ⋅ х определяются как лог шансы в пользу прогнозируемого класса будучи 1. Но для интерпретации из ж ⋅ х значений, то остальная часть формулировки зависит от регрессии вектора w, чтобы минимизировать логитфункция потерь, этому методу дается название логистической регрессии. По сути, это алгоритм классификации, хотя слово «регрессия» присутствует.

Пусть y ′ ∈ 0, 1 - фактическая метка точки данных в двухклассовой задаче. Пусть D = x ′, y ′)>будет набором данных точек. Пусть (∀ ( x ′, y ′) ∈ D ): D 1 = x ′, 1) | y ′ = 1>и D 0 = x ′, 0) | y ′ = 0>Пусть y обозначает предсказанный класс. Теперь определим w ⋅ x = log (P (y = 1 | w, x) P (y = 0 | w, x)), где P ( y = 1 | w , x) обозначают вероятность предсказанного класса 1 для векторов w и x . При этой настройке уравнения обновления весов логистической регрессии выводятся, как показано ниже.

В логистической регрессии нам необходимо определить вектор w так, чтобы вероятность данных была максимальной (уравнение 11). Интерпретация функции потерь дается формулой. (12).

Оптимальное значение получается путем взятия производной функции потерь по w, которая является градиентом, и повторения путем перемещения в направлении отрицательного градиента, вычисляемого на каждом этапе (уравнение 13).

Здесь ∇ L (w) = ∑ (x, y) ∈ D y - 1 1 + ew ⋅ x ⊙ x.

Рассмотрим вторую производную функции потерь или градиент градиента, который дает матрицу Гессе (уравнение 14). Векторное внутреннее произведение обеспечивает положительную определенность гессиана .

Рассмотрим вектор y в том же d- мерном векторном пространстве, что и входные точки, R d ,

Существует интересная упрощенная форма формулировки логистической регрессии, когда y ∈ вместо . Функцию потерь можно упростить. Рассмотрим функцию потерь (уравнение 12) для двух сценариев, когда y ′ = 0 и y ′ = 1.

Преобразование проблемы y в β = 2 * y - 1 в уравнении. (18).

Например, примерка классификатора логистической регрессии к набору данных типа данных лун показана на рисунке 5. Оттенки красного цвета указывают вероятность каждого пикселя в области изображения для красного класса согласно обученному классификатору. Оттенки синего цвета указывают вероятность каждого пикселя в области изображения для синего класса согласно обученному классификатору.

Рис. 5. Разделение двух классов точек данных в наборе данных о лунах с помощью полинома первой степени ( линии ). Цвета на 2D-графике варьируются от красного до синего, пропорционально степени достоверности соответствующих цветных классов. Цвета в неоднозначных областях - светло-красный и голубой . Чем дальше область от области пересечения двух классов, тем темнее цвета.

Сценарий мультиклассовой классификации более сложен, чем двоичный сценарий, и представлен в следующих разделах.