Тема 5. Регрессия

В теме 4 мы разобрали задачу классификации — предсказание меток из конечного множества. Сейчас рассмотрим зеркальный по форме, но содержательно отличающийся класс задач: предсказание непрерывной величины. Регрессия — самый изученный раздел статистического обучения; именно с неё, исторически и педагогически, начинается обучение с учителем. На её материале удобно ввести понятия, которые в более сложных моделях остаются скрытыми за инженерным аппаратом: геометрию метода наименьших квадратов, смысл регуляризации, диагностику остатков.

Курс ориентирован на инженеров интернета вещей, и регрессия здесь — рабочий инструмент. Калибровка сенсоров, восстановление пропусков в телеметрии, оценка ресурса батареи, прогноз нагрузки на канал связи — все эти задачи в простейшей постановке сводятся к регрессии. Поэтому мы пройдём её не как абстрактную статистическую процедуру, а как способ получения практически полезных предсказаний, понимая ограничения и сценарии отказа.

Задача регрессии

Постановка задачи

В рамках регрессии задача обучения с учителем формулируется так. Имеется выборка $\{(x_i, y_i)\}_{i=1}^{n}$ , где $x_i \in \mathbb{R}^p$ — вектор признаков, а $y_i \in \mathbb{R}$ — наблюдаемая непрерывная величина. Требуется построить функцию $\hat{f}: \mathbb{R}^p \to \mathbb{R}$ , минимизирующую ожидаемые потери на новых данных из того же распределения. Типичный выбор функции потерь — квадратичная $L(y, \hat{f}(x)) = (y - \hat{f}(x))^2$ , чему мы посвятим основное внимание; альтернативы (абсолютная, Хьюбера) рассмотрим в разделе про метрики.

Принципиальное отличие от классификации лежит не в алгоритмическом аппарате, а в характере выходного пространства. Метка класса дискретна: между «спам» и «не спам» нет промежуточных значений, и ошибка либо есть, либо нет. Непрерывная переменная упорядочена и метризована: предсказание 102 при истинной 100 — на порядок лучше, чем 200, и именно эта градация ошибки структурирует всю задачу. Отсюда естественность квадратичной потери: она наказывает большие отклонения сильнее малых, что согласуется с практическим восприятием качества прогноза.

Часто из этой же постановки выводят и второе отличие: в классификации мы оцениваем дискретное событие, а в регрессии — числовую величину, у которой есть единицы измерения. Это влечёт прозаическое, но важное практическое следствие: метрика качества имеет тот же физический смысл, что и предсказываемая величина. Ошибка модели по температуре измеряется в градусах, по цене — в рублях, по току потребления — в миллиамперах. Возможность интерпретировать значение метрики напрямую — большое преимущество регрессии перед классификацией, где «accuracy 0.93» сама по себе ни о чём не говорит без контекста.

Прикладных задач регрессии, релевантных для интернета вещей и встраиваемых систем, немало. Калибровка датчика (англ. sensor calibration): по сырым показаниям АЦП и температуре окружающей среды восстановить истинное физическое значение измеряемой величины — давления, концентрации газа, силы тока. Восстановление пропусков в потоке телеметрии: если соседние пакеты пришли, а текущий потерян, по контексту оценивается пропущенное значение. Прогноз срока службы литий-ионной батареи: по истории циклов заряда-разряда, температуре эксплуатации и текущему сопротивлению предсказать остаточную ёмкость. Прогноз энергопотребления узла на следующий час по графику активности и расписанию задач. Оценка ослабления сигнала в канале радиосвязи как функция расстояния, рельефа и плотности застройки — классическая задача планирования покрытия.

Не всякая численная зависимость — задача регрессии в обсуждаемом смысле. Если связь между $x$ и $y$ выводится из физического закона аналитически (например, из формулы Стокса для оседающей частицы), модель строить не нужно — нужно подставить значения. Регрессия становится осмысленной, когда зависимость либо неизвестна, либо настолько сложна, что эмпирическая аппроксимация по данным дешевле и точнее, чем явная физическая модель.

Методы регрессии

Линейная регрессия

Простейшая, и при этом самая полезная как точка отсчёта, модель регрессии — линейная. Положим $\hat{f}(x) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_p x_p = \beta_0 + x^\top \beta.$ Параметрами модели служат свободный член $\beta_0$ и вектор коэффициентов $\beta = (\beta_1, \ldots, \beta_p)^\top$ . Модель утверждает, что ожидаемое значение $y$ при фиксированных значениях признаков складывается из вкладов каждого признака, взятых с собственными весами. Эта структура — линейная комбинация — настолько проста, что коэффициенты допускают прямую интерпретацию: $\beta_j$ показывает, на сколько в среднем изменится $y$ при единичном изменении $x_j$ при неизменных остальных признаках.

Подбор коэффициентов осуществляется методом наименьших квадратов (англ. ordinary least squares, OLS): минимизируется сумма квадратов отклонений предсказаний от наблюдений $\mathrm{RSS}(\beta) = \sum_{i=1}^{n} \left(y_i - \beta_0 - x_i^\top \beta\right)^2.$ Если ввести расширенную матрицу признаков $X \in \mathbb{R}^{n \times (p+1)}$ , в первом столбце которой стоят единицы (для свободного члена), и вектор откликов $y \in \mathbb{R}^n$ , задача принимает компактный вид $\|y - X\beta\|^2 \to \min$ . Дифференцируя по $\beta$ и приравнивая нулю, получаем нормальные уравнения $X^\top X \beta = X^\top y$ , а при невырожденности $X^\top X$ — замкнутую формулу $\hat{\beta} = (X^\top X)^{-1} X^\top y.$ Существование явного решения отличает OLS от подавляющего большинства методов машинного обучения, где параметры подбираются итеративно. Это не означает, что в реальных библиотеках формула применяется напрямую: численно устойчивые реализации (в scikit-learn, statsmodels) опираются на QR- или SVD-разложение матрицы $X$ , что позволяет избежать обращения возможно плохо обусловленной матрицы.

Геометрическая интерпретация даёт ещё один взгляд на ту же задачу. Столбцы матрицы $X$ порождают подпространство в $\mathbb{R}^n$ — линейные комбинации признаков. Метод наименьших квадратов проецирует вектор откликов $y$ на это подпространство; предсказание $\hat{y} = X\hat{\beta}$ — ближайшая к $y$ точка подпространства в евклидовой метрике, а вектор остатков $r = y - \hat{y}$ ортогонален всем столбцам $X$ . В пространстве признаков (другая, более привычная картина) гиперплоскость $\hat{f}(x) = \beta_0 + x^\top \beta$ проходит сквозь облако точек $(x_i, y_i)$ так, чтобы суммарный квадрат вертикальных отклонений был минимален. Иллюстрация для одномерного случая показана ниже.

Линейная регрессия: облако точек, OLS-прямая и вертикальные остатки — Метод наименьших квадратов в одномерном случае: прямая минимизирует сумму квадратов вертикальных отклонений от точек выборки

За простотой линейной модели стоит набор теоретических допущений, выполнение которых превращает OLS в оптимальную оценку (теорема Гаусса—Маркова), а нарушение — в источник систематических ошибок. Перечислим их и обозначим практические последствия.

Линейность связи — само ядро модели: предполагается, что условное среднее $\mathbb{E}[y \mid x]$ есть линейная функция признаков. Если истинная зависимость существенно нелинейна, линейная модель даст высокое смещение независимо от размера выборки. Распространённый приём — введение нелинейных преобразований признаков (квадраты, логарифмы, перекрёстные произведения) — формально оставляет модель линейной по параметрам, но линейной по новым признакам.

Независимость наблюдений. Метод предполагает, что объекты выборки не связаны между собой. Для временных рядов и пространственных данных это допущение нарушается: соседние во времени или в пространстве наблюдения скоррелированы, что приводит к недооценке стандартных ошибок коэффициентов. В таких задачах применяют либо специализированные модели (авторегрессионные, геостатистические), либо корректируют ковариационную матрицу оценок.

Гомоскедастичность (англ. homoscedasticity) — постоянство дисперсии остатков. Если дисперсия ошибки растёт с величиной предсказываемой переменной (типичная ситуация для цен, доходов, концентраций), оценки коэффициентов остаются несмещёнными, но перестают быть эффективными, а доверительные интервалы становятся некорректными. Симптомы и диагностику гетероскедастичности мы разберём в разделе про анализ остатков.

Нормальность ошибок. Для несмещённости и состоятельности оценок нормальность не нужна — она требуется только для построения точных доверительных интервалов и проверки гипотез о значимости коэффициентов в малых выборках. При $n$ в сотни и тысячи центральная предельная теорема обеспечивает асимптотическую нормальность оценок и без этого допущения.

Отсутствие мультиколлинеарности. Если столбцы матрицы $X$ почти линейно зависимы, $X^\top X$ становится плохо обусловленной: её определитель близок к нулю, обращение численно неустойчиво, а коэффициенты $\hat{\beta}$ — высоковариативны и сильно меняются при малых изменениях данных. К этому случаю мы переходим в следующем разделе.

Полное обоснование оптимальности OLS и подробный разбор допущений — в @hastie2009esl, гл. 3 и @james2013isl, гл. 3. На нашем уровне достаточно запомнить, что линейная регрессия — рабочая модель в широком классе задач, но её результаты осмыслены только при критической оценке выполнения допущений.

Регуляризованные модели

Обозначенная выше мультиколлинеарность (англ. multicollinearity) — типичная болезнь линейных моделей с большим числом признаков, особенно в инженерных задачах, где признаки часто получаются из одного и того же физического процесса и сильно скоррелированы (например, температура датчика, температура корпуса и температура окружающей среды). Симптомы: коэффициенты $\hat{\beta}_j$ принимают неоправданно большие значения противоположных знаков, при добавлении или исключении одной точки модель меняется радикально, новая обучающая выборка даёт совершенно иные коэффициенты при той же качественной картине. Корень проблемы — в матрице $X^\top X$ : её собственные числа близки к нулю, и решение нормальных уравнений усиливает шум данных.

Сопутствующая беда — переобучение: при достаточно большом $p$ , особенно при $p \approx n$ или $p > n$ , OLS подгоняет шум обучающей выборки, и качество на новых данных катастрофически падает. Как было показано в теме 3, эта ситуация — крайнее правое плечо U-образной кривой ошибки от сложности.

Общий рецепт борьбы с обоими явлениями — регуляризация: к функции потерь добавляется штраф за величину коэффициентов. Конкретный вид штрафа порождает разные модели.

Ridge-регрессия (англ. ridge regression) ¹ использует квадратичный штраф: $\hat{\beta}^{\text{ridge}} = \arg\min_\beta \left( \sum_{i=1}^{n} (y_i - \beta_0 - x_i^\top \beta)^2 + \lambda \sum_{j=1}^{p} \beta_j^2 \right).$ Параметр $\lambda \geq 0$ управляет силой регуляризации: при $\lambda = 0$ получаем OLS, при $\lambda \to \infty$ все коэффициенты стягиваются к нулю. Для центрированных признаков существует замкнутая формула $\hat{\beta}^{\text{ridge}} = (X^\top X + \lambda I)^{-1} X^\top y$ — её часто называют «лекарством Хёрла»: добавление $\lambda I$ к $X^\top X$ снимает плохую обусловленность ценой смещения оценки. Метод предложен Хёрлом и Кеннардом в 1970 году именно как ответ на мультиколлинеарность; за полвека он превратился в инструмент общего назначения.

Lasso-регрессия (англ. least absolute shrinkage and selection operator) ² использует штраф по $L_1$ -норме: $\hat{\beta}^{\text{lasso}} = \arg\min_\beta \left( \sum_{i=1}^{n} (y_i - \beta_0 - x_i^\top \beta)^2 + \lambda \sum_{j=1}^{p} |\beta_j| \right).$ Замкнутого решения здесь нет — задача негладкая в нуле, — но существуют эффективные алгоритмы (координатный спуск, LARS), реализованные во всех современных библиотеках. Принципиальное отличие от ridge — разреженность (англ. sparsity) решения: при достаточно большом $\lambda$ часть коэффициентов $\hat{\beta}_j$ обращается в точный ноль, а соответствующие признаки автоматически исключаются из модели. Lasso, таким образом, совмещает регуляризацию с отбором признаков (англ. feature selection), что особенно ценно в высокоразмерных задачах: модель не только лучше обобщает, но и оказывается короче в записи и интерпретации.

Геометрически разница между ridge и lasso объясняется формой области ограничения. Эквивалентная формулировка задачи — минимизация RSS при ограничении $\|\beta\|_q \leq t$ , где $q = 2$ для ridge и $q = 1$ для lasso. Множество, заданное $L_2$ -нормой, — шар (круг в двумерии); множество $L_1$ -нормы — кубоктаэдр (ромб). Линии уровня RSS — эллипсы, центрированные в OLS-решении; точка касания эллипса с ограничением и даёт регуляризованное решение. Угловые точки $L_1$ -ромба лежат на координатных осях, и касание чаще всего происходит именно в них — соответствующие $\beta_j$ зануляются. Сферическая $L_2$ -граница углов не имеет, и зануление невозможно: коэффициенты лишь стягиваются к нулю, не достигая его.

Геометрическая интерпретация регуляризации: касание контуров RSS с круговой ($L_2$) и ромбической ($L_1$) областями ограничений. У lasso касание часто происходит в углу ромба, что зануляет один из коэффициентов

Elastic Net ³ комбинирует оба штрафа: $\hat{\beta}^{\text{en}} = \arg\min_\beta \left( \mathrm{RSS}(\beta) + \lambda_1 \|\beta\|_1 + \lambda_2 \|\beta\|_2^2 \right).$ Метод сохраняет разреженность lasso и устойчивость ridge к коррелированным признакам. Lasso в группе сильно коррелированных переменных склонен выбирать одну случайную и зануление остальных; elastic net в той же ситуации распределяет коэффициенты между ними. Для большинства инженерных задач, где коррелированные признаки возникают естественно, elastic net надёжнее «чистого» lasso.

Выбор коэффициента регуляризации $\lambda$ (в scikit-learn — параметр alpha) — отдельная задача. Слишком малое значение оставляет проблемы OLS нерешёнными, слишком большое — занижает все коэффициенты, превращая модель в близкую к нулевой. Стандартный приём — кросс-валидация (англ. cross-validation): на сетке значений $\lambda$ модель многократно обучается на части данных и проверяется на оставшейся, после чего выбирается то $\lambda$ , при котором средняя ошибка на валидационных частях минимальна. Систематическое обсуждение кросс-валидации мы вынесем в тему 7, посвящённую методам оценки качества; на данный момент достаточно понимать, что $\lambda$ — гиперпараметр, и подбирается он на отдельной выборке, а не на обучающей.

Полезно посмотреть на то, как меняются коэффициенты модели при варьировании $\lambda$ — так называемый путь регуляризации (англ. regularization path). У ridge все коэффициенты плавно стягиваются к нулю, не достигая его до $\lambda = \infty$ . У lasso коэффициенты «выключаются» в дискретные моменты, образуя ломаную линию: при увеличении $\lambda$ всё больше признаков отбрасываются.

Пути регуляризации для ridge и lasso: зависимость коэффициентов от параметра регуляризации — Поведение коэффициентов при увеличении силы регуляризации: ridge стягивает их плавно, lasso последовательно зануляет

Регуляризация изменяет смысл коэффициентов: они больше не являются несмещёнными оценками влияния признаков. Это плата за устойчивость и качество предсказаний. Если задача — именно интерпретация коэффициентов как причинных эффектов (что характерно для статистики и эконометрики, но в машинном обучении встречается реже), регуляризация требует осторожной интерпретации. Если задача — предсказание на новых данных, регуляризованные модели почти всегда выигрывают у «чистого» OLS, особенно при большом $p$ .

Оценка качества регрессионных моделей

Метрики

Оценка предсказательной способности модели регрессии опирается на несколько стандартных метрик, каждая из которых высвечивает свою сторону ошибки. Важно использовать их в комплексе и понимать, в каких задачах какая ведущая.

Среднеквадратичная ошибка (англ. mean squared error, MSE) определяется как среднее квадратов отклонений: $\mathrm{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2.$ Это та же величина, которая минимизируется при обучении OLS, и в этом смысле — естественная метрика для линейной регрессии. У MSE есть содержательное теоретическое свойство: её оптимизирует условное математическое ожидание $\mathbb{E}[y \mid x]$ . То есть модель, обучаемая минимизацией MSE, стремится предсказывать именно среднее значение отклика. Недостаток MSE — её единицы измерения: квадрат единиц предсказываемой величины. Для прогноза температуры в градусах MSE измеряется в градусах в квадрате, что неинтуитивно.

Эту проблему снимает корень из MSE (англ. root mean squared error, RMSE): $\mathrm{RMSE} = \sqrt{\mathrm{MSE}}.$ RMSE возвращается в единицы предсказываемой величины и интерпретируется как типичная величина ошибки. Если для прогноза заряда батареи RMSE равен 3%, мы понимаем порядок отклонения. RMSE — фактический стандарт отчётности в инженерных регрессионных задачах.

Средняя абсолютная ошибка (англ. mean absolute error, MAE) использует модули вместо квадратов: $\mathrm{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|.$ Ключевое отличие от MSE и RMSE — степенная зависимость от величины ошибки. MSE «тянет» сильно за большие отклонения: ошибка в 10 единиц вносит вклад 100, ошибка в 100 — вклад 10 000. MAE наказывает все ошибки линейно. Из этого вытекает разная чувствительность к выбросам: одна аномальная точка с большой ошибкой может удвоить MSE, но MAE сдвинет несущественно. В практических терминах — если задача такова, что крупные ошибки катастрофичны (промышленный сенсор, авионика), MSE/RMSE предпочтительнее, потому что метрика «вознаграждает» модель за устранение хвостовых отклонений. Если задача такова, что в данных есть выбросы, не отражающие типичное поведение, и нас интересует медианное качество — выигрывает MAE.

Глубже эта же разница проявляется в том, какую центральную тенденцию минимизирует каждая метрика: MSE — среднее, MAE — медиану. Это не идиоматическое замечание, а строгий факт: $\arg\min_c \mathbb{E}|y - c| = \mathrm{med}(y)$ , тогда как $\arg\min_c \mathbb{E}(y - c)^2 = \mathbb{E}[y]$ . Модель, обученная минимизацией MAE, систематически смещена к медианному предсказанию; модель, обученная минимизацией MSE, — к среднему.

Сравнение MSE и MAE: вклад выброса в каждую метрику — Влияние выброса на метрики качества: квадратичный штраф непропорционально усиливает вклад аномальной точки в MSE, тогда как MAE остаётся устойчивой

Коэффициент детерминации $R^2$ (англ. coefficient of determination) измеряет долю дисперсии целевой переменной, которую объясняет модель: $R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}.$ В числителе — RSS модели, в знаменателе — RSS тривиального предсказателя (среднее $\bar{y}$ ). $R^2 = 1$ означает идеальное предсказание; $R^2 = 0$ — модель работает не лучше предсказания константой $\bar{y}$ . На тестовой выборке $R^2$ может быть и отрицательным: тогда модель хуже тривиального baseline. Этот факт регулярно удивляет — в учебниках $R^2$ часто описывают как «всегда от 0 до 1», что справедливо лишь для обучающей выборки в OLS. На тестовых данных или для нелинейных моделей нижней границы нет.

Преимущество $R^2$ — безразмерность и интерпретируемость в долях. «Модель объясняет 87% дисперсии» — формулировка, доступная неспециалисту. Недостаток — зависимость от дисперсии целевой переменной: при малой дисперсии $y$ даже хорошая в абсолютных единицах модель даст низкий $R^2$ , при высокой дисперсии — плохая модель может выглядеть прилично.

В каких случаях какую метрику предпочесть. Для отчётности и сравнения моделей на одних и тех же данных — RMSE, как сочетающая обоснованность с интерпретируемостью в единицах задачи. Для устойчивости к выбросам — MAE. Для содержательной интерпретации в долях — $R^2$ . Полезно сообщать сразу несколько: расхождение между RMSE и MAE сигнализирует о наличии выбросов или скошенности распределения ошибок и подталкивает к их анализу.

Особняком стоят метрики для случаев со специальной структурой задачи. Mean absolute percentage error (MAPE) — относительная ошибка в процентах от истинного значения; применима, когда $y_i$ всегда положительны и далеки от нуля. Logcosh-loss — гладкая аппроксимация MAE, удобная для оптимизации. Loss Хьюбера (англ. Huber loss) ведёт себя как MSE на малых ошибках и как MAE на больших, объединяя свойства обеих; используется как робастная альтернатива MSE при обучении.

Анализ остатков

Метрики дают одно число и тем самым прячут структуру ошибок. Модель с RMSE 5 °C может ошибаться равномерно по всему диапазону или сильно врать только в жаркие дни — метрика этого не покажет. Поэтому полноценная оценка регрессионной модели включает анализ остатков (англ. residual analysis).

Остаток в точке $i$ — это разница между наблюдением и предсказанием: $r_i = y_i - \hat{y}_i$ . Если линейная модель адекватно описывает данные, остатки должны вести себя как реализации случайного шума с нулевым средним, постоянной дисперсией и независимостью между собой. Любое систематическое отклонение от этой картины — диагностический сигнал.

Самый информативный график — диаграмма остатков от предсказаний (англ. residuals vs fitted). По горизонтали откладываются предсказанные значения $\hat{y}_i$ , по вертикали — остатки $r_i$ . Идеальная картина — облако точек без структуры вокруг горизонтальной нулевой линии. Содержательные нарушения сводятся к двум типичным паттернам.

Первый — видимая нелинейность: остатки образуют дугу, синусоиду или иную явно неслучайную форму. Это означает, что линейная модель пропустила нелинейный компонент зависимости; нужны нелинейные преобразования признаков либо переход к иной модели.

Второй — гетероскедастичность (англ. heteroscedasticity): разброс остатков растёт (или, реже, убывает) с величиной $\hat{y}_i$ . Графически — характерный «рупор» или «галстук-бабочка». Это нарушение допущения о постоянстве дисперсии, и его последствия мы обсуждали выше: оценки коэффициентов остаются несмещёнными, но доверительные интервалы становятся некорректными, а прогноз для высоких значений $\hat{y}$ — менее надёжным, чем для низких. Стандартные приёмы коррекции — преобразование целевой переменной (например, $\log y$ при экспоненциальном росте дисперсии), либо переход к взвешенному методу наименьших квадратов, либо использование робастных оценок ковариационной матрицы.

Диагностика остатков: гомоскедастичный и гетероскедастичный паттерны — Типичные паттерны на диаграмме «остатки против предсказаний». Слева — гомоскедастичность: равномерный разброс вокруг нуля. Справа — гетероскедастичность: разброс растёт с величиной предсказания

Второй стандартный график — Q-Q plot (англ. quantile-quantile plot) остатков. По одной оси откладываются эмпирические квантили остатков, по другой — теоретические квантили нормального распределения с теми же средним и дисперсией. Если остатки нормально распределены, точки ложатся на прямую $y = x$ . Систематические отклонения — особенно на хвостах — указывают на тяжёлые хвосты распределения (выбросы), скошенность или мультимодальность. Для крупных выборок строгая нормальность не нужна, но Q-Q plot всё равно полезен как способ обнаружения аномальных точек.

Помимо двух базовых графиков, в практической литературе ⁴ описывают расширенный набор: график остатков от каждого отдельного признака (для выявления нелинейности по конкретной переменной), графики масштабированных остатков (англ. scale-location) для уточнения характера гетероскедастичности, диаграмма влияния (англ. leverage) для обнаружения объектов, аномально сильно влияющих на оценку коэффициентов. В лабораторной работе мы ограничимся базовыми графиками; этого достаточно для распознавания основных проблем модели.

Диагностика остатков — обязательная часть отчёта о регрессионном моделировании. Метрика без диагностики говорит «насколько хорошо в среднем»; диагностика — «где и в чём модель ошибается систематически». Только их сочетание позволяет принять обоснованное решение о пригодности модели к эксплуатации.

Литература

Hoerl A. E., Kennard R. W. Ridge Regression: Biased Estimation for Nonorthogonal Problems. — Technometrics, 1970, С. 55–67, DOI: 10.1080/00401706.1970.10488634.
Tibshirani R. Regression Shrinkage and Selection via the Lasso. — Journal of the Royal Statistical Society. Series B (Methodological), 1996, С. 267–288, DOI: 10.1111/j.2517-6161.1996.tb02080.x.
Zou H., Hastie T. Regularization and Variable Selection via the Elastic Net. — Journal of the Royal Statistical Society. Series B (Statistical Methodology), 2005, С. 301–320, DOI: 10.1111/j.1467-9868.2005.00503.x.
James G., Witten D., Hastie T., Tibshirani R. An Introduction to Statistical Learning: with Applications in R. — Springer, 2013, DOI: 10.1007/978-1-4614-7138-7.