Машинное обучение вики
Advertisement
Sleep
Это незавершённая статья
Автор, вероятно, переобучился и отправился спать.
Вы можете помочь, экстраполировав местную информацию.

Постановка задачи[]

Решается задача регрессии. Применяется линейная модель (вообще говоря, один из признаков полагается константным для того, чтобы аппроксимирующая гиперплоскость не обязательно проходила через нуль, я не знаю, почему это практически всюду опускается): . В изначальной постановке полагается, что вектор находится методом Обычных Наименьших Квадратов (ОНК):

Аналитическое решение данной задачи: , однако при вырожденности матрицы решение оказывается не единственным, а при ее плохой обусловленности — неустойчивым. Поэтому целесообразно ввести регуляризацию по параметру , например, .

Таким образом, приходим к следующей задаче минимизации (гребневая (ridge) регрессия):

где — параметр регуляризации(неотрицательное число).

Вывод оптимальных весов[]

Для нахождения оптимальных весов продифференцируем функционал по и приравняем к 0:

При увеличении параметра решение становится более устойчивым, но с другой стороны — смещенным. При уменьшении — приходим к задаче ОНК без регуляризации: имеем шанс переобучиться. Поэтому нужно искать что-то посерединке.

Обобщение через ядра[]

Решение прямой (см. выше) задачи, как уже было получено: . Заметим, что в силу неотрицательной определенности матрицы матрица вообще положительно определена, поэтому прямое решение всегда существует и единственно. Сложность обучения: , сложность предсказания: .

Введем двойственные переменные. Для этого решим двойственную задачу, где решение прямой задачи будет представлено в виде некоторой линейной комбинации векторов обучающей выборки. Из условий стационарности следует , где вектор — вектор двойственных переменных. Формула для предсказания: . Найти двойственные переменные можно следующим образом: . Это прямо следует из при подстановке . Сложность обучения: , сложность предсказания: .

Заметим, что для нахождения двойственных переменных и предсказания по ним требуются лишь скалярные произведения векторов обучающей выборки, но тогда, используя общую парадигму ядерных обобщений методов, мы можем заменить скалярные произведения везде выше на ядерную функцию , получив следующие формулы: , где — матрица Грама, . Таким образом, решая задачу линейной регрессии можно получать нелинейные решения.

Ссылки[]

Advertisement