Текст урока с работающими фрагментами расчетов в файле uroki-approksimacii.xls
Ошибка аппроксимации - один из наиболее часто возникающих вопросов при применении тех или иных методов аппроксимации исходных данных. Есть разного рода ошибки аппроксимации:
- ошибки, связанные с погрешностями исходных данных;
- ошибки, связанные с несоответствием аппроксимирующей модели структуре аппроксимируемых данных.
В Excel есть хорошо разработанная функция Линейн, предназначенная для обработки данных и аппроксимаций, в которой задействован отлаженный математический аппарат. Для того, чтобы иметь о ней представление, обратимся (через F1) к описательной части этой разработки, которую приводим с сокращениями и некоторыми изменениями обозначений.
ЛИНЕЙН
Расчитывает статистику для ряда с применением метода наименьших квадратов, чтобы вычислить прямую линию, которая наилучшим образом аппроксимирует имеющиеся данные. Функция возвращает массив, который описывает полученную прямую. Поскольку возвращается массив значений, функция должна задаваться в виде формулы массива.
Уравнение для прямой линии имеет следующий вид:
y=a+b1*x1+b2*x2+...bn*xn
Синтаксис:
ЛИНЕЙН(y;x;конст;статистика)
Массив y - известные значения y.
Массив x - известные значеня x. Массив x может содержать одно или несколько множеств переменных.
Конст - это логическое значение, которое указывает, требуется ли, чтобы свободный член a был равен 0.
Если аргумент конст имеет значение ИСТИНА, 1 или опущено, то a вычисляется обычным образом. Если аргумент конст имеет значение ЛОЖЬ или 0, то a полагается равным 0.
Статистика - это логическое значение, которое указывает, требуется ли вернуть дополнительную статистику по регрессии. Если аргумент статистика имеет значение ИСТИНА или 1, то функция ЛИНЕЙН возвращает дополнительную регрессионную статистику. Если аргумент статистика имеет значение ЛОЖЬ, 0 или опущена, то функция ЛИНЕЙН возвращает только коэффициенты и свободный член.
Дополнительная регрессионая статистика:
se1,se2,...,sen - стандартные значения ошибок для коэффициентов b1,b2,...,bn.
sea - стандартное значение ошибки для постоянной a (sea = #Н/Д, если конст имеет значение ЛОЖЬ).
r2 - коэффициент детерминированности. Сравниваются фактические значения y и значения, получаемые из уравнения прямой; по результатам сравнения вычисляется коэффициент детерминированности, нормированный от 0 до 1. Если он равен 1, то имеет место полная корреляция с моделью, т.е. нет различия между фактическим и оценочным значениями y. В противоположном случае, если коэффициент детерминированности равен 0, то уравнение регрессии неудачно для предсказания значений y. Для получения информации о том, как вычисляется r2, см. "Замечания" в конце данного раздела.
sey - стандартная ошибка для оценки y.
F-статистика, или F-наблюдаемое значение. F-статистика используется для определения того, является ли наблюдаемая взаимосвязь между зависимой и независимой переменными случайной или нет.
df - степени свободы. Степени свободы полезны для нахождения F-критических значений в статистической таблице. Для определения уровня надежности модели нужно сравнить значения в таблице с F-статистикой, возвращаемой функцией ЛИНЕЙН.
ssreg - регрессионая сумма квадратов.
ssresid - остаточная сумма квадратов.
На приведенном ниже рисунке показано, в каком порядке возвращается дополнительная регрессионная статистика.
Замечания
Выборочную информацию из функции можно получить через функцию ИHДЕКС, например:
Y-пересечение (свободный член):
ИНДЕКС(ЛИНЕЙН(y;x);2)
Точность аппроксимации с помощью прямой, вычисленной функцией ЛИНЕЙН, зависит от степени разброса данных. Чем ближе данные к прямой, тем более точной является модель, используемая функцией ЛИНЕЙН. Функция ЛИНЕЙН использует метод наименьших квадратов для определения наилучшей аппроксимации данных.
Проводя регрессионный анализ, Microsoft Excel вычисляет для каждой точки квадрат разности между прогнозируемым значением y и фактическим значением y. Сумма этих квадратов разностей называется остаточной суммой квадратов. Затем Microsoft Excel подсчитывает сумму квадратов разностей между фактическими значениями y и средним значением y, которая называется общей суммой квадратов (регрессионая сумма квадратов + остаточная сумма квадратов). Чем меньше остаточная сумма квадратов по сравнению с общей суммой квадратов, тем больше значение коэффициента детерминированности r2, который показывает, насколько хорошо уравнение, полученное с помощью регрессионного анализа, объясняет взаимосвязи между переменными.
Заметьте, что значения y, предсказанные с помощью уравнения регрессии, возможно не будут правильными, если они располагаются вне интервала значений y, которые использовались для определения уравнения.
Пример 1 Наклон и Y-пересечение
ЛИНЕЙН({1;9;5;7};{0;4;2;3}) равняется {2;1}, наклон = 2 и y-пересечение = 1.
Использование статистик F и R2
Можно использовать F-статистику, чтобы определить, является ли результат с высоким значение r2 случайным. Если F-наблюдаемое больше, чем F-критическое, то взаимосвязь между переменными имеется. F-критическое можно получить из таблицы F-критических значений в любом справочнике по математической статистике. Для того, чтобы найти это значение, используя односторонний тест, положим величину Альфа (величина Альфа используется для обозначения вероятности ошибочного вывода о том, что имеется сильная взаимозависимость) равной 0,05, а для числа степеней свободы (обозначаемых обычно v1 и v2), положим v1 = k = 4 и v2 = n - (k + 1) = 11 - (4 + 1) = 6, где k - это число переменных, а n - число точек данных. Из таблицы справочника F-критическое равно 4,53. Наблюдаемое F-значение равно 459,753674 (это значение получено в опущенном нами примере), что заметно больше чем F-критическое значение 4,53. Следовательно, полученное регрессионное уравнение полезно для предсказания искомого результата.