2.2.8. Параметрические модели тренда
Для коротких временных рядов наиболее употребительны параметрические методы выделения тренда. В этом случае делается попытка представить временной ряд в виде суммы детерминированной функции времени f(t, a), зависящей от небольшого числа неизвестных параметров, и случайной компоненты. Для оценки вектора неизвестных параметров a* обычно применяется метод наименьших квадратов (МНК), состоящий в минимизации суммы квадратов отклонений
[x(t) - f(t, a*)]2 min.
Нет необходимости приводить здесь описание методологии МНК и расчетных формул применительно к линейному и нелинейному регрессионному анализу, поскольку все это доступно практически в любом руководстве по математической статистике (Дрейпер, Смит, 1973; Кендалл, Стьарт, 1973; Енюков, 1986). Остается лишь предостеречь от от популярных, к сожалению, приемов необоснованной "линеаризации", т.е. использования линейного формализма МНК для расчета коэффициентов уравнения в той или иной нелинейной форме. Например, для расчета коэффициентов экспоненциального уравнения регрессии часто логарифмируют исходные данные, после чего используют формулы МНК для коэффициентов линейного уравнения, получая при этом заведомо искаженные результаты. Минимизация суммы квадратов отклонений между уровнями ряда и прогнозируемыми значениями, вычисленными по нелинейным уравнениям связи, в настоящей работе проводилась по методу Нелдера-Мида, реализующему прямой поиск по деформируемому многограннику (Банди, 1988).
Традиционной проблемой является выбор наилучшего вида модели тренда. В качестве такого критерия отбора может быть использована доля объясненной дисперсии, называемая коэффициентом детерминации:
R2 = 1 - s2ост / s2ряда ,
где s2ост - дисперсия остатков; s2ряда - дисперсия исходного ряда.
Непосредственная оценка коэффициента детерминации по приведенной формуле через выборочные дисперсии приводит к смещенной оценке, поэтому для построения несмещенной оценки вводится поправочный коэффициент, учитывающий число оцениваемых параметров. Получающийся при этом коэффициент называют скорректированным коэффициентом де- терминации:
r2 = 1 - (1 - R2 )*[n/(n - k)] ,
где n - число наблюдений; k - число оцениваемых параметров (или число независимых переменных). В отличие от коэффициента R2, значение которого при включении в регрессионную модель дополнительной независимой переменной может лишь возрасти, коэффициент r2 может и уменьшиться, если снижение дисперсии остатков оказалось менее существенным по сравнению с ростом числа оцениваемых параметров.
В табл. 2.3 приведен список моделей-претендентов тренда и соответствующие им значения скорректированного коэффициента детерминации.
Набор несложных функций, используемых для параметрических моделей тренда, применим для выделения самой общей тенденции недлинных рядов и прогнозирования на небольшом временном лаге. Например, трудно выбрать иную модель тренда ряда NCAL (см. рис. 2.13), чем линейная функция
x(t) = - 0.02171 t + 3.4826 .
Таблица 2.3
Значения коэффициента r2 для различных моделей рядов
Вид модели | Ряд СКОРОСТЬ | Ряд NH4+ | Ряд NCAL |
at + b e(at + b) at2 + bt + c a ln(t + b) a/(1 + e(b – ct) a(t + b)c | 0.0663 0.0572 0.1947 0.0590 0.1250 0.0371 | 0.1516 - 0.2343 0.1393 - 0.1635 | 0.0596 - 0.0539 0.0528 - - |
Примечание: a, b и c – коэффициенты уравнения регресcии.
Однако даже среднесрочный прогноз с использованием этого уравнения вряд ли принесет удовлетворение гидробиологам: к августу 1991 г. предполагается полное исчезновение каляноидов.
Несложный анализ наилучшей функции параметрического тренда ряда СКОРОСТЬ - квадратичной параболы
x(t) = - 0.000091 t2 + 0.0248 t + 4.18
дает нулевую скорость ветра в марте 1951 г. и в июне 1991 г., а за пределами этого периода в качестве прогноза предполагается ветер с жутковатой отрицательной скоростью.
Попытка прогнозировать концентрацию NH4+ по уравнению
x(t) = 0.015 t2 - 1.417 t + 87
даже на ближайший временной отрезок приводит к мысли об экологической катастрофе: круто устремленная вверх парабола совершенно не учитывает резкий спад уровней ряда в последний период.
Поскольку для геофизических и биометрических рядов, так или иначе связанных с явлениями периодичности разной природы, характерны "горбы", перегибы и прочие нестабильности тренда, более эффективные прогнозирующие модели могут быть получены с использованием сплайнов, полиномов высоких степеней, а также методами группового учета аргументов, о чем речь пойдет в последующих главах.
Для получения расчетных уровней ряда, характеризующихся отчетливым сезонным фактором, как и при экспоненциальном сглаживании, могут быть использованы индексы сезонности. Например, элиминация линейного тренда f(t) ряда NCAL с учетом индексов сезонности s(t), представленных на графике рис. 2.10, существенно снижает вариабельность ряда остатков
es(t) = x(t) - f(t) - s(t),
по сравнению с рядом e(t), полученным без учета сезонности: стандартное отклонение для остатков уменьшается с 2.8 до 2.26, а скорректированный коэффициент детерминации увеличивается с 0.0596 до 0.359.
- Глава 2. Классические методы исследования
- 2.1. Предварительная обработка и анализ рядов динамики
- 2.1.1. Общие представления о динамических рядах
- 2.1.2. Примеры временных рядов и их характеристики
- 2.1.3. Пропуски, выбросы и разрывы временных рядов
- 2.1.4. Выборочные статистические характеристики ряда
- 2.2. Методы выделения тренда временных рядов
- Булат Окуджава
- 2.2.1. Общие замечания
- 2.2.2. Метод скользящих средних
- 2.2.3. Медианное сглаживание
- 2.2.4. Метод экспоненциального сглаживания
- 2.2.5. Процедура сезонного экспоненциального сглаживания
- 2.2.6. Частотные фильтры
- 2.2.7. Тесты для оценки наличия тренда
- 2.2.8. Параметрические модели тренда
- 2.3. Автокорреляционная функция и спектр
- Булат Окуджава
- 2.3.1. Коэффициент автокорреляции и его оценка
- 2.3.2. Автокорреляционные функции
- 2.3.3. Критерий Дарбина-Уотсона
- 2.3.4. Спектральный анализ
- 2.4. Стохастические модели временных рядов
- Булат Окуджава
- 2.4.1. Основные типы стохастических моделей
- 2.4.2. Этапы построения моделей
- 2.4.3. Модель авторегрессии
- 2.4.4. Модель скользящего среднего
- 2.4.5. Модель Бокса-Дженкинса (арисс)
- 2.4.6. Сезонная модель