2.1.3. Пропуски, выбросы и разрывы временных рядов
Биометрические данные часто имеют пропуски наблюдений, для восстановления которых в практике используются различные алгоритмы. Например, в известной программе расчета временных рядов "Мезозавр" для этой цели предлагается следующая оригинальная процедура. Для заполнения пропуска, относящегося к моменту t, отрезок ряда, попадающего во временной интервал [t - q, t + q], аппроксимируется полиномом второго порядка. Значение параметра q принимается равным 30, причем ранее заполненные пропуски при этом не учитываются. Подгонка полинома осуществляется с помощью метода наименьших квадратов с экспоненциально убывающими весами. Коэффициент убывания весов зависит от автокорреляционной структуры ряда и от длины максимально пропущенного куска, и меняется в пределах от 0.5 до 1 (при наличии длинных пропусков он близок к 1). В качестве значения ряда берется значение подогнанного полинома в точке t. Естественно, что общее число пропусков не должно превосходить 2/3 длины ряда. Ограничиваются также длина максимального пропуска и локальная доля пропусков.
Под выбросами обычно понимаются наблюдения, являющиеся в том или ином смысле аномальными. Для временных рядов понятие выброса учитывает представление о ряде, как о сумме тренда и случайной составляющей. Соответственно, выброс - это точка, отстоящая от предполагаемой линии тренда слишком далеко. Для поиска аномально отклоняющихся значений к ряду может быть применена, например, процедура медианного сглаживания с использованием 5- или 3-точечной скользящей медианы. Затем строится ряд остатков, находится робастная оценка его дисперсии (см. разд. 2.1.4) и в качестве выбросов рассматриваются точки, превысившие по модулю приблизительно 5 стандартных ошибок. Например, при использовании этой процедуры для ряда РАСХОД 29 значений, приходящихся на майский паводок были квалифицированы как выбросы (cм. рис. 2.1).
Под разрывом понимается скачкообразное изменение уровня временного ряда, т.е. выброс в ряду значений первых разностей исходного ряда. Например, одна из процедур поиска разрывов устроена следующим образом. Сначала ряд сглаживается 3-точечной скользящей медианой, чтобы отфильтровать возможные выбросы. Затем вычисляются приращения сглаженного ряда и к ряду, составленному из приращений, применяется процедура поиска выбросов. Пользуясь этой схемой, в ряде РАСХОД можно обнаружить 9 разрывов, также приходящихся на майский паводок.
Очевидно, что к идентификации выбросов и разрывов в экологических рядах, характеризующихся резкими сезонными скачками, следует подходить с большой осторожностью, чтобы "не выплеснуть вместе с водой и ребенка".
- Глава 2. Классические методы исследования
- 2.1. Предварительная обработка и анализ рядов динамики
- 2.1.1. Общие представления о динамических рядах
- 2.1.2. Примеры временных рядов и их характеристики
- 2.1.3. Пропуски, выбросы и разрывы временных рядов
- 2.1.4. Выборочные статистические характеристики ряда
- 2.2. Методы выделения тренда временных рядов
- Булат Окуджава
- 2.2.1. Общие замечания
- 2.2.2. Метод скользящих средних
- 2.2.3. Медианное сглаживание
- 2.2.4. Метод экспоненциального сглаживания
- 2.2.5. Процедура сезонного экспоненциального сглаживания
- 2.2.6. Частотные фильтры
- 2.2.7. Тесты для оценки наличия тренда
- 2.2.8. Параметрические модели тренда
- 2.3. Автокорреляционная функция и спектр
- Булат Окуджава
- 2.3.1. Коэффициент автокорреляции и его оценка
- 2.3.2. Автокорреляционные функции
- 2.3.3. Критерий Дарбина-Уотсона
- 2.3.4. Спектральный анализ
- 2.4. Стохастические модели временных рядов
- Булат Окуджава
- 2.4.1. Основные типы стохастических моделей
- 2.4.2. Этапы построения моделей
- 2.4.3. Модель авторегрессии
- 2.4.4. Модель скользящего среднего
- 2.4.5. Модель Бокса-Дженкинса (арисс)
- 2.4.6. Сезонная модель