Аннотация:
Пусть $f_1(t), \dots, f_n(t)$ — независимые копии некоторого п.н. непрерывного случайного процесса $f(t)$, $t\in[0,1]$, которые наблюдаются в зашумленном варианте. Рассматривается задача непараметрического оценивания функций среднего $\mu(t)
=\mathbf{E}f(t)$ и ковариации $\psi(t,s)=\operatorname{Cov}\{f(t),f(s)\}$ в случае, когда зашумленные значения каждой из копий $f_i(t)$, $i=1,\dots,n$, наблюдаются в некотором наборе, вообще говоря, случайных временны́х точек (регрессоров). В работе при широких ограничениях на временные точки построены равномерно состоятельные оценки ядерного типа для функций среднего и ковариации как в случае разреженных данных (количество наблюдений для каждой копии случайного процесса равномерно ограничено), так и плотных (количество наблюдений в каждой из $n$ серий растет при $n\to\infty$). В отличие от работ предшественников, предложенные в статье ядерные оценки обладают свойством универсальности относительно структуры временных точек, которые могут быть как фиксированными и необязательно регулярными, так и случайными, при этом необязательно состоящими из независимых или слабо зависимых случайных величин.
Ключевые слова:
непараметрическая регрессия, оценивание функции среднего, оценивание функции ковариации, ядерные оценки, равномерная состоятельность.
Рассмотрим набор $f_1(t),\dots, f_n(t)$ независимых копий непрерывного случайного процесса $f(t)$, определенного на $[0,1]$. Задача состоит в оценивании функций среднего $\mu(t)=\mathbf{E}f(t)$ и ковариации $\psi(t,s)=\operatorname{Cov}\{f(t),f(s)\}$ в предположении их существования, когда сами случайные функции $\{f_i(t)\}$ нам неизвестны и мы наблюдаем лишь зашумленные их значения в некотором наборе временны́х точек, вообще говоря, своем для каждой $i$-й копии. Обозначим через $X_{ij}$ зашумленное значение $i$-й случайной функции $f_i(t)$ при $t=Z_{ij}$, $j=1,\dots, m_i$. Таким образом, нам даны пары наблюдений $\{(Z_{ij},X_{ij}), \, i=1,\dots, n,\, j=1,\dots,m_i\}$ со следующей структурой:
где $\{\varepsilon_{ij}\}$ — ненаблюдаемые случайные погрешности (условия на эти погрешности будут приведены далее). В модели (1) зашумленные значения функций $\{f_i(t)\}$ могут наблюдаться как на фиксированной, так и на случайной временной сетке $\{Z_{ij}\}$. Обычно (см. библиографические ссылки далее) каждый из этих двух случаев принято рассматривать отдельно. Мы же будем предполагать, что совокупность $\{Z_{ij};\,j=1,\dots,m_i\}$ в каждой серии наблюдений с номером $i$ состоит из набора наблюдаемых случайных величин со значениями в $[0,1]$ и, вообще говоря, с неизвестными распределениями, при этом необязательно независимых или одинаково распределенных. Для каждого $i$ случайные величины $i$-й серии $\{Z_{ij}; \, j=1,\dots,m_i\}$ могут зависеть от $m_i$ и $n$. В частности, рассматриваемая нами схема включает в себя и модели с фиксированными временными точками.
Оценивание функций среднего и ковариации случайного процесса $f(t)$ по выборочным данным со структурой (1) является фундаментальной задачей в так называемом функциональном анализе данных (см., например, [1]–[4]), и многие недавние работы по непараметрическому оцениванию были посвящены ее решению (см., например, [4]–[24]). Оценки для функций среднего и ковариации могут представлять как самостоятельный интерес, так и играть важную вспомогательную роль в том или ином последующем анализе (см., например, [2]–[4], [11], [22], [25], [26]).
Мы не стремимся представить здесь всесторонний обзор данной активно развивающейся (особенно последние два десятилетия) области непараметрического оценивания, и укажем лишь некоторые публикации, представляющие те или иные методологические направления. Подходы к решению указанной задачи можно условно разделить на две основные группы: методы ядерного сглаживания ([9]–[11], [14], [17], [19]–[24]) и сглаживание сплайнами ([6]–[8], [13], [15], [27]–[30]). Для рассматриваемой задачи наиболее часто исследуются три вида асимптотических свойств оценок: равномерная состоятельность ([4], [11], [19], [22], [24]), $L_2$-состоятельность ([6], [9], [22]), асимптотическая нормальность ([10], [17], [20], [22], [27]). Вопросы интервального оценивания рассматриваются, например, в [7], [8], [10], [13]–[15], [18], [23]. В контексте рассматриваемой задачи исключительная важность свойства равномерной состоятельности оценок отмечается, например, в работах [11] и [19].
Нас в первую очередь будут интересовать в известном смысле минимальные ограничения на временные точки, которые обеспечивают упомянутую выше равномерную состоятельность оценок. Поэтому подробнее остановимся на основных ограничениях на эти элементы. Временные точки в модели (1) могут как варьироваться от серии к серии, так и быть одинаковым для всех серий (в этом случае говорят об общем плане). Те или иные общие планы рассматривались, например, в [6]–[8], [14], [15], [18], [27], [30]. По стохастической природе временные сетки принято рассматривать либо случайными ([5], [6], [9]–[11], [13], [17], [19]–[24]), либо детерминированными ([6]–[8], [14], [15], [18], [27], [30]). Отметим, что в первом случае, как правило, предполагается, что элементы набора $\{Z_{ij}\}$ являются независимыми и одинаково распределенными (это условие используется во всех указанных выше работах). Некоторые авторы подчеркивают (см., например, [9]), что их результаты можно перенести и на слабо зависимые величины. Для детерминированных временных сеток зачастую дополнительно требуется то или иное условие регулярности. Например, один из популярных вариантов таких условий (см., например, [7]–[9], [14], [15]) — это требование так называемого общего эквидистантного плана, т.е. когда для любого $i$ выполнено условие $m_i=m$ и $Z_{ij}=j/m$ при всех $j=1,\dots,m$. Другой вариант условий регулярности можно найти, например, в [18].
Модели подразделяются на те или иные типы в зависимости от количества наблюдений для той или иной копии случайного процесса (т.е. в той или иной серии). Так, в модели (1) данные могут быть в некотором смысле плотными, или разреженными (в английской терминологии — dense и sparse соответственно), или смешанными. Хотя не существует строгого разделения типов данных (см., например, [22], [26]), тем не менее, данные в модели (1) принято относить к разреженным (неплотным), либо когда количество наблюдений в каждой серии равномерно ограничено, т.е. $\max_{1\leqslant i\leqslant n} m_i \leqslant M $ и константа $M$ не зависит от $n$ ([6], [9], [11], [24]), либо когда $m_i$ случайны и являются независимыми копиями некоторой положительной целочисленной случайной величины ([17], [19], [23]). К плотным данным относят, например, случаи, когда $\min_{1\leqslant i\leqslant n} m_i\geqslant m(n)\to \infty$ при $n\to \infty$ ([6], [7], [11], [14], [15], [18], [20], [24]). Стоит отметить, что в литературе основное внимание уделяется этим двум типам данных. Иные данные, в том числе смешанного типа, когда для некоторых копий случайного процесса данные могут быть плотными, а для других — разреженными, рассматривались в [6], [11], [22].
Методологии оценивания функции среднего, используемые для плотных или разреженных данных, как правило, различны (см., например, [3], [26]). В ситуации растущего количества наблюдений в каждой серии с увеличением числа серий (т.е. количества случайных функций), естественно предварительно оценить случайную регрессионную функцию в каждой серии, а затем провести усреднение по всем сериям (см., например, [6], [9], [20]). Для разреженных данных такой способ построения оценки не будет работать в силу недостаточности информации, относящейся к каждой копии случайного процесса, и зачастую наблюдения предварительно каким-либо образом объединяют для заимствования информации друг у друга, перед последующим анализом (см., например, [9], [19], [22]). Имеется точка зрения (см., например, [26]), что оценивание в случае неплотных данных нередко требует больше усилий, чем в случае плотных. Некоторые унифицированные подходы, которые годятся как для плотных, так и для разреженных функциональных данных, предложены в [6], [11], [22]. Работа посвящена построению равномерно состоятельных оценок ядерного типа для функций среднего и ковариации при широких ограничениях на временные точки. Мы рассматриваем как случай разреженных данных, так и плотных. В отличие от работ предшественников, предлагаемые ядерные оценки и условия на временные точки универсальны относительно стохастической природы временных точек, которые могут быть как фиксированными и необязательно регулярными, так и случайными, при этом необязательно состоящими из независимых или слабо зависимых случайных величин. При оценивании функции среднего в случае разреженных данных относительно временных точек мы лишь требуем, чтобы вся их совокупность из всех серий с ростом объема наблюдений с высокой вероятностью образовывала измельчающееся разбиение отрезка $[0,1]$ — области определения случайного процесса, а в случае плотных данных подобное условие должно быть выполнено для временных точек каждой из независимых копий случайного процесса. Наша постановка включает и ситуацию детерминированных временных точек (в том числе общий план), при этом мы не накладываем общепринятых условий регулярности. Таким образом, в задаче оценивания функций среднего и ковариации мы существенно ослабляем традиционные условия на временные точки.
Ранее подобные идеи были реализованы в [31]–[33] в задаче непараметрического оценивания случайной регрессионной функции. В частности, единственное условие на регрессоры, гарантирующее равномерную состоятельность новых ядерных оценок из [31]–[33], состоит в следующем: регрессоры с высокой вероятностью образуют измельчающееся разбиение области определения регрессионной функции. На наш взгляд, условие такого типа весьма наглядно и по сути является необходимым для восстановления регрессионной функции с той или иной точностью. В [31]–[33] равномерная состоятельность новых ядерных оценок доказана лишь при указанном минимальном ограничении во многом благодаря специальной структуре оценок, содержащей конструкции сумм взвешенных наблюдений со структурой интегральных сумм Римана. Это обстоятельство позволяет исследовать асимптотические свойства оценок, используя оценки близости интегральных сумм и соответствующих интегралов, а не те или иные предельные теоремы для сумм слабо зависимых наблюдений, присутствующих в структуре ядерных оценок. В данной работе мы используем идеи и результаты из [31] и [32] не только в случае плотных данных, но и в случае разреженных. Отметим также, что близкие условия на регрессоры использовались в [34] и [35] в задачах непараметрической регрессии, а в [36]–[41] — в задачах нелинейной регрессии.
Всюду в дальнейшем мы считаем, что все пределы, если не оговорено иное, берутся при $n\to\infty$. Через $O_{\mathbf{p}}(\eta_n)$ будем обозначать некоторую случайную величину $\zeta_n$ такую, что для каждого положительного $x$ выполнено условие
где $\{\eta_n\}$ — положительные (возможно, случайные) величины, а функция $\beta(x)$ не зависит от $n$ (но может зависеть от других параметров модели) и $\lim_{x\to\infty}\beta(x)=0$. Нам потребуется обозначение для модуля непрерывности той или иной функции $g$ одного или двух аргументов, заданной соответственно на отрезке $[0,1]$ или единичном квадрате $[0,1]^2$:
где для двумерного аргумента обозначение $\|\,{\cdot}\,\|$ — это супремальная норма в $\mathbf{R}^2$, а для одномерного — обычный модуль. Обозначим также
Работа имеет следующую структуру. В разделе 2 мы построим оценки для функций $\mu$, $\varphi$ и $\psi$ в случае разреженных данных, а в разделе 3 — в случае плотных. Доказательства всех результатов отнесены в раздел 4.
Авторы благодарят рецензента за внимательное прочтение рукописи, комментарии и замечания.
2. Случай разреженных данных
Нам потребуется ряд предположений.
($\mathbf{D}$) Для любого $i{\kern1pt}{=}{\kern1pt}1,\dots,n$ пары наблюдений $(Z_{i1},X_{i1}),\dots,(Z_{im_i}, X_{im_i})$ представимы в виде (1), где $f_1(\,{\cdot}\,)$, $\dots$, $f_n(\,{\cdot}\,)$ — неизвестные независимые одинаково распределенные почти наверное непрерывные случайные процессы, заданные на $[0,1]$. Для каждого фиксированного $i=1,\dots,n$ временные точки $\{Z_{ij};\,j=1,\dots,m_i\}$ представляют собой набор наблюдаемых случайных величин со значениями в $[0,1]$, необязательно независимых или одинаково распределенных, имеющих, вообще говоря, неизвестные распределения. Случайные величины $\{Z_{ij};\,j=1,\dots,m_i\}$ могут зависеть от $m_i$ и $n$.
($\mathbf{E}_1$) Ненаблюдаемые случайные погрешности $\{\varepsilon_{ij};\,i=1,\dots,n, \, j=1,\dots,m_i\}$ при всех таких $i$, $j$, что $(i_1,j_1)\neq (i_2,j_2)$, с вероятностью $1$ удовлетворяют следующим условиям:
где константа (возможно, неизвестная) $\sigma^2_\varepsilon>0$ не зависит от $n$, символ $\mathbf{E}_{\mathcal{F}}$ обозначает условное математическое ожидание при фиксации $\sigma$-алгебры $\mathcal{F}$, порожденной всеми случайными величинами из набора $\{Z_{ij}; \, i=1,\dots,n, \, j=1,\dots,m_i\}$.
$(\mathbf{B})$ Случайные функции $\{f_i(t)\}$ не зависят от $\{Z_{ij}\}$, при этом
$(\mathbf{K})$ Ядерная функция $K(t)$, $t\in \mathbf R$, является плотностью симметричного распределения с носителем на $[-1,1]$, т.е. $K(t)\geqslant 0 $, $K(t)=K(-t)$ при всех $t\in [-1,1]$ и $\int_{-1}^1 K(t)\, dt =1$. Предполагается, что функция $K(t)$ определена на $\mathbf R$, удовлетворяет условию Липшица с константой $1\leqslant L< \infty$ и $K(\pm 1)=0$.
В дальнейшем нам понадобится обозначение $K_{h}(t)=h^{-1} K(h^{-1}t)$. Понятно, что $K_{h}(t)$ — плотность распределения на $[-h,h]$.
Замечание 1. Подчеркнем, что предположение $(\mathbf{D})$ включает в себя и случай фиксированных временных точек. Отрезок $[0,1]$ в качестве области задания временных точек мы рассматриваем исключительно с целью простоты изложения подхода. В более общей постановке вместо отрезка $[0,1]$ можно рассматривать произвольное измеримое по Жордану подмножество $\mathbf{R}$. Мы полагаем, что результаты работы можно перенести и на случай, когда областью задания временных точек является произвольное измеримое по Жордану подмножество $\mathbf{R}^k$. В случае, когда в исходной выборке в той или иной серии наблюдений с номером $i$ имеются кратные временные точки, предлагается несколько сократить выборку, заменив наблюдения $X_{ij}$ с одинаковыми точками $Z_{ij}$ их средним арифметическим и оставляя в новой выборке лишь одну временную точку из кратных.
Положим $N=m_1+\dots+m_n$ и по выборке $\{Z_{ij};\,i=1,\dots,n,\, j=1,\dots, m_i\}$ образуем вариационный ряд, элементы которого обозначим через $Z_{N:1}\leqslant \dots \leqslant Z_{N:N}$. Без ограничения общности считаем, что $N\,{=}\,l r$, где $l$ и $r$ — натуральные числа, при этом $l=l(n)\to \infty$, $r=r(n)\to \infty$. Положим $Z_{N:0}=0$, $Z_{N:N+1}=1$, $\Delta Z_{Nl}=Z_{N:N+1}-Z_{N:r(l-1)}$,
Таким образом, отрезок $[0,1]$ мы разбили на $l$ попарно несовместных отрезков c длинами $\Delta Z_{N1},\dots,\Delta Z_{Nl}$, каждый из которых содержит по $r$ временных точек (не предполагается, что все точки попарно различны).
Основное условие на временные точки, гарантирующее в случае разреженных данных существование равномерно состоятельной оценки для функции среднего, состоит в следующем.
$(\mathbf{C}_1)$ Имеет место предельное соотношение
Замечание 2. Другими словами, условие $(\mathbf{C}_1)$ предполагает, что набор точек $\{Z_{ij}\}$ с высокой вероятностью образует измельчающееся разбиение отрезка $[0,1]$ (см. также замечание 7).
Из уравнения (1) имеем $X_k=\overline f_k+\varepsilon_k$, $k=1,\dots, l$. Но в силу условий $(\mathbf{D})$, $(\mathbf{B})$, определения множества $H_k$ и закона больших чисел можно ожидать, что $\overline f_k\approx \mu(t)$, где $t\in (Z_{N:r(k-1)},Z_{N:rk}]$ (например, можно положить $t=Z_{N:rk}$). Иными словами,
$$
\begin{equation*}
X_k\approx\mu(Z_{N:rk})+\varepsilon_k, \qquad k=1,\dots, l.
\end{equation*}
\notag
$$
Мы предлагаем оценить функцию $\mu(t)$ в такой модели непараметрической регрессии с помощью метода ядерного сглаживания из [31]. Это и приводит нас к оценке (4).
Теорема 1. Пусть выполнены условия $(\mathbf{D})$, $(\mathbf{E}_1)$, $(\mathbf{B})$ и $(\mathbf{K})$. Тогда для любого фиксированного ${h_\mu}\in (0,1/2)$ с вероятностью $1$
Замечание 4. Поскольку $\delta_l\leqslant 1$, то при выполнении условия $(\mathbf{C}_1)$ имеет место предельное соотношение $\mathbf{E}\delta_l\to 0$. Следовательно, с учетом теоремы 1 можно утверждать, что $\zeta_{l,r,h_\mu} =O_{\mathbf{p}}(h_\mu^{-1}(r^{-1}\mathbf{E}\delta_l)^{1/2}) +O(h_\mu^{-1}\mathbf{E}\delta_l)$. Кроме того, $ \eta_{l,r}=O_{\mathbf{p}}((l/r)^{1/2})$.
Следствие 1. Пусть выполнены условия $(\mathbf{D})$, $(\mathbf{E}_1)$, $(\mathbf{B})$, $(\mathbf{K})$, $(\mathbf{C}_1)$ и
Пример 1. Рассмотрим случай, когда $\mathbf{E}\delta_l=O(1/l)$. Пусть функция $\mu(t)$ удовлетворяет условию Гёльдера, т.е. $\omega_{\mu}(h)\leqslant Ch^{\gamma}$ при всех $h>0$ и некоторых фиксированных $\gamma\in(0,1]$ и $C>0$. В этом случае величина $h_\mu=N^{-1/(2(\gamma+1))}$ уравнивает по $h_\mu$ порядок малости по вероятности обоих слагаемых в правой части соотношения (6), зависящих от размера окна $h_\mu$.
Чтобы определить оценку для $\varphi(t,s)$, нам потребуется ряд дополнительных условий. Положим $\widetilde N=\widetilde N(n)=m_1(m_1-1)+\dots+m_n(m_n- 1)$. Без ограничения общности считаем, что $\widetilde N=\widetilde l\times \widetilde r$, где $\widetilde l$ и $\widetilde r$ — целые, при этом $\widetilde l=\widetilde l(n)\to \infty$, $\widetilde r=\widetilde r(n)\to \infty$ при $n\to\infty$. Для произвольного ограниченного множества $A\subset \mathbf{R}^2$ определим его диаметр равенством $d(A)=\sup_{\mathbf{x},\mathbf{y}\in A}\|\mathbf{x}-\mathbf{y}\|$, где $\|\,{\cdot}\,\|$ — супремальная норма в $\mathbf{R}^2$. Обозначим через $\Lambda_2(\,{\cdot}\,)$ меру Лебега в $\mathbf{R}^2$.
Кроме того, предполагаются выполненными следующие три условия.
$(\mathbf{C}_1')$ Все двумерные точки из набора $\{(Z_{ij_1},Z_{ij_2}),\, 1\leqslant j_1\neq j_2\leqslant m_i, i=1,\dots,n\}$ попарно различны и для каждого $\widetilde N$ существует случайное разбиение множества $[0,1]\times[0,1]$ на $\widetilde l$ измеримых по Жордану подмножеств $\{\mathcal{P}_k; \, k=1,\dots,\widetilde l\}$ таких, что каждое подмножество $\mathcal{P}_k$ содержит ровно по $\widetilde r$ двумерных точек из указанного набора, при этом $\widetilde \delta_{\widetilde l}=\max_{k\leqslant \widetilde l}d(\mathcal{P}_k)\xrightarrow{\mathbf{p}} 0$.
где константа $\lambda_{p}$ может быть неизвестна и не зависит от $n$. Предполагается также, что набор $\{\varepsilon_{ij}\}$ не зависит от $\{Z_{ij}\}$ и $\{f_i(\,{\cdot}\,)\}$.
$(\mathbf{B'})$ Выполнено условие $(\mathbf{B})$, $m_i\geqslant 2$ при всех $i$, и для $p$ из условия $(\mathbf{E}'_1)$
Отметим, что множества $\widetilde H_k$, $k=1,\dots,\widetilde l$, содержат ровно по $\widetilde r$ элементов. Выберем некоторую точку, принадлежащую множеству $\mathcal{P}_k$, и обозначим ее $(Z_{i_kj_{1k}},Z_{i_kj_{2k}})$. Оценку для $\varphi(t,s)$ определим равенством
Из уравнения (1) имеем $\widetilde X_k=\widetilde f_k+\widetilde\varepsilon_k$, $k=1,\dots, \widetilde l$. Но в силу условий $(\mathbf{D})$ и $(\mathbf{B})$, а также определения множества $\widetilde H_k$ и закона больших чисел можно ожидать, что $\widetilde f_k\approx \varphi(t,s)$, где $(t,s)\in \mathcal{P}_k$ (например, можно положить $(t,s)=(Z_{i_kj_{1k}},Z_{i_kj_{2k}})$). Таким образом, мы получаем модель непараметрической регрессии
Оценка (7) — это оценка ядерного типа для функции $\varphi$ в приведенной регрессионной модели, полученная обобщением метода ядерного сглаживания из [31] на случай оценивания функции двух переменных (см. [32]).
Теорема 2. Пусть выполнены условия $(\mathbf{D})$, $(\mathbf{K})$, $(\mathbf{C}'_1)$, $(\mathbf{E}'_1)$ и $(\mathbf{B}')$. Тогда для любого фиксированного ${h_\varphi}\in (0,1/2]$ с вероятностью $1$
а $\widetilde C$ — положительная константа, зависящая от $p$, $\lambda_{p}$, $\gamma_{p}$ и $\widetilde \sigma_\varepsilon^2=\mathbf{E}\varepsilon_{11}^2$.
Замечание 6. Положим в (10) $y=(h_\varphi^{-(p+2)}\,\mathbf{E}\widetilde\delta_{\widetilde l}^{p})^{1/p}$. Применяя степенное неравенство Маркова с показателем $p$ для второго слагаемого в (10), нетрудно видеть, что при выполнении условий теоремы 2
Условия равномерной состоятельности этой оценки можно получить из вышеприведенных утверждений. Подробности мы опускаем.
3. Случай плотных данных
Наряду с предположениями $(\mathbf{D})$ и $(\mathbf{K})$ нам в этом разделе потребуется ряд дополнительных условий и обозначений.
$(\mathbf{E}_2)$ Для любого $i=1,\dots, n$ и всех $m_i\geqslant 2$ ненаблюдаемые случайные погрешности $\{\varepsilon_{ij};\,j=1,\dots,m_i\}$ с вероятностью $1$ при всех $j,j_1,j_2\leqslant m_i$, $j_1\neq j_2$, удовлетворяют следующим условиям:
где константа $\sigma^2>0$ не зависит от $m_i$ и $n$ и может быть неизвестной, символ $\mathbf{E}_{\mathcal{F}_i}$ обозначает условное математическое ожидание при фиксации $\sigma$-алгебры $\mathcal{F}_i$, порожденной случайными величинами из набора $\{Z_{ij}; \,j=1,\dots,m_i\}$.
Для любого $i$ обозначим через $Z_{i,m_i:1}\leqslant \dots\leqslant Z_{i,m_i:m_i}$ элементы вариационного ряда, построенного по выборке $i$-й серии $\{Z_{ij};\,j=1,\dots, m_i\}$. Положим
Для любого $i$ отклики и погрешности из (1), ассоциированные с порядковой статистикой $Z_{i,m_i:j}$, обозначим соответственно через $X_{i, m_i,j}$ и $\varepsilon_{i, m_i,j}$. Нетрудно видеть, что погрешности $\{\varepsilon_{i, m_i,j};\,j=1,\dots, m_i\}$ также удовлетворяют условию $(\mathbf{E}_2)$. Мы предполагаем, что величины $m_i$ зависят от $n$ и $m_i=m_i(n)\to\infty$ при $n\to\infty$.
Центральное условие на временные точки состоит в следующем.
$(\mathbf{C}_2)$ При любом $i=1,\dots,n$ имеет место предельное соотношение
Замечание 7. Условие $(\mathbf{C}_2)$ означает, что в каждой серии $i$ случайные величины $\{Z_{ij};\, j=1,\dots,m_i \}$ c высокой вероятностью образуют измельчающееся разбиение отрезка $[0,1]$. Отметим, что регулярный неслучайный план удовлетворяет условию $(\mathbf{C}_2)$. Хорошо известно, что в случае независимых и одинаково распределенных случайных величин и существования отделенной от нуля на $[0,1]$ плотности распределения $Z_{i1}$ с вероятностью $1$ выполнено $\delta_{m_i}=O(\ln m_i/m_i)$ (см. детали в [31]). Если $\{Z_{ij};\,j\geqslant 1\}$ — стационарная последовательность с условием $\alpha$-перемешивания и маргинальным распределением с носителем $[0,1]$, то условие $(\mathbf{C}_2)$ также выполнено. Заметим, что зависимость случайных величин в условии $(\mathbf{C}_2)$ может быть более сильной (см. примеры в [31]–[35]).
Наконец, для любых $h_1,\dots, h_n\in (0,1)$ введем в рассмотрение следующие классы оценок:
Замечание 8. Как мы уже отмечали во введении, в ситуации плотных данных для построения оценки функции среднего представляется естественным предварительно оценить каждую из случайных функций $f_i$, $i=1,\dots,n$, по наблюдениям соответствующей серии, а затем провести усреднение по всем сериям (аналогичным образом можно оценить и функцию ковариации). Именно так мы и поступаем в (12), следуя этому общепринятому подходу. Отметим, что при $n=1$ статистики вида (11) были введены и исследованы в [31]. В частности, в [31] доказано, что условие $\delta_{m_1}\xrightarrow{\mathbf{p}} 0$ при $m_1\to\infty$, содержащееся в предположении $(\mathbf{C}_2)$, гарантирует существование в классе оценок (11) равномерно состоятельной оценки для случайного процесса $f_1(t)$. Подчеркнем, что приведенное условие является единственным условием на зависимость регрессоров в одной серии наблюдений, гарантирующее существование равномерно состоятельной оценки для соответствующей случайной регрессионной функции. Заметим, что
т.е. оценки (11), как и классические оценки Надарая–Ватсона, являются оценками взвешенного метода наименьших квадратов, но с другими весами, определяемыми порядковыми статистиками, построенными по набору регрессоров. Кроме того, вместо исходных наблюдений $X_{ij}$ используются наблюдения $X_{i,m_i,j}$, ассоциированные с соответствующими порядковыми статистиками.
Замечание 9. В случае, когда имеются кратные временные точки в той или иной серии наблюдений $i$, некоторые спейсинги $\Delta Z_{i,m_i,j}$ обращаются в нуль, и мы теряем часть выборочной информации в оценках (11) (и, как следствие, оценках (12)). В этом случае предлагается прежде, чем использовать оценку (11), несколько сократить выборку в каждой серии $i$, содержащей кратные временные точки, заменив наблюдения $X_{ij}$ с одинаковыми точками $Z_{ij}$ их средним арифметическим и оставляя в новой выборке лишь одну временную точку из кратных. При этом усредненные наблюдения будут иметь меньшее зашумление. Так что, несмотря на меньший объем новой выборки, мы используем всю информацию, содержащуюся в исходной выборке.
Замечание 10. В случае независимых одинаково распределенных случайных величин $\{Z_{ij}\}$ естественно рассматривать один и тот же размер окна при оценивании каждой из функций $\{f_i(t)\}$ (см., например, [20]). В указанной ситуации такой выбор оправдан, поскольку уменьшает вычислительные сложности по определению оптимального размера окна и упрощает асимптотический анализ оценки среднего. При выполнении условия $(\mathbf{C}_2)$, когда допускается, что в каждой серии временные точки могут вести себя различным образом, может быть разумным рассматривать различный размер окна при сглаживании в каждой серии наблюдений.
Теорема 3. Пусть выполнены условия $(\mathbf{D})$, $(\mathbf{K})$, $(\mathbf{E}_2)$, $(\mathbf{C}_2)$ и
Приведем два следствия, в которых предполагается, что $m_j=m$ и $h_j=h$ при всех $j\leqslant n$. Нам потребуются следующие дополнительные ограничения.
$(\mathbf{D}')$ Выполнено условие $(\mathbf{D})$ при $m_1=\dots=m_n=m$ и для каждого $i=2,\dots, n$ набор $\{Z_{ij};\,j=1,\dots,m\}$ является независимой копией $\{Z_{1j};\,j=1,\dots,m\}$.
$(\mathbf{C}_2')$ Имеет место предельное соотношение
Пример 2. Пусть в условиях следствия 3 выполнено $\mathbf{E}\delta_{m_1}=O(1/m)$. Тогда условия $mh^2\to\infty$ и $n/(mh)\to 0$ влекут (17). Если $\omega_{f_1}(h)\,{\leqslant}\, \zeta h^{\gamma}$ c вероятностью $1$ при некотором неслучайном $\gamma\in(0,1]$ и $\mathbf{E}\zeta<\infty$, то соотношения $n^{1-\tau}h^{2\tau\gamma}\to 0$ и $n^{(1-\tau)/\tau}/(mh^2)\to 0$ гарантируют выполнение условий из (18).
Рассмотрим другой частный случай — общие временные точки для всех серий.
$(\mathbf{D}'')$ Выполнено условие $(\mathbf{D})$ при $m_1=\dots=m_n=m$ и для любого $j=1,\dots, m$ выполнено $Z_{1j}=Z_{2j}=\dots=Z_{nj}=Z_j$.
Обозначим через $Z_{m:1}\leqslant \dots\leqslant Z_{m:m}$ элементы вариационного ряда, построенного по выборке $\{Z_{j};\,j=1,\dots, m\}$. Положим
Для любого $i$ отклики из (1), ассоциированные с порядковой статистикой $Z_{m:j}$, обозначим соответственно через $X_{i, m,j}$. В этом случае оценка $\widehat f_i(t)$ из (11) примет вид
Подчеркнем, что ввиду свойств плотности $K_h(\,{\cdot}\,)$ область суммирования во введенных величинах совпадает с множеством $\{k\colon |t-Z_{N:rk}|\leqslant h,\, 1\leqslant k\leqslant l\}$, что является принципиальным моментом для дальнейшего анализа. Имеем
Пусть символы $\mathbf{D}_{\mathcal{F}}$, $\mathbf{Cov}_\mathcal{F}$ и $\mathbf{P}_\mathcal{F}$ обозначают соответственно условную дисперсию, условную ковариацию и условную вероятность при фиксации $\sigma$-алгебры $\mathcal{F}$, порожденной случайными величинами из набора $\{Z_{ij};\, i=1,\dots,n, \,j=1,\dots,m_i\}$. В силу определений (5) и равенства $\mathbf{E}_\mathcal{F}f_1(Z_{ij})=\mu(Z_{ij})$ имеем
Кроме того, если $i\neq i_1$ во второй сумме в (23), то соответствующие ковариации равны нулю. Если же $i= i_1$, то количество пар индексов $(i,j)$ и $(i,j_1)$ в двойной сумме в (23) будет меньше, чем $m^2_i$. Следовательно,
Для завершения доказательства остается положить $\eta_{l,r}=\max_{1\leqslant k\leqslant l}|\tau_{1k}|$. Лемма 1 доказана.
Лемма 2. Для любых $y>0$ и $h_\mu<1/2$ на подмножестве элементарных событий, определяемых соотношением $\delta_l\leqslant h_\mu/(8L)$, имеет место следующая оценка:
Таким образом, доказательство этого утверждения с очевидными изменениями повторяет вывод леммы 6 из [31], поэтому мы его опускаем. Лемма 2 доказана.
Доказательство теоремы 1. Леммы 1 и 2 вместе с тождеством (22) доказывают теорему 1, если только мы положим $\zeta_{l,r,h_\mu}{=}\,\sup_{t\in[0,1]}|\nu_{l,r,h_\mu}(t)|$ и учтем соотношение
Заметим, что в силу свойств ядра $K$ область суммирования в четырех суммах в (24) есть множество $\{k\colon\|\mathbf{u}-\mathbf{z}_{k}\|\leqslant h_\varphi\}$. Этот факт является принципиальным в дальнейших рассуждениях. С учетом введенных обозначений имеет место следующее представление, являющееся ключевым при выводе теоремы 2:
Учтем теперь, что если $i\neq \widetilde i$ во второй сумме в (26), то соответствующие ковариации равны нулю. Если же $i= \widetilde i$, то количество пар двойных индексов $((i,j_1), (i,j_2))$ и $((i,\widetilde j_1), (i,\widetilde j_2))$ в двойной сумме в (26) будет меньше, чем $2m^4_i$. Таким образом, для завершения доказательства остается учесть, что
то $g(\mathbf{v})\geqslant \widetilde K_{h_\varphi}(\mathbf{u}-\mathbf{v}) -2L^2h_\varphi^{-3}\widetilde \delta_{\widetilde l}$ для всех $\mathbf{v}\in[0,1]^2$. Следовательно, с учетом (27) получаем
Лемма 5. При всех $y>0$ и $h\in(0, 1/2]$ на множестве элементарных исходов, определяемых соотношением $\widetilde \delta_{\widetilde l}/h_\varphi\leqslant (64 L^{2})^{-1}$, имеет место оценка
где символ $\mathbf{P}_{\widetilde{\mathcal{F}}}$ означает условную вероятность при фиксации $\sigma$-алгебры $\widetilde{\mathcal{F}}$, порожденной $\{Z_{ij}\}$ и случайными функциями $\{f_i(\,{\cdot}\,)\}$, положительная константа $\widetilde C_{\mathbf{p}}$ зависит только от $p$,
Хвост распределения $\sup_{\mathbf{u}\in [0,1]^2}|\eta(\mathbf{u})|$ оценим с помощью метода диадических цепочек (см., например, [42]). Заметим, прежде всего, что множество $ [0,1]^2$ под знаком супремума можно заменить множеством двоично-рациональных точек $\mathcal{R}=\bigcup_{l\geqslant 1} \mathcal{R}_l$, где
где $\{\xi_k\}$ — последовательность независимых центрированных случайных величин с конечными моментами порядка $p\geqslant 2$, а $C_p$ — некоторая константа, зависящая от $p$. Чтобы оценить вероятность $\mathbf{P}_{\widetilde{\mathcal{F}}}(|\eta(\mathbf{u})| >a_m y)$, воспользуемся неравенством (33) при
где символ $\mathbf{E}_{\widetilde{\mathcal{F}}}$ означает условное математическое ожидание при фиксации $\sigma$-алгебры ${\widetilde{\mathcal{F}}}$. Из элементарных оценок
где $G_1=C_p2^{2p}L^{2p}$. В последнем неравенстве в (35) мы также учли, что $2(p-1)>p$ при $p>2$.
Чтобы оценить $\mathbf{P}_{\widetilde{\mathcal{F}}}(|\eta(\mathbf{u}+2^{-l}\mathbf{e}_r) -\eta(\mathbf{u})|>a_l y/2)$, воспользуемся неравенством (33) при
Оптимальная последовательность $a_l$, минимизирующая правую часть этого неравенства, есть $a_m=c (G_1 2^{2m})^{1/(p+1)}$, $a_l=c (G_2h_\varphi^{-p}2^{-(p-2)l})^{1/(p+1)}$ при $l=m+1,m+2,\dots$, где коэффициент $c$ определяется соотношением $a_m+a_{m+1}+\cdots=1$. Для указанной последовательности получаем
Аналогичные оценки справедливы для величин $\mathbf{E}_{\mathcal{F}}B_2^{p/2}$ и $\mathbf{E}_{\mathcal{F}}B_p$. Теорема 2 доказана.
Для доказательства теорем 3 и 4 нам также потребуется несколько вспомогательных утверждений. Следующая лемма является прямым следствием теоремы 1 в [31].
Лемма 6. Пусть выполнены условия $(\mathbf{D})$, $(\mathbf{E}_2)$ и $(\mathbf{K})$. Тогда для любого $i=1,\dots,n$ и любого фиксированного $h_i\in (0,1)$
а символ $\mathbf{P}_{\mathcal{F}_i}$ обозначает условную вероятность при фиксации $\sigma$-алгебры $\mathcal{F}_i$, введенной в условии $(\mathbf{E}_2)$.
Лемма 7. Если выполнено условие (13), то $\lim_{\varepsilon\to 0}\mathbf{E} \omega_{f_1}(\varepsilon)=0$ и для независимых копий $f_1(t),\dots,f_n(t)$ почти наверное непрерывного случайного процесса имеет место следующий равномерный закон больших чисел:
Следовательно, правая часть (39) не превосходит $2\mathbf{E}\omega_{f_1}(1/k)+o_{\mathbf{p}}(1)$, и в силу произвольности $k$ и первого утверждения леммы соотношение (38) доказано. Лемма 7 доказана.
Лемма 8. В условиях теоремы 3 имеет место предельное соотношение
при этом второе слагаемое в правой части (41) сходится к нулю ввиду третьего условия в (14). Покажем, что к нулю сходится и первое слагаемое. Действительно, из леммы 6 получаем
Для завершения доказательства леммы нам осталось применить неравенство Маркова для первой вероятности в правой части (41), а также использовать оценку (42), предельные соотношения (14) и первое утверждение леммы 7. Лемма 8 доказана.
Доказательство теоремы3 следует из лемм 7 и 8 и очевидной оценки
Лемма 9. Если выполнено условие (15), то $\lim_{\varepsilon\to 0} \mathbf{E}\omega_{f_1}^2(\varepsilon)=0$ и для независимых копий $f_1(t),\dots,f_n(t)$ почти наверное непрерывного случайного процесса имеет место следующий равномерный закон больших чисел:
Доказательство. Первое утверждение леммы следует из (15) и теоремы Лебега о мажорируемой сходимости. Далее, аналогично выводу леммы 7, при произвольном фиксированном $k>0$ и $u,v=0,\dots,k$, имеют место соотношения
Таким образом, правая часть в (44) не превосходит $C(\mathbf{E}\omega_{f_1}^2(1/k))^{1/2}+o_{\mathbf{p}}(1)$ ввиду (15), и в силу произвольности $k$ и первого утверждения леммы предельное соотношение (43) доказано. Лемма 9 доказана.
Лемма 10. В условиях теоремы 4 имеет место предельное соотношение
Действительно, первое слагаемое в правой части соотношения (48) сходится к нулю ввиду первого утверждения леммы 9, условия (15), первого условия в (14) и неравенства Коши–Буняковского
откуда с помощью лемм 9 и 10 получаем первое утверждение теоремы. Второе утверждение следует из первого и теоремы 3.
Список литературы
1.
A. Cuevas, “A partial overview of the theory of statistics with functional data”, J. Statist. Plann. Inference, 147 (2014), 1–23
2.
P. Kokoszka, M. Reimherr, Introduction to functional data analysis, Texts Statist. Sci. Ser., CRC Press, Boca Raton, FL, 2017, xvi+290 pp.
3.
H.-G. Müller, “Functional modelling and classification of longitudinal data”, Scand. J. Statist., 32:2 (2005), 223–240
4.
Tailen Hsing, R. Eubank, Theoretical foundations of functional data analysis, with an introduction to linear operators, Wiley Ser. Probab. Stat., John Wiley & Sons, Ltd., Chichester, 2015, xiv+334 pp.
5.
F. Bunea, A. E. Ivanescu, M. H. Wegkamp, “Adaptive inference for the mean of a Gaussian process in functional data”, J. R. Stat. Soc. Ser. B Stat. Methodol., 73:4 (2011), 531–558
6.
T. Tony Cai, Ming Yuan, “Optimal estimation of the mean function based on discretely sampled functional data: phase transition”, Ann. Statist., 39:5 (2011), 2330–2355
7.
Guanqun Cao, Li Wang, Yehua Li, Lijian Yang, “Oracle-efficient confidence envelopes for covariance functions in dense functional data”, Statist. Sinica, 26:1 (2016), 359–383
8.
Guanqun Cao, Lijian Yang, D. Todem, “Simultaneous inference for the mean function of dense functional data”, J. Nonparametr. Stat., 24:2 (2012), 359–377
9.
P. Hall, H.-G. Müller, Jane-Ling Wang, “Properties of principal component methods for functional and longitudinal data analysis”, Ann. Statist., 34:3 (2006), 1493–1517
10.
Seonjin Kim, Zhibiao Zhao, “Unified inference for sparse and dense longitudinal models”, Biometrika, 100:1 (2013), 203–212
11.
Yehua Li, Tailen Hsing, “Uniform convergence rates for nonparametric regression and principal component analysis in functional/longitudinal data”, Ann. Statist., 38:6 (2010), 3321–3351
12.
Zhenhua Lin, Jane-Ling Wang, “Mean and covariance estimation for functional snippets”, J. Amer. Statist. Assoc., 117:537 (2022), 348–360
13.
Shujie Ma, Lijian Yang, R. J. Carroll, “A simultaneous confidence band for sparse longitudinal regression”, Statist. Sinica, 22:1 (2012), 95–122
14.
Q. Song, R. Liu, Q. Shao, L. Yang, “A simultaneous confidence band for dense longitudinal regression”, Comm. Statist. Theory Methods, 43:24 (2014), 5195–5210
15.
Jiangyan Wang, Guanqun Cao, Li Wang, Lijian Yang, “Simultaneous confidence band for stationary covariance function of dense functional data”, J. Multivariate Anal., 176 (2020), 104584, 21 pp.
16.
Hulin Wu, Jin-Ting Zhang, Nonparametric regression methods for longitudinal data analysis. Mixed-effects modeling approaches, Wiley Ser. Probab. Stat., Wiley-Interscience [John Wiley & Sons], Hoboken, NJ, 2006, xxii+369 pp.
17.
Fang Yao, “Asymptotic distributions of nonparametric regression estimators for longitudinal or functional data”, J. Multivariate Anal., 98:1 (2007), 40–56
18.
D. Degras, “Asymptotics for the nonparametric estimation of the mean function of a random process”, Statist. Probab. Lett., 78:17 (2008), 2976–2980
19.
Fang Yao, H.-G. Müller, Jane-Ling Wang, “Functional data analysis for sparse longitudinal data”, J. Amer. Statist. Assoc., 100:470 (2005), 577–590
20.
Jin-Ting Zhang, Jianwei Chen, “Statistical inferences for functional data”, Ann. Statist., 35:3 (2007), 1052–1079
21.
Xiaoke Zhang, Jane-Ling Wang, “Optimal weighting schemes for longitudinal and functional data”, Statist. Probab. Lett., 138 (2018), 165–170
22.
Xiaoke Zhang, Jane-Ling Wang, “From sparse to dense functional data and beyond”, Ann. Statist., 44:5 (2016), 2281–2321
23.
Shuzhuan Zheng, Lijian Yang, W. K. Härdle, “A smooth simultaneous confidence corridor for the mean of sparse functional data”, J. Amer. Statist. Assoc., 109:506 (2014), 661–673
24.
Ling Zhou, Huazhen Lin, Hua Liang, “Efficient estimation of the nonparametric mean and covariance functions for longitudinal and sparse functional data”, J. Amer. Statist. Assoc., 113:524 (2018), 1550–1564
25.
G. M. James, T. J. Hastie, “Functional linear discriminant analysis for irregularly sampled curves”, J. R. Stat. Soc. Ser. B Stat. Methodol., 63:3 (2001), 533–550
D. Gervini, “Free-knot spline smoothing for functional data”, J. R. Stat. Soc. Ser. B Stat. Methodol., 68:4 (2006), 671–687
28.
J. A. Rice, Colin O. Wu, “Nonparametric mixed effects models for unequally sampled noisy curves”, Biometrics, 57:1 (2001), 253–259
29.
Fang Yao, T. C. M. Lee, “Penalized spline models for functional principal component analysis”, J. R. Stat. Soc. Ser. B Stat. Methodol., 68:1 (2006), 3–25
30.
J. A. Rice, B. W. Silverman, “Estimating the mean and covariance structure nonparametrically when the data are curves”, J. Roy. Statist. Soc. Ser. B, 53:1 (1991), 233–243
31.
I. S. Borisov, Yu. Yu. Linke, P. S. Ruzankin, “Universal weighted kernel-type estimators for some class of regression models”, Metrika, 84:2 (2021), 141–166
32.
Y. Y. Linke, I. S. Borisov, P. S. Ruzankin, “Universal kernel-type estimation of random fields”, Statistics, 57:4 (2023), 785–810
33.
Y. Linke, I. Borisov, P. Ruzankin, V. Kutsenko, E. Yarovaya, S. Shalnova, “Universal local linear kernel estimators in nonparametric regression”, Mathematics, 10:15 (2022), 2693, 28 pp.
34.
Ю. Ю. Линке, “К вопросу о нечувствительности оценок Надарая–Ватсона относительно корреляции элементов дизайна”, Теория вероятн. и ее примен., 68:2 (2023), 236–252; англ. пер.: Yu. Yu. Linke, “Towards insensitivity of Nadaraya–Watson estimators to design correlation”, Theory Probab. Appl., 68:2 (2023), 198–210
35.
Yu. Linke, I. Borisov, “Insensitivity of Nadaraya–Watson estimators to design correlation”, Comm. Statist. Theory Methods, 51:19 (2022), 6909–6918
36.
Ю. Ю. Линке, “Асимптотические свойства одношаговых взвешенных $M$-оценок с приложениями к задачам регрессии”, Теория вероятн. и ее примен., 62:3 (2017), 468–498; англ. пер.: Yu. Yu. Linke, “Asymptotic properties of one-step weighted $M$-estimators with applications to regression”, Theory Probab. Appl., 62:3 (2018), 373–398
37.
Ю. Ю. Линке, И. С. Борисов, “О построении явных оценок в задачах нелинейной регрессии”, Теория вероятн. и ее примен., 63:1 (2018), 29–56; англ. пер.: Yu. Yu. Linke, I. S. Borisov, “Constructing explicit estimators in nonlinear regression problems”, Theory Probab. Appl., 63:1 (2018), 22–44
38.
Yu. Linke, “Asymptotic properties of one-step $M$-estimators”, Comm. Statist. Theory Methods, 48:16 (2019), 4096–4118
39.
Yu. Yu. Linke, I. S. Borisov, “Constructing initial estimators in one-step estimation procedures of nonlinear regression”, Statist. Probab. Lett., 120 (2017), 87–94
40.
Yu. Yu. Linke, I. S. Borisov, “An approach to constructing explicit estimators in nonlinear regression”, Siberian Adv. Math., 33:4 (2023), 338–346
41.
Yu. Yu. Linke, “Asymptotic normality of one-step $M$-estimators based on non-identically distributed observations”, Statist. Probab. Lett., 129 (2017), 216–221
42.
Н. Н. Ченцов, “Слабая сходимость случайных процессов с траекториями без разрывов второго рода и так называемый “эвристический” подход к критериям согласия типа Колмогорова–Смирнова”, Теория вероятн. и ее примен., 1:1 (1956), 155–161; англ. пер.: N. N. Chentsov, “Weak convergence of stochastic processes whose trajectories have no discontinuities of the second kind and the “heuristic” approach to the Kolmogorov–Smirnov tests”, Theory Probab. Appl., 1:1 (1956), 140–144
Образец цитирования:
Ю. Ю. Линке, И. С. Борисов, “Универсальные непараметрические ядерные оценки для функций среднего и ковариации случайного процесса”, Теория вероятн. и ее примен., 69:1 (2024), 46–75; Theory Probab. Appl., 69:1 (2024), 35–58
\RBibitem{LinBor24}
\by Ю.~Ю.~Линке, И.~С.~Борисов
\paper Универсальные непараметрические ядерные оценки для функций среднего и ковариации случайного процесса
\jour Теория вероятн. и ее примен.
\yr 2024
\vol 69
\issue 1
\pages 46--75
\mathnet{http://mi.mathnet.ru/tvp5588}
\crossref{https://doi.org/10.4213/tvp5588}
\transl
\jour Theory Probab. Appl.
\yr 2024
\vol 69
\issue 1
\pages 35--58
\crossref{https://doi.org/10.1137/S0040585X97T991738}
\scopus{https://www.scopus.com/record/display.url?origin=inward&eid=2-s2.0-85164672068}