ARIMA
Em estatística e econometria, particularmente em análise de séries temporais, um modelo auto-regressivo integrado de médias móveis é uma generalização de um modelo auto-regressivo de médias móveis (ARMA). Ambos os modelos são ajustados aos dados da série temporal para entender melhor os dados ou para prever pontos futuros na série. Modelos ARIMA são aplicados em alguns casos em que os dados mostram evidências de não estacionariedade, em que um passo inicial de diferenciação pode ser aplicado uma ou mais vezes para eliminar a não estacionariedade.
Imagem: europeanspaceagency · BY-SA · Openverse
Dada uma série temporal de dados X t {\displaystyle X_{t}} , em que t {\displaystyle t} é um índice representado por um número inteiro e X t {\displaystyle X_{t}} são números reais, um modelo ARMA( p , q {\displaystyle p,q} ) é dado por: X t − α 1 X t − 1 − . . . − α p ′ X t − p ′ = ε t + θ 1 ε t − 1 + . . . + θ q ε t − q , {\displaystyle X_{t}-\alpha _{1}X_{t-1}-...-\alpha _{p'}X_{t-p'}=\varepsilon _{t}+\theta _{1}\varepsilon _{t-1}+...+\theta _{q}\varepsilon _{t-q},} ( 1 − ∑ i = 1 p ′ α i L i ) X t = ( 1 + ∑ i = 1 q θ i L i ) ε t , {\displaystyle \left(1-\sum _{i=1}^{p'}\alpha _{i}L^{i}\right)X_{t}=\left(1+\sum _{i=1}^{q}\theta _{i}L^{i}\right)\varepsilon _{t},} em que L {\displaystyle L} é operador de defasagem, α i {\displaystyle \alpha _{i}} são os parâmetros da parte auto-regressiva do modelo, θ i {\displaystyle \theta _{i}} são os parâmetros da parte de média móvel e ε t {\displaystyle \varepsilon _{t}} são os termos de erro. Os termos de erro ε t {\displaystyle \varepsilon _{t}} são geralmente assumidos como variáveis independentes e identicamente distribuídas amostradas a partir de uma distribuição normal com média zero. Assuma agora que o polinômio ( 1 − ∑ i = 1 p ′ α i L i ) {\displaystyle \textstyle \left(1-\sum _{i=1}^{p'}\alpha _{i}L^{i}\right)} tem uma raiz unitária (um fator ( 1 − L ) {\displaystyle (1-L)} ) de multiplicidade d {\displaystyle d} . Então, isto pode ser rescrito como:
Imagem: Mukai · BY-SA · Openverse
A identificação explícita da fatoração do polinômio de auto-regressão em fatores como descrita acima pode ser estendida a outros casos, primeiramente para aplicar ao polinômio de média móvel e, em segundo lugar, para incluir outros fatores especiais. Por exemplo, ter um fator ( 1 − L s ) {\displaystyle (1-L^{s})} em um modelo é uma forma de incluir uma sazonalidade não estacionária do período s {\displaystyle s} no modelo. Este fator tem o efeito de reexpressar os dados como mudanças a partir de s {\displaystyle s} períodos atrás. Outro exemplo é o fator ( 1 − 3 L + L 2 ) {\displaystyle \left(1-{\sqrt {3}}L+L^{2}\right)} , que inclui uma sazonalidade não estacionária de período igual a 2. O efeito do primeiro tipo de fator é permitir ao valor de cada temporada derivar separadamente ao longo tempo, enquanto os valores do segundo tipo para temporadas adjacentes se movem juntos. A identificação e a especificação de fatores apropriados em um modelo ARIMA podem ser passos importantes na modelagem, já que permitem uma redução no número geral de parâmetros a serem estimados, enquanto autorizam a imposição de tipos de comportamento sugeridos pela lógica e pela experiência sobre o modelo.
Imagem: XiLbiA · BY-NC · Openverse
A diferenciação em estatística é uma transformação aplicada aos dados de uma série temporal a fim de tornar esta série estacionária. As propriedades de uma série temporal estacionária não dependem do tempo em que a série é observada. A fim de diferenciar os dados, a diferença entre observações consecutivas é computada. Matematicamente, isto é mostrado como: y t ′ = y t − y t − 1 . {\displaystyle y_{t}'=y_{t}-y_{t-1}.} A diferenciação remove as mudanças no nível de uma série temporal, eliminando tendência e sazonalidade e consequentemente estabilizando a média da série temporal. Pode ser necessário às vezes diferenciar os dados uma segunda vez para obter uma série temporal estacionária, processo referido como diferenciação de segunda ordem: y t ∗ = y t ′ − y t − 1 ′ = ( y t − y t − 1 ) − ( y t − 1 − y t − 2 ) = y t − 2 y t − 1 + y t − 2 . {\displaystyle {\begin{aligned}y_{t}^{*}&=y_{t}'-y_{t-1}'\\&=(y_{t}-y_{t-1})-(y_{t-1}-y_{t-2})\\&=y_{t}-2y_{t-1}+y_{t-2}.\end{aligned}}}
Imagem: 663highland · BY · Openverse
Alguns casos especiais bem conhecidos surgem naturalmente ou são matematicamente equivalentes a outros modelos de previsão populares. Por exemplo:
Imagem: 文部科学省 · BY · Openverse
Para determinar a ordem de um modelo ARIMA não sazonal, um critério útil é o critério de informação de Akaike (AIC). É escrito como: AIC = − 2 log ( L ) + 2 ( p + q + k + 1 ) , {\displaystyle {\text{AIC}}=-2\log(L)+2(p+q+k+1),} em que L {\displaystyle L} é verossimilhança dos dados, p {\displaystyle p} é a ordem da parte auto-regressiva e q {\displaystyle q} é a ordem da parte de média móvel. O parâmetro k {\displaystyle k} neste critério é definido como o número de parâmetros no modelo sendo ajustado aos dados. Para o AIC, se k = 1 {\displaystyle k=1} , então c ≠ 0 {\displaystyle c\neq 0} , e se k = 0 {\displaystyle k=0} , então c = 0 {\displaystyle c=0} . O AIC corrigido para modelos ARIMA pode ser escrito como: A I C c = A I C + ( 2 ( p + q + k + 1 ) ( p + q + k + 2 ) ) / ( T − p − q − k − 2 ) . {\displaystyle AICc=AIC+(2(p+q+k+1)(p+q+k+2))/(T-p-q-k-2).} O critério de informação bayesiano (BIC) pode ser escrito como:
Imagem: 663highland · BY · Openverse
O modelo ARIMA pode ser visto como uma "cascata" de dois modelos. O primeiro é não estacionário: Y t = ( 1 − L ) d X t , {\displaystyle Y_{t}=(1-L)^{d}X_{t},} enquanto o segundo é estacionário em sentido amplo: ( 1 − ∑ i = 1 p ϕ i L i ) Y t = ( 1 + ∑ i = 1 q θ i L i ) ε t . {\displaystyle \left(1-\sum _{i=1}^{p}\phi _{i}L^{i}\right)Y_{t}=\left(1+\sum _{i=1}^{q}\theta _{i}L^{i}\right)\varepsilon _{t}.} Agora, previsões podem ser feitas para o processo Y t {\displaystyle Y_{t}} , usando uma generalização do método de previsão auto-regressiva.
Intervalos de previsão
Os intervalos de previsão (intervalos de confiança para previsões) para modelos ARIMA são baseados no pressuposto de que os resíduos são não correlacionados e normalmente distribuídos. Se um destes dois pressupostos não se aplicar, então, os intervalos de previsão podem estar incorretos. Por esta razão, pesquisadores mapeiam a função autocorrelação e o histograma dos resíduos para checar os pressupostos antes de produzirem os intervalos de previsão. No caso de intervalo de previsão de 95%, tem-se: y ^ T + h | T ± 1.96 v T + h | T {\displaystyle {\hat {y}}_{T+h|T}\pm 1.96{\sqrt {v_{T+h|T}}}} , em que v T + h | T {\displaystyle v_{T+h|T}} é a variância de y T + h | y 1 , . . . , y T {\displaystyle y_{T+h}|y_{1},...,y_{T}} .
Imagem: 663highland · BY · Openverse
Uma quantidade de variações sobre o modelo ARIMA é comumente empregada. Se séries temporais múltiplas forem usadas, então, X t {\displaystyle X_{t}} podem ser pensados como vetores e um modelo auto-regressivo integrado de médias móveis vetorial (VARIMA). Algumas vezes, suspeita-se de um efeito sazonal no modelo. Neste caso, geralmente é melhor usar um modelo auto-regressivo integrado de médias móveis sazonal (SARIMA) do que aumentar a ordem das partes AR ou MA do modelo. Se se suspeitar que a série temporal exibe dependência de longo intervalo, então, pode-se permitir ao parâmetro d {\displaystyle d} ter valores não inteiros em um modelo auto-regressivo fracionariamente integrado de médias móveis, que também é chamado de modelo ARIMA fracionário (FARIMA ou ARFIMA).


