Amplitude interquartil
O intervalo interquartil (IIQ) foi desenvolvido no âmbito da estatística a fim de avaliar o grau de espalhamento de dados (dispersão) em torno da medida de centralidade. Para entender o comportamento dos dados (sejam eles discretos ou contínuos) de uma forma mais precisa, busca-se o estudo sobre a dispersão de dados por meio de ferramentas que complementam uma análise geral como o desvio padrão e a variância.
Os termos quartil inferior e quartil superior foram cunhados por Sir Donald MacAlister em 1879 com a publicação de The Law of the Geometric Mean. Já os termos intervalo interdecil e intervalo interquartil foram cunhados por Francis Galton em 1882 com a publicação de Report of the Anthropometric Committee, embora a ideia de intervalo interquartil tenha aparecido anteriormente nos trabalhos de Carl Friedrich Gauss e Adolphe Quételet. Galton organizou as observações em ordem crescente de magnitude e tomou as frações necessárias de cada extremidade, utilizando a interpolação para obter os pontos de cortes exatos. Galton reconheceu a maior estabilidade dos quantis mais centrais e usou intervalos interquartis como estatísticas descritivas. Baseando–se nas fórmulas para covariância entre quantis amostrais, Karl Pearson apontou que enquanto a amplitude semi-interquartílica 1 2 IIQ {\displaystyle {\frac {1}{2}}{\text{IIQ}}} tem a vantagem de estimar diretamente o erro provável, outros pares de quantis amostrais simetricamente espaçados podem fornecer estimadores mais eficientes da variabilidade no caso normal.
O conceito de quartil é importante para a definição de intervalo interquartil. Para esta definição formal é utilizado o conceito de mediana para determinar os quartis ( Q 1 , Q 2 {\displaystyle Q_{1},Q_{2}} e Q 3 {\displaystyle Q_{3}} ), sendo necessário entender os cálculos tanto para conjuntos de dados com quantidade ímpar de elementos quanto para conjuntos de dados com quantidade par de elementos. É possível determinar a posição dos quartis apenas se os elementos de um conjunto finito de dados estiverem ordenados.
Quartil para conjuntos de dados com quantidade par de elementos
A mediana de um conjunto de dados θ = { d 1 , d 2 , . . . , d n } {\displaystyle \theta =\{d_{1},d_{2},...,d_{n}\}} é a posição d i {\displaystyle d_{i}} que divide igualmente o conjunto θ {\displaystyle \theta } em dois grupos, cada um com 50% dos dados. Se θ {\displaystyle \theta } possui os elementos com as posições d 1 , d 2 , . . . , d n {\displaystyle d_{1},d_{2},...,d_{n}} , então d i {\displaystyle d_{i}} é a posição que marca o segundo quartil. Pela definição de mediana, para o caso de um conjunto de dados com quantidade par de elementos, a posição d i {\displaystyle d_{i}} está entre as posições d i − 1 {\displaystyle d_{i-1}} e d i + 1 {\displaystyle d_{i+1}} obtida pelo cálculo d i = d i − 1 + d i + 1 2 {\displaystyle d_{i}={\frac {d_{i-1}+d_{i+1}}{2}}} . Neste caso, existem elementos de θ {\displaystyle \theta } que ocupam as posições d i − 1 {\displaystyle d_{i-1}} e d i + 1 {\displaystyle d_{i+1}} . Estes elementos devem substituir d i − 1 {\displaystyle d_{i-1}} e d i + 1 {\displaystyle d_{i+1}} no cálculo de d i {\displaystyle d_{i}} . Determinando-se d i {\displaystyle d_{i}} , θ {\displaystyle \theta } passa a ter uma mediana definida. Então, θ = { d 1 , d 2 , . . . , d i − 1 , d i , d i + 1 , . . . , d n } {\displaystyle \theta =\{d_{1},d_{2},...,d_{i-1},{\color {maroon}d_{i}},d_{i+1},...,d_{n}\}} , em que d i {\displaystyle \color {maroon}d_{i}} é uma posição obtida pela média dos elementos d i − 1 {\displaystyle d_{i-1}} e d i + 1 {\displaystyle d_{i+1}} . Isto é, d i {\displaystyle \color {maroon}d_{i}} não é um elemento novo de θ {\displaystyle \theta } . Os grupos formados a partir do segundo quartil d i {\displaystyle d_{i}} são A = ( d 1 , d 2 , . . . , d i − 1 ) = ( a 1 , a 2 , . . . , a n ) {\displaystyle A=(d_{1},d_{2},...,d_{i-1})=(a_{1},a_{2},...,a_{n})} e B = ( d i + 1 , . . . , d n ) = ( b 1 , . . . , b n ) {\displaystyle B=(d_{i+1},...,d_{n})=(b_{1},...,b_{n})} .
Quartil para conjuntos de dados com quantidade ímpar de elementos
A mediana de um conjunto de dados θ ¯ = { e 1 , e 2 , . . . , e n } {\displaystyle {\bar {\theta }}=\{e_{1},e_{2},...,e_{n}\}} é a posição e i {\displaystyle e_{i}} que divide igualmente o conjunto θ ¯ {\displaystyle {\bar {\theta }}} em dois grupos, cada um com 50% dos dados. Se θ ¯ {\displaystyle {\bar {\theta }}} possui os elementos com as posições e 1 , e 2 , . . . , e n {\displaystyle e_{1},e_{2},...,e_{n}} , então e i {\displaystyle e_{i}} é a posição que marca o segundo quartil. Pela definição de mediana, para o caso de um conjunto de dados com quantidade ímpar de elementos, a posição e i {\displaystyle e_{i}} é obtida pelo cálculo e i = e n + 1 2 {\displaystyle e_{i}={\frac {e_{n}+1}{2}}} . Isto é, θ ¯ = ( e 1 , e 2 , . . . , e i − 1 , e i , e i + 1 , . . . , e n ) {\displaystyle {\bar {\theta }}=(e_{1},e_{2},...,e_{i-1},{\color {maroon}e_{i}},e_{i+1},...,e_{n})} . Os grupos formados são A ^ = ( g i + 1 , . . . , g n ) = ( p 1 , . . . , p m ) {\displaystyle {\hat {A}}=(g_{i+1},...,g_{n})=(p_{1},...,p_{m})} e B ^ = ( h i + 1 , . . . , h n ) = ( q 1 , . . . , q n ) {\displaystyle {\hat {B}}=(h_{i+1},...,h_{n})=(q_{1},...,q_{n})} .
Intervalo interquartil
Sendo Q 1 , Q 2 {\displaystyle Q_{1},Q_{2}} e Q 3 {\displaystyle Q_{3}} , o intervalo interquartil é dado por I I Q = Q 3 − Q 1 {\displaystyle IIQ=Q_{3}-Q_{1}} .
Na coleta de dados podem ocorrer erros de arredondamentos ou erros de observação. Estes dados são considerados discrepantes dentro de uma mesma amostra e podem levar a erros nas análises sobre a distribuição dos dados. Portanto, estabelece-se o critério de limite inferior e de limite superior nos quartis (os dados que estiverem além destes limites são considerados discrepantes). L I = Q 1 − c ⋅ I I Q {\displaystyle LI=Q_{1}-c\cdot IIQ} L S = Q 3 + c ⋅ I I Q {\displaystyle LS=Q_{3}+c\cdot IIQ} , em L I {\displaystyle LI} e L S {\displaystyle LS} são o limite inferior e o limite superior, respectivamente. Embora c {\displaystyle c} seja uma constante que pertence aos números reais R {\displaystyle \mathbb {R} \,} e pode assumir qualquer valor, é preferível usar o valor c = 1 , 5 {\displaystyle c=1,5} . O valor c = 1 , 5 {\displaystyle c=1,5} é capaz de captar mais de 99% dos dados embaixo de uma curva normal para mais e para menos do limite superior e do limite inferior, mas não é capaz de captar 100% dos dados deixando uma margem para a visualização dos dados discrepantes.
Os outros métodos para encontrar as posições dos quartis podem gerar dúvidas. Por exemplo, ao pensar que Q 1 , Q 2 {\displaystyle Q_{1},Q_{2}} e Q 3 {\displaystyle Q_{3}} possuem respectivamente 25%, 50% e 75% dos dados de um conjunto Ω {\displaystyle \Omega } , os cálculos dos porcentuais podem ser dados diretamente como: Q 1 = n ⋅ 25 % ≡ n 4 {\displaystyle Q_{1}=n\cdot 25\%\equiv {\frac {n}{4}}} Q 2 = n ⋅ 50 % ≡ n 2 {\displaystyle Q_{2}=n\cdot 50\%\equiv {\frac {n}{2}}} Q 3 = n ⋅ 75 % ≡ 3 n 4 {\displaystyle Q_{3}=n\cdot 75\%\equiv {\frac {3n}{4}}} , em que n {\displaystyle n} é número de elementos. Para o conjunto Ω ¯ = { 3 , 5 , 7 , 9 , 11 , 67 } {\displaystyle {\bar {\Omega }}=\{3,5,7,9,11,67\}} e o primeiro quartil Q 1 = 6 4 = 1 , 5 {\displaystyle Q_{1}={\frac {6}{4}}=1,5} , é visível que a posição 1 , 5 {\displaystyle 1,5} não possui 25% dos dados. Logo, este não pode ser o melhor método.. Um outro método para definir o quartil é Q i = i 4 ( N + 1 ) {\displaystyle Q_{i}={\frac {i}{4}}(N+1)} , em que N {\displaystyle N} é o número de elementos do conjunto Ω ˙ = { 2 , 4 , 6 , 8 , 10 , 90 } {\displaystyle {\dot {\Omega }}=\{2,4,6,8,10,90\}} e i {\displaystyle i} é a posição do quartil. Então, para definir o terceiro quartil Q 3 {\displaystyle Q_{3}} , tem-se Q 3 = 3 4 ( 6 + 1 ) = 5 , 25 {\displaystyle Q_{3}={\frac {3}{4}}(6+1)=5,25} Entretanto, a posição 5 , 25 {\displaystyle 5,25} não possui 75% dos dados.
Em estatística descritiva, o intervalo interquartil, também denominado por média espalhada, média de 50% ou, mais tecnicamente, propagação de H, é uma medida de dispersão estatística igual à diferença entre os percentis 75 e 25 ou entre o quartil superior e o quartil inferior. Isto é, I I Q = Q 3 − Q 1 {\displaystyle IIQ=Q_{3}-Q_{1}} . Em outras palavras, o intervalo interquartil é a diferença entre o primeiro quartil e o terceiro quartil. O intervalo interquartil é uma medida de variabilidade baseada na divisão de um conjunto de dados em quartis. Os quartis dividem um conjunto de dados em quatro partes iguais. Os valores que separam as partes são chamados de primeiro quartil, segundo quartil e terceiro quartil, indicados por Q 1 , Q 2 {\displaystyle Q_{1},Q_{2}} e Q 3 {\displaystyle Q_{3}} , respectivamente. O intervalo interquartil tem um ponto de ruptura de 25%, diferentemente do intervalo total. O intervalo interquartil é usado para construir gráficos de barras, representações gráficas simples de uma distribuição de probabilidade. Para uma distribuição simétrica, em que a mediana é igual ao midhinge (média entre o primeiro quartil e o terceiro quartil), metade do intervalo interquartil é igual ao desvio absoluto médio (DAM). A medida correspondente de tendência central é a mediana.
As medidas de tendência central realizam uma síntese para oferecer uma leitura rápida dos dados. A partir dos conceitos de média, é possível observar no intervalo interquartil uma medida central chamada de desvio quartílico ou intervalo semi-interquartil. O intervalo semi-interquartil Q {\displaystyle Q} é definido como Q = 1 2 ( Q 3 − Q 1 ) {\displaystyle Q={\frac {1}{2}}(Q_{3}-Q_{1})} . O intervalo interquartil, além de avaliar uma dispersão de dados, oferece uma medida de 50% dos dados. Isto favorece uma nova leitura dos dados e comparações com as demais medidas centrais moda, mediana e média.
Os dados do intervalo interquartil são úteis para a construção de um diagrama de caixa, também chamado de boxplot. Isto é, os valores de Q 1 , Q 2 , Q 3 , L I {\displaystyle Q_{1},Q_{2},Q_{3},LI} e L S {\displaystyle LS} favorecem a construção da figura abaixo. Em estatística, usualmente não há uma regra para determinar a largura da caixa (caixa em azul, na figura acima). Com bom senso, adota-se uma largura adequada para o diagrama de caixa. Embora possa ser construído em qualquer direção, o diagrama de caixa geralmente é posicionado na horizontal para facilitar a visualização dos dados. Com o auxílio de uma escala, marca-se a posição de Q 1 , Q 2 , Q 3 , L I {\displaystyle Q_{1},Q_{2},Q_{3},LI} e L S {\displaystyle LS} . Os dados que estão além do limite superior e do limite inferior são representados como pontos ou asteriscos. Em estatística, os pontos vermelhos na figura acima são chamados de outliers e podem evidenciar algum erro de arredondamento ou erro de observação dos dados. Entretanto, nem sempre os pontos que estão além do limite superior e do limite inferior são outliers. Existem casos em que os outliers são tratados como pontos exteriores ou pontos discrepantes em vez de erros de arredondamento ou erros de observação. Por exemplo, se os 15 municípios brasileiros mais populosos forem colocados em ordem crescente de número de habitantes, São Paulo e Rio de Janeiro serão pontos extremos, o que não configura um erro de arredondamento ou erro de observação.
Exemplo com o uso de mediana
Na sequência numérica { 4 , 4 , 6 , 7 , 10 , 11 , 12 , 14 , 15 } {\displaystyle \{4,4,6,7,10,11,12,14,15\}} , a mediana é o número 10 porque é o número que está exatamente no meio da série. Em uma sequência numérica com quantidade ímpar de elementos, a mediana sempre será o número que está no meio da sequência independente do valor numérico. Em uma sequência numérica com quantidade par de elementos, a mediana será a soma dos dois valores centrais dividido por 2. Por exemplo, para { 5 , 7 , 8 , 12 , 15 , 17 } {\displaystyle \{5,7,8,12,15,17\}} , a mediana será 8 + 12 2 = 10 {\displaystyle {\frac {8+12}{2}}=10} . O intervalo interquartil é a diferença entre a mediana da segunda parte e a mediana da primeira parte do conjunto de dados. Seja a sequência numérica { 4 , 4 , 6 , 7 , 10 , 11 , 12 , 14 , 15 } {\displaystyle \{4,4,6,7,10,11,12,14,15\}} . A mediana da primeira parte { 4 , 4 , 6 , 7 } {\displaystyle \{4,4,6,7\}} é 4 + 6 2 = 5 {\displaystyle {\frac {4+6}{2}}=5} . A mediana da segunda parte { 11 , 12 , 14 , 15 } {\displaystyle \{11,12,14,15\}} é 12 + 14 2 = 13 {\displaystyle {\frac {12+14}{2}}=13} . Portanto, o intervalo interquartil é 13 − 5 = 8 {\displaystyle 13-5=8} .
Exemplo sobre o cuidado com a medida central
Embora ofereçam um resumo dos dados amostrais, o contraexemplo abaixo mostra que as medidas centrais não são suficientes para caracterizar uma avaliação sobre uma sequência numérica. A = { 1 , 6 , 10 , 10 , 11 , 13 , 13 , 17 , 18 } {\displaystyle A=\{1,6,10,10,11,13,13,17,18\}} B = { 9 , 9 , 9 , 11 , 13 , 13 , 11 , 10 , 14 } {\displaystyle B=\{9,9,9,11,13,13,11,10,14\}} C = { 11 , 11 , 11 , 11 , 11 } {\displaystyle C=\{11,11,11,11,11\}} Todas as sequências possuem média 11, mas visualmente são sequências diferentes entre si. A variabilidade de dados em C {\displaystyle C} não existe, mas a variabilidade de dados em B {\displaystyle B} é maior do que a variabilidade de dados em A {\displaystyle A} . Entretanto, os dados em A {\displaystyle A} se mostram mais distantes entre si que os dados em B {\displaystyle B} , o que pode induzir ao erro ao admitir que os dados em A {\displaystyle A} são mais dispersos que os dados em B {\displaystyle B} . Por isso, o cálculo dos quartis e do limite superior e do limite inferior ajudam a evitar erros nas conclusões das análises.
O intervalo interquartil de uma distribuição contínua pode ser calculado integrando a função de densidade de probabilidade, que produz a função de distribuição cumulativa (FDC). O quartil inferior Q 1 {\displaystyle Q_{1}} é um número tal que a integral da função de distribuição cumulativa de − ∞ {\displaystyle -\infty } a Q 1 {\displaystyle Q_{1}} é igual a 0,25, enquanto que o quartil superior Q 3 {\displaystyle Q_{3}} é um número tal que a integral de − ∞ {\displaystyle -\infty } a Q 3 {\displaystyle Q_{3}} é igual a 0,75. Em termos da função de distribuição cumulativa, os quartis podem ser definidos da seguinte forma Q 1 = FDC − 1 ( 0 , 25 ) {\displaystyle Q_{1}={\text{FDC}}^{-1}(0,25)} Q 3 = FDC − 1 ( 0 , 75 ) {\displaystyle Q_{3}={\text{FDC}}^{-1}(0,75)} , em que a função de distribuição cumulativa FDC − 1 {\displaystyle {\text{FDC}}^{-1}} é a função quantil. O intervalo interquartil e a mediana de algumas distribuições comuns são mostradas na tabela abaixo.
As medidas intervalo interquartil, média e desvio padrão de uma população P {\displaystyle P} podem ser usadas em um teste simples, em que P {\displaystyle P} pode ou não pode ser uma distribuição normal. Se P {\displaystyle P} for normalmente distribuída, então o score do primeiro quartil z 1 {\displaystyle z_{1}} é − 0 , 67 {\displaystyle -0,67} e o score do terceiro quartil z 3 {\displaystyle z_{3}} é + 0 , 67 {\displaystyle +0,67} . Dado a média X {\displaystyle X} e o desvio padrão σ {\displaystyle \sigma } para P {\displaystyle P} , se P {\displaystyle P} for normalmente distribuída: Q 1 = ( σ z 1 ) + X {\displaystyle Q_{1}=(\sigma \,z_{1})+X} Q 3 = ( σ z 3 ) + X {\displaystyle Q_{3}=(\sigma \,z_{3})+X} Se os valores reais do primeiro quartil ou do terceiro quartil diferirem substancialmente dos valores calculados, P {\displaystyle P} não é normalmente distribuída. Entretanto, uma distribuição normal pode ser perturbada para manter Q 1 {\displaystyle Q_{1}} e Q 2 {\displaystyle Q_{2}} , scores − 0 , 67 {\displaystyle -0,67} e + 0 , 67 {\displaystyle +0,67} e não ser normalmente distribuída, de modo que o teste acima produza um resultado falso positivo. Há outros testes de normalidade mais indicados, como o gráfico Q − Q {\displaystyle Q-Q} .


