Potência estatística
A potência estatística de um teste de hipóteses binário é a probabilidade de que o teste rejeite corretamente a hipótese nula quando uma hipótese alternativa é verdadeira. A potência estatística vai de 0 a 1. Conforme a potência estatística aumenta, a probabilidade de cometer um erro diminui, sendo o erro de tipo II e a potência estatística . Por exemplo, se um experimento 1 tem potência estatística igual a 0,7 e um experimento 2 tem potência estatística igual a 0,95, então, há uma probabilidade maior de que o experimento 1 tenha um erro de tipo II do que o experimento 2, sendo o experimento 2 mais confiável do que experimento 1 devido à redução da probabilidade de um erro de tipo II. Pode ser equivalentemente pensada com a probabilidade de aceitar a hipótese alternativa quando ela é verdadeira — isto é, a habilidade que um teste tem de detectar um efeito específico, quando o efeito específico realmente existe, ou seja:
Testes estatísticos usam dados de amostras para avaliar ou fazer inferências sobre uma população estatística. Na configuração concreta de uma comparação entre duas amostras, o objetivo é avaliar se os valores médios de algum atributo obtidos para indivíduos nas duas subpopulações diferem entre si. Por exemplo, para testar a hipótese nula de que as pontuações médias de homens e mulheres em um exame não diferem entre si, retiram-se amostras de homens e mulheres, aplica-se o exame e a pontuação média de um grupo é comparada àquela do outro grupo usando um teste estatístico, tal como o teste Z biamostral. A potência do teste é a probabilidade de que o teste encontre um diferença estatisticamente significante entre homens e mulheres, como uma função do tamanho da diferença verdadeira entre aquelas duas populações.
A potência estatística pode depender de um número de fatores. Alguns fatores podem ser específicos de uma situação de teste particular, mas, pelo menos, a potência quase sempre depende dos seguintes três fatores: Um critério de significância é uma afirmação de quão improvável um resultado positivo deve ser, se a hipótese nula de nenhum efeito for verdadeira, para que a hipótese nula seja rejeitada. Os critérios mais comumente usados são probabilidades de 0,05 (5% ou 1 em 20), 0,01 (1% ou 1 em 100) e 0,001 (0,1% ou 1 em 1.000). Se o critério for igual a 0,05, a probabilidade de que os dados impliquem um efeito no mínimo tão grande quanto o efeito observado quando a hipótese nula é verdadeira deve ser menor do que 0,05 para que a hipótese nula ou de nenhum efeito seja rejeitada. Uma maneira fácil de aumentar a potência de um teste pode ser conduzir um teste menos conservador, usando um critério de significância maior, por exemplo, 0,10 em vez de 0,05. Isto aumenta a chance de rejeição da hipótese nula (isto é, obtendo um resultado estatisticamente significante) quando a hipótese nula é falsa, ou seja, reduz o risco de um erro de tipo II (falso negativo ao dizer se um efeito existe). No entanto, também aumenta o risco de obter um resultado estatisticamente significante (isto é, rejeitando a hipótese nula) quando a hipótese nula não é falsa, ou seja, aumenta o risco de um erro de tipo I (falso positivo).
Ainda que não haja padrões formais para potência (às vezes referida como π {\displaystyle \pi } ), a maioria dos pesquisadores avalia a potência de seus testes usando π = 0 , 80 {\displaystyle \pi =0,80} como um padrão para adequação. Esta convenção implica um tradeoff de quatro a um entre risco β {\displaystyle \beta } e risco α {\displaystyle \alpha } ( β {\displaystyle \beta } é a probabilidade de um erro de tipo II e α {\displaystyle \alpha } é a probabilidade de um erro de tipo I, sendo 0,2 e 0,05 valores convencionais para β {\displaystyle \beta } e α {\displaystyle \alpha } ). Entretanto, há momentos em que esta ponderação 4 a 1 será inapropriada. Em medicina, por exemplo, testes são frequentemente desenhados de modo que nenhum falso negativo (erro de tipo II) seja produzido. Mas isto inevitavelmente aumenta o risco de se obter um falso positivo (erro de tipo I). O raciocínio por trás disto é que é melhor dizer a um paciente saudável "podemos ter encontrado algo — vamos fazer mais um teste" do que dizer a um paciente doente "está tudo bem".
A análise de potência pode ser feita tanto antes (análise de potência a priori ou prospectiva) como depois (análise de potência post hoc ou retrospectiva) que os dados foram coletados. A análise de potência a priori é considerada antes do estudo da pesquisa e é tipicamente usada na estimação de tamanhos de amostra suficientes para atingir potência adequada. A análise post hoc de "potência observada" é conduzida depois que o estudo foi concluído e usa o tamanho de amostra obtido e o tamanho de efeito para determina qual foi a potência no estudo, assumindo que o tamanho de efeito na amostra é igual ao tamanho de efeito na população. Enquanto a utilidade da análise de potência prospectiva no desenho de experimentos é universalmente aceita, a análise de potência post hoc é fundamentalmente falha. Cair na tentação de usar a análise estatística dos dados coletados para estimar a potência resultará em valores não informativos e enganadores. Em particular, tem-se mostrado que a "potência observada" post hoc é uma função um a um do valor-p obtido. Isto tem sido estendido para mostrar que toda análise de potência post hoc sofre do que se chama de "paradoxo da abordagem de potência" (PAP), em que se pensa que um estudo com resultado nulo mostra mais evidências de que a hipótese nula é verdadeira quando o valor-p é menor, já que a aparente potência de detectar um efeito real seria mais alta. De fato, entende-se adequadamente que um valor-p menor torna relativamente menos provável que a hipótese nula seja verdadeira.
Agências de financiamento, conselhos de ética e painéis de revisão de pesquisa frequentemente solicitam que o pesquisador realize uma análise de potência, por exemplo, para determinar o número mínimo de animais sujeitos a teste necessários para que um experimento seja informativo. Em estatística frequencista, é improvável que um estudo de potência baixa permita que se escolha entre hipóteses a um nível de significância desejado. Em estatística bayesiana, o teste de hipóteses do tipo usado em análise clássica de potência não é realizado. No quadro de trabalho bayesiano, atualizam-se os postulados a priori usando os dados obtidos em um dado estudo. A princípio, um estudo que seria considerado de potência baixa a partir da perspectiva do teste de hipóteses pode ainda ser usado em tal processo de atualização. Entretanto, a potência permanece uma medida útil da intensidade com que se pode esperar que um dado tamanho de experimento refine os postulados. É improvável que um estudo com baixa potência leve a uma grande mudança nos postulados.
O que se segue é um exemplo que mostra como computar a potência para um experimento aleatório. Suponha que o objetivo do experimento seja estudar o efeito de um tratamento sobre alguma quantidade e comparar os sujeitos de pesquisa ao medir a quantidade antes e depois do tratamento, analisando os dados usando um teste t pareado. Considere que A i {\displaystyle A_{i}} e B i {\displaystyle B_{i}} denotam respectivamente as medidas pré-tratamento e pós-tratamento do sujeito i {\displaystyle i} . O possível efeito do tratamento deve ser visível nas diferenças D i = B i − A i {\displaystyle D_{i}=B_{i}-A_{i}} , assumidas como independentemente distribuídas, todas com o mesmo valor esperado e a mesma variância. O efeito do tratamento pode ser analisado usando um teste t unilateral. A hipótese nula de nenhum efeito será que a diferença média é igual a zero, isto é, H 0 : μ D = 0 {\displaystyle H_{0}:\mu _{D}=0} . Neste caso, a hipótese alternativa afirma um efeito positivo, correspondente a H 1 : μ D > 0 {\displaystyle H_{1}:\mu _{D}>0} . A estatística do teste é:
Potência bayesiana
Na configuração frequencista, assume-se que os parâmetros têm um valor específico improvavelmente verdadeiro. Esta questão pode ser abordada assumindo que o parâmetro tem uma distribuição. A potência resultante é às vezes chamada de potência bayesiana, que é comummente usada no desenho de ensaios clínicos.
Probabilidade preditiva de sucesso
Tanto a potência frequencista, como a potência bayesiana usam a significância estatística como critério de sucesso. Entretanto, a significância estatística frequentemente não é suficiente para definir sucesso. Para abordar esta questão, o conceito de potência pode ser estendida para o conceito de probabilidade preditiva de sucesso. O critério de sucesso para a probabilidade preditiva de sucesso não se restringe à significância estatística e é comummente usado no desenho de ensaios clínicos.


