Distribuição de probabilidade
Em teoria da probabilidade e em estatística, uma distribuição de probabilidade descreve o comportamento aleatório de um fenômeno dependente do acaso. O estudo dos fenômenos aleatórios começou com o estudo dos jogos de azar – jogos de dados, sorteios de bolas de urna e cara ou coroa eram motivações para compreender e prever os experimentos aleatórios. Essas abordagens iniciais são fenômenos discretos, o que significa que o número de resultados possíveis é finito ou contável. Entretanto, certas questões revelam distribuições de probabilidade com suporte infinito não contável. Por exemplo, quando o lançamento de uma moeda tende ao infinito, o número de coroas aproxima-se de uma distribuição normal.
Teoricamente uma descrição de probabilidade descreve a característica aleatória de uma experiência aleatória. O conceito de experiência aleatória surgiu para descrever um processo real de natureza experimental, em que o acaso intervém com resultados possíveis bem identificados. Por exemplo, em um lançamento de um dado não viciado (um evento aleatório) os resultados podem ser um número entre 1 e 6 com igual probabilidade (de acordo com a distribuição de probabilidade, há a mesma chance de saírem os seis resultados com probabilidade igual a um sexto). Historicamente distribuições de probabilidade foram estudadas em jogos de azar, jogos de dados, jogos de cartas, entre outros. Se os possíveis resultados dos fenômenos forem números contáveis, a distribuição de probabilidade é chamada discreta. Dar a distribuição de probabilidade significa dar a lista de valores possíveis com suas probabilidades associadas. Ela é dada por meio de uma fórmula, uma tabela de valores, uma árvore de probabilidade ou funções que serão detalhadas nas seções seguintes.
O uso do acaso existe desde os tempos antigos, especialmente em jogos de azar, em apostas de riscos de transportes marítimos ou em rendas vitalícias. Entretanto, uma das primeiras referências conhecidas para os cálculos de probabilidade é um cálculo elementar sobre a Divina Comédia que aparece apenas no século XV durante o Renascimento. Os primeiros tratados formam o início da teoria da probabilidade, principalmente com base em probabilidades combinatórias. Os problemas surgem à respeito da duração de um jogo de cartas: — Pierre Rémond de Montmort, em seu livro Essay d'analyse sur les jeux de hazard. Reconhece-se a probabilidade (a aposta) de uma variável (a duração de um jogo) ser menor que um valor (um certo número determinado), que representa a função de distribuição da distribuição de probabilidade de um jogo. Essa é a tese de Nicolau Bernoulli, publicada em 1711, em que aparece pela primeira vez a distribuição uniforme. Então, outras distribuições apareceram como a distribuição binomial e a distribuição normal, embora suas abordagens não sejam completamente rigorosas— por exemplo, a distribuição normal foi desenvolvida por Abraham de Moivre com uma curva de Gauss por uma aproximação numérica. No século XVIII, outras ideias de distribuições de probabilidade emergiram com a expectativa de uma variável aleatória discreta com Jean le Rond D'Alembert ou de probabilidades condicionais com Thomas Bayes. Algumas distribuições de probabilidade contínuas estão contidas em uma memória de Joseph—Louis Lagrange, de 1770.
Em teoria da probabilidade, uma distribuição de probabilidade é uma medida com massa total igual a 1. Essa medida satisfaz os três axiomas de probabilidade. Definição — Para um espaço mensurável ( Ω , A ) {\displaystyle (\Omega ,{\mathcal {A}})} , P {\displaystyle \mathbb {P} } é uma distribuição de probabilidade, medida de probabilidade ou simplesmente probabilidade se: ( Ω , A , P ) {\displaystyle (\Omega ,{\mathcal {A}},\mathbb {P} )} é chamado de espaço de probabilidade. Usualmente a palavra distribuição é usada quando tratamos de uma distribuição de probabilidade de uma variável aleatória X {\displaystyle X} definida em um espaço de probabilidade ( Ω , A , P ) {\displaystyle (\Omega ,{\mathcal {A}},\mathbb {P} )} . Definição — Seja uma variável aleatória real no espaço de probabilidade ( Ω , A , P ) {\displaystyle (\Omega ,{\mathcal {A}},\mathbb {P} )} . Isto é, uma função mensurável X : ( Ω , A ) → ( R , B ( R ) ) {\displaystyle X:(\Omega ,{\mathcal {A}})\rightarrow (\mathbb {R} ,{\mathcal {B}}(\mathbb {R} ))} . A distribuição de probabilidade da variável aleatória X {\displaystyle X} é a medida de probabilidade P X {\displaystyle \mathbb {P} _{X}} definida sobre o espaço mensurável ( R , B ( R ) ) {\displaystyle (\mathbb {R} ,{\mathcal {B}}(\mathbb {R} ))} por P X ( B ) = P ( X − 1 ( B ) ) = P ( X ∈ B ) , {\displaystyle \mathbb {P} _{X}(B)=\mathbb {P} {\big (}X^{-1}(B){\big )}=\mathbb {P} (X\in B),} para qualquer álgebra de Borel real B ∈ B ( R ) {\displaystyle B\in {\mathcal {B}}(\mathbb {R} )} . Em outras palavras, P X {\displaystyle \mathbb {P} _{X}} é a medida de imagem de P {\displaystyle \mathbb {P} } para X {\displaystyle X} .
Distribuição multidimensional
Uma distribuição de probabilidade é chamada de multidimensional ou n {\displaystyle n} -dimensional quando descreve vários valores (aleatórios) de um fenômeno aleatório, por exemplo, no lançamento de dois dados a distribuição de probabilidade dos dois resultados é uma distribuição bidimensional. Então, a característica multidimensional aparece por meio da transferência por uma variável aleatória de um espaço de probabilidade ( Ω , A ) {\displaystyle (\Omega ,{\mathcal {A}})} para um espaço numérico E n {\displaystyle E^{n}} , de dimensão n {\displaystyle n} , por exemplo, no lançamento de dois dados a dimensão é n = 2 {\displaystyle n=2} e o espaço E 2 {\displaystyle E^{2}} é { 1 , … , 6 } × { 1 , … , 6 } {\displaystyle \{1,\dots ,6\}\times \{1,\dots ,6\}} . A distribuição multidimensional também é chamada de distribuição conjunta.
Distribuição condicional
Uma distribuição de probabilidade condicional permite descrever o comportamento de um fenômeno aleatório quando a informação sobre o processo é conhecida. Em outras palavras, a probabilidade condicional permite avaliar o grau de dependência estocástica entre dois eventos, por exemplo, no lançamento de dois dados a distribuição condicional pode dar a soma dos resultados sabendo que o resultado do lançamento de um dos dois dados foi pelo menos quatro. A probabilidade condicional é definida em eventos pela probabilidade P ( ⋅ | B ) {\displaystyle \mathbb {P} (\cdot |B)} : a probabilidade de um evento A qualquer condicionado a um evento B. Para quaisquer A {\displaystyle A} e B {\displaystyle B} da σ-álgebra subjacente tal que P ( B ) ≠ 0 {\displaystyle \mathbb {P} (B)\neq 0}
Distribuição com valores em um espaço de Banach
Porque R {\displaystyle \mathbb {R} } é um espaço de Banach, as distribuições dos valores em um espaço de Banach são generalizações das distribuições dos valores reais. A definição é semelhante. Definição — Seja X {\displaystyle \ X\ } uma variável aleatória em um espaço de probabilidade ( Ω , A , P ) {\displaystyle (\Omega ,{\mathcal {A}},\,\mathbb {P} )} com valores em um espaço de Banach E {\displaystyle E} com σ-álgebra B {\displaystyle {\mathcal {B}}} gerada pelos conjuntos abertos de E {\displaystyle E} . A distribuição de probabilidade da variável aleatória X {\displaystyle X\ } e a medida de probabilidade P X {\displaystyle \mathbb {P} _{X}\ } definida pelo espaço mensurável ( E , B ) {\displaystyle \ (E,{\mathcal {B}})} por P X ( B ) = P ( X − 1 ( B ) ) = P ( X ∈ B ) , {\displaystyle \mathbb {P} _{X}(B)=\mathbb {P} \left(X^{-1}(B)\right)=\mathbb {P} \left(X\in B\right),} para todo B ∈ B {\displaystyle B\in {\mathcal {B}}} .
Espaço de distribuições de probabilidade
Uma distribuição de probabilidade é uma medida de massa total unitária. O conjunto de distribuições de probabilidade é um subespaço do espaço de medidas finitas. Esse espaço é muitas vezes denominado P ( R ) {\displaystyle {\mathcal {P}}(\mathbb {R} )} ou M 1 ( R ) {\displaystyle {\mathcal {M}}_{1}(\mathbb {R} )} pelas distribuições de probabilidade reais. No restante da seção, as propriedades desse espaço são detalhadas para as distribuições de probabilidade no conjunto dos números reais. Embora também possam ser detalhadas para distribuições em espaços de Banach. É possível fornecer esse espaço com uma topologia chamada topologia fraca. Essa topologia define uma convergência fraca das distribuições de probabilidade: uma sequência de distribuições de probabilidade ( P n , n = 1 , 2 , … ) {\displaystyle (\mathbb {P} _{n},n=1,2,\dots )} converge fracamente para uma distribuição de probabilidade P {\displaystyle \mathbb {P} } se
Parâmetros e famílias
Certas distribuições são agrupadas por família em relação a certas propriedades da sua densidade ou da sua função massa de acordo com o número de parâmetros que as definem, chamados de família paramétrica de distribuição de probabilidade. Os chamados parâmetros de posição influenciam a tendência central da distribuição de probabilidade. Isto é, o valor ou os valores em torno dos quais a distribuição leva seus maiores valores como a esperança, a mediana, a moda, os quantils e os decils. Os chamados parâmetros de escalonamento influenciam a dispersão ou o achatamento da distribuição de probabilidade como a variância (momento de segunda ordem), o desvio padrão e o intervalo interquartil.
Momentos
Se existir, o n {\displaystyle n} -ésimo momento de uma distribuição de probabilidade P {\displaystyle \mathbb {P} } é definido como m n = ∫ Ω ω n P ( d ω ) {\displaystyle m_{n}=\int _{\Omega }\omega ^{n}\mathbb {P} (\mathrm {d} \omega )} . Essa fórmula é descrita simplesmente como m n = E [ X n ] {\displaystyle m_{n}=\mathbb {E} [X^{n}]} caso a distribuição seja definida a partir de uma variável aleatória X {\displaystyle X} . O primeiro momento ou momento de ordem 1 também é chamado de esperança da distribuição. Quando o momento é igual a 0, a distribuição é chamada centrada. O segundo momento ou momento de ordem 2 também é chamado de variância da distribuição. Quando o momento é igual a 1, é dito que a distribuição é reduzida.
Entropia
As distribuições de probabilidade permitem representar fenômenos aleatórios. A entropia de Shannon de uma distribuição de probabilidade foi introduzida em termodinâmica para quantificar a desordem molecular de um sistema. O objetivo é medir a falta da informação em lei de probabilidade. A entropia foi definida pela primeira vez para as distribuições discretas, tendo sido estendida para as distribuições absolutamente contínuas. Para uma distribuição discreta P 1 = ∑ i ≤ n p i δ x i {\displaystyle \mathbb {P} _{1}=\sum _{i\leq n}p_{i}\delta _{x_{i}}} e uma distribuição P 2 {\displaystyle \mathbb {P} _{2}} de densidade f {\displaystyle f} , a entropia H {\displaystyle H} é definida respectivamente como
Distribuições de probabilidade em aplicações mais comuns são distribuições discretas e distribuições absolutamente contínuas. Entretanto, existem distribuições de probabilidade que não são nem discretas nem absolutamente contínuas.
Distribuições discretas
Uma distribuição de probabilidade P {\displaystyle \mathbb {P} } é concentrada ou é realizada em um conjunto A ∈ A {\displaystyle A\in {\mathcal {A}}} quando P ( A ) = 1 {\displaystyle \mathbb {P} (A)=1} . Uma distribuição de probabilidade P {\displaystyle \mathbb {P} } é chamada de discreta se um conjunto A {\displaystyle A} é um conjunto finito ou contável. O elemento ω ∈ Ω {\displaystyle \omega \in \Omega } é chamado de átomo de uma distribuição de probabilidade P {\displaystyle \mathbb {P} } quando { ω } ∈ A {\displaystyle \{\omega \}\in {\mathcal {A}}} e P ( { ω } ) ≠ 0 {\displaystyle \mathbb {P} (\{\omega \})\neq 0} . O conjunto de átomos de uma distribuição discreta é finito ou contável. De modo geral, essa propriedade é válida para toda medida σ {\displaystyle \sigma } -finita. Para uma distribuição de probabilidade real, o conjunto de átomos é exatamente o conjunto de pontos de descontinuidade de sua função de distribuição. Neste caso, a finitude do conjunto de átomos é dada a partir do fato que a função de distribuição é limitada.
Distribuição absolutamente contínua
Uma distribuição de probabilidade real P {\displaystyle \mathbb {P} } é chamada de absolutamente contínua ou densidade quando ela é absolutamente contínua em relação a medida de Lebesgue. Se P {\displaystyle \mathbb {P} } é absolutamente contínua, então, de acordo com teorema de Radon-Nikodym, ela possui uma densidade de probabilidade em relação a medida de Lebesgue. Isto é, existe uma única (em relação a medida zero de Lebesgue) função mensurável positiva f : R → R + {\displaystyle f:\mathbb {R} \rightarrow \mathbb {R} _{+}} de tal modo que para qualquer A ∈ B ( R ) {\displaystyle A\in {\mathcal {B}}(\mathbb {R} )} : P ( A ) = ∫ A f ( x ) d x = ∫ R 1 A ( x ) f ( x ) d x {\displaystyle \mathbb {P} (A)=\int _{A}f(x)\,\mathrm {d} x=\int _{\mathbb {R} }\mathbf {1} _{A}(x)f(x)\,\mathrm {d} x} , em que 1 A {\displaystyle \mathbf {1} _{A}} é a função característica de Borel A {\displaystyle A} . Essa densidade de probabilidade nem sempre tem a expressão analítica (ver os exemplos abaixo).
Distribuições singulares
Uma distribuição de probabilidade P {\displaystyle \mathbb {P} } é chamada de contínua ou difusa quando não possui nenhum átomo. Em particular, as distribuições absolutamente contínuas são contínuas mesmo que o inverso não seja verdadeiro. A função de distribuição de uma distribuição contínua ser contínua é uma propriedade necessária e suficiente. Uma distribuição de probabilidade P {\displaystyle \mathbb {P} } é chamada de singular quanto ela é contínua, mas não absolutamente contínua. Isto é, quando uma distribuição singular não possui nem átomo nem densidade. Esses conceitos também valem para as distribuições de probabilidade definidas a partir de variáveis aleatórias: uma variável aleatória X {\displaystyle X} é contínua ou difusa, respectivamente singular, quando a distribuição de probabilidade associada P X {\displaystyle \mathbb {P} _{X}} é contínua ou difusa, respectivamente singular.
Outros casos
Existem distribuições de probabilidade que não são nem discretas nem absolutamente contínuas nem singulares, às vezes denominadas leis mistas. De um ponto de vista mais geral, toda distribuição de probabilidade P {\displaystyle \mathbb {P} } pode se decompor em uma combinação linear de uma distribuição contínua P c {\displaystyle \mathbb {P} _{\text{c}}} e de uma distribuição discreta P d {\displaystyle \mathbb {P} _{\text{d}}} . O teorema da decomposição de Lebesgue aplicado a P c {\displaystyle \mathbb {P} _{\text{c}}} indica que essa distribuição contínua se decompõe em uma combinação linear de duas distribuições contínua, uma P ac {\displaystyle \mathbb {P} _{\text{ac}}} absolutamente contínua com relação à medida de Lebesgue e outra P s {\displaystyle \mathbb {P} _{\text{s}}} singular sem relação à medida de Lebesgue. Então, a decomposição é descrita como P = α P d + ( 1 − α ) P c = α P d + β P ac + γ P s {\displaystyle \mathbb {P} =\alpha \mathbb {P} _{\text{d}}+(1-\alpha )\mathbb {P} _{\text{c}}=\alpha \mathbb {P} _{\text{d}}+\beta \mathbb {P} _{\text{ac}}+\gamma \mathbb {P} _{\text{s}}} , em que α , β , γ ∈ [ 0 , 1 ] {\displaystyle \alpha ,\beta ,\gamma \in [0,1]} e α + β + γ = 1 {\displaystyle \alpha +\beta +\gamma =1} . A presença de ( α , β , γ ) {\displaystyle (\alpha ,\beta ,\gamma )} garante que P ( Ω ) = 1 {\displaystyle \mathbb {P} (\Omega )=1} .
Existem várias funções de variáveis reais ou complexas que determinam exclusivamente as distribuições de probabilidade. Certas propriedades dessas funções permitem deduzir propriedades para as distribuições como o cálculo de momento ou uma expressão da convergência em distribuição.
Utilização da função de distribuição
De acordo com o sistema de Dynkin, os conjuntos ] − ∞ , x ] {\displaystyle ]-\infty ,x]} chamados paralelepípedos ou retângulos geram algebra de Borel B ( R ) {\displaystyle {\mathcal {B}}(\mathbb {R} )} que são suficientes para definir uma distribuição de probabilidade dos paralelepípedos. Supõe-se que a distribuição de probabilidade seja real. Isto é, ( Ω , A ) = ( R , B ( R ) ) {\displaystyle (\Omega ,{\mathcal {A}})=(\mathbb {R} ,{\mathcal {B}}(\mathbb {R} ))} . A função de distribuição de uma distribuição de probabilidade real P {\displaystyle \mathbb {P} } denotada como F {\displaystyle F} é a função definida para todo x ∈ R {\displaystyle x\in \mathbb {R} } F ( x ) = P ( ] − ∞ , x ] ) . {\displaystyle F(x)=\mathbb {P} {\big (}]-\infty ,x]{\big )}.}
Utilização da função característica
Chamada função característica de uma distribuição de probabilidade P {\displaystyle \mathbb {P} } e denotada como Φ {\displaystyle \Phi } é a simetria da transformada de Fourier de P {\displaystyle \mathbb {P} } . Para todo t ∈ R {\displaystyle t\in \mathbb {R} } : Φ ( t ) = F ( P ) ( − t ) = ∫ Ω e i t ω P ( d ω ) . {\displaystyle \Phi (t)={\mathcal {F}}(\mathbb {P} )(-t)=\int _{\Omega }\mathrm {e} ^{\mathrm {i} t\omega }\,\mathbb {P} (\mathrm {d} \omega ).} Como o nome sugere, a função característica determina exclusivamente a distribuição. Isto é, duas distribuições de probabilidade são iguais se e somente se suas funções características forem iguais.
Utilização da função geradora de momentos
A função geradora de momentos de uma distribuição de probabilidade P {\displaystyle \mathbb {P} } denotada como M {\displaystyle M} é a simetria da transformada de Laplace de P {\displaystyle \mathbb {P} } . Quando a função ω ↦ e t ω {\displaystyle \omega \mapsto e^{t\omega }} é integrada em relação à medida P {\displaystyle \mathbb {P} } para todo t ∈ R {\displaystyle t\in \mathbb {R} } : M ( t ) = L ( P ) ( − t ) = ∫ Ω e t ω P ( d ω ) . {\displaystyle M(t)={\mathcal {L}}(\mathbb {P} )(-t)=\int _{\Omega }\mathrm {e} ^{t\omega }\,\mathbb {P} (\mathrm {d} \omega ).} A função geradora de momentos determina a distribuição de probabilidade unicamente se essa função existe em um intervalo que contem a origem.
Outras características
A função quantil de uma distribuição de probabilidade real P {\displaystyle \mathbb {P} } denotada como Q {\displaystyle Q} é a função que fornece o quantil da distribuição. Ela é definida como para todo p ∈ ] 0 , 1 [ {\displaystyle p\in ]0,1[} : Q ( p ) = inf { u ∈ R | F ( u ) ≥ p } {\displaystyle Q(p)=\inf\{u\in \mathbb {R} \ |\ F(u)\geq p\}} , em que F {\displaystyle F} é a função de distribuição de P {\displaystyle \mathbb {P} } . Certas distribuições de probabilidade são mais fáceis de definir pela função quantil. Intuitivamente Q ( p ) {\displaystyle Q(p)} é o valor tal que uma proporção de valores possíveis menor de que esse valor é igual p {\displaystyle p} . Q ( 1 4 ) {\displaystyle Q({\frac {1}{4}})} , Q ( 1 2 ) {\displaystyle Q({\frac {1}{2}})} , e Q ( 3 4 ) {\displaystyle Q({\frac {3}{4}})} são, respectivamente, o primeiro quantil, a mediana e o terceiro quantil da distribuição.
Frequentemente a distribuição estatística de uma variável em uma população refere-se aos modelos matemáticos da distribuição de probabilidade. Geralmente é interessante estudar o modelo probabilístico por razões práticas e teóricas, de acordo com afirmações acadêmicas. O estudo começa com uma seleção aleatória de diversos valores ou indivíduos. Se o método utilizado for perfeito (se os valores observados são derivados de uma seleção equiprovável), então são variáveis aleatórias e o estudo do fenômeno equivale ao estudo da distribuição de probabilidade.
Simulação de uma distribuição de probabilidade
Para estudar as distribuições de probabilidade, é importante fazer simulações. Em particular, com o uso de computadores. As distribuições de probabilidade são caracterizadas pela função quantil por meio de uma variável aleatória com distribuição uniforme. Em geral, esse método engloba duas etapas: gerar os referidos valores pseudo aleatórios com distribuição uniforme e inverter a função de distribuição da distribuição estudada. Como a segunda etapa não é óbvia para todas as distribuições, outros métodos são utilizados. Para obter valores da distribuição uniforme contínua, o computador simula os valores da distribuição uniforme discreta. Podem ser usados vários métodos: os algoritmos aritméticos são o método mais simples, enquanto que as tabelas que podem conter mais de um milhão de dados são cada vez menos utilizadas e os processos físicos como a criação de um ruído de fundo são bastante onerosos para a recuperação de dados. Como os algoritmos são deterministas (não aleatórios), os valores obtidos são chamados pseudo aleatórios. Muitos algoritmos foram desenvolvidos para melhorar a independência e a distribuição entre os valores no intervalo [ 0 , 1 ] {\displaystyle [0,1]} .
Aproximação de uma distribuição de probabilidade
Várias aproximações de uma distribuição de probabilidade existem usando diferentes métodos descritos acima. Essas são as técnicas usadas geralmente em casos práticos. O primeiro passo é o recolhimento dos dados, que permite construir objetos empíricos como a função de distribuição empírica. Esses objetos empíricos são às vezes chamados de distribuição de probabilidade, mas são realmente leis empíricas chamadas de distribuições estatísticas. Os teoremas limites ou os testes estatísticos permitem finalmente identificar a melhor distribuição de probabilidade que modela o fenômeno aleatório inicial. O teste estatístico de Kolmogorov-Smirnov, baseado no teorema de Portmanteau, permite identificar a função de distribuição empírica calculada a partir dos dados de uma função de distribuição de uma distribuição de probabilidade, em função de uma taxa de rejeição. A vantagem da convergência das funções de distribuição é que as funções existem para todas as distribuições de probabilidade. Essa convergência permite particularmente aproximar uma distribuição absoluta contínua de uma série de distribuições discretas.
Exemplos de modelagem
As distribuições de probabilidade são usadas para representar os fenômenos observados. Uma distribuição de probabilidade é dita a priori se ela é assumida para modelar os dados recuperados. Os testes estatísticos são realizados para afirmar ou rejeitar a concordância da distribuição de probabilidade com os dados. Em muitas áreas, os métodos evoluíram e melhores distribuições de probabilidade foram criadas para atender os problemas. Segue uma lista com exemplos concretos de modelagem:


