O objetivo aqui é rever conceitos básicos de estatística, com o intuito de estar apto a aprender econometria.
A bibliografia utilizada aqui foi:
von Auer, Dr. Ludwig. Ökonometrie - Eine Einführung, 2007. Springer-Verlag Berlin Heidelberg;
Hoffmann, Rodolfo. Estatística para Economista, 4. ed rev. e ampl. São Paulo. Pioneira Thomson Learning 2006.
Do trabalho de von Auer, a tradução do alemão para o português foi de minha autoria, Thiago Menezes.
--------------------------------------------------------------------------------------
A estrutura aqui copia aquela de von Auer.
I. Variáveis Aleatórias e Distribuição de Probabilidade
II. Levantamento Amostral
III. Distribuições Especiais de Probabilidade
Capítulo 1: Variáveis Aleatórias e Distribuição de Probabilidade
Uma variável aleatória é uma variável que pode assumir valores numéricos. Este valor numérico não é anteriormente conhecido, mas sim, assume valores de forma aleatória. “Aleatoridade” quer dizer que possíveis diferentes valores “ocorrem” com uma certa probabilidade.
Na estatística, tais valores são conhecidos como possíveis eventos. Quais dos possíveis eventos realmente “ocorrem” se dá através dos experimentos aleatórios.
Exemplo:
u1 = valor de face de um dado, à cada lançamento do dado.
Ou seja, u1 é uma variável aleatória, pois nós não sabemos de antemão qual será o valor de face do dado. Assim, o experimento “lançamento do dado” possui 6 diferentes possíveis eventos. Cada um desses eventos pode “ocorrer” neste experimento aleatório com uma probabilidade de 1/6.
Um outro exemplo de variável aleatória seria:
u2 = soma dos valores das faces de um dado, à cada dois lançamentos.
Essa variável aleatória possui 11 diferentes possíveis eventos (N = 11). Ou seja, para que u2 = 2, tem-se que necessariamente “ocorrer” no primeiro lançamento o número “1” e no segundo lançamento também “1”. A probabilidade que no primeiro lançamento “ocorra” o número “1” é de 1/6. O mesmo acontece no segundo lançamento do dado. Formalmente, a probabilidade de se ter u2 = 2 é escrita como:
f(2) = (1/6)*(1/6) = 1/36
A probabilidade do evento “3” é:
f(3) = 2*(1/6)*(1/6) = 2/36
É importante que à cada um dos 11 diferentes possíveis eventos seja atribuída uma probabilidade de sua “ocorrência”. Essa “atribuição” descrita por "f(u2)" é conhecida como distribuição de probabilidade da variável aleatória u2.
Enquanto for possível, para uma variável aleatória, contar o diferente número de eventos, fala-se de uma variável aleatória discreta (que foi o caso de u1 e u2). Em contrapartida, por exemplo, temos u3 = soma do valor de face de uma dado, em 100.000 lançamentos. Neste caso, o número de diferente possíveis eventos (N) é igual à 600.000 – 99.999 = 500.001 (100.000 é o menor evento possível). De forma pragmática, u3 já se comporta como uma variável aleatória contínua, onde o número de diferentes possíveis eventos já não pode ser contado.
Outros exemplos de variável aleatória contínua seriam: u4 = um número real no período [0 ; 1]. Ou então, u5 = altura de uma pessoa adulta.
1.1 Esperança Matemática (Ε) de uma Variável Aleatória
A esperança matemática de uma variável aleatória discreta é dada por:
E (u) = Σi=1N f(ui) * ui
Sendo que f(ui) a probabilidade, com a qual o evento “i” da variável aleatória “u” é observada.
Por exemplo, no caso do lançamento de dados (N=6), cada possível evento “i” tem uma probabilidade de “ocorrência” de f(ui) = 1/6. Assim, a esperança matemática é dada por:
E (u) = Σi=16 (1/6)*ui = 1/6 Σi=16 ui
E (u) = 1/6 (1+2+3+4+5+6) = 3,5
Assim, a esperança matemática E(u) é a média de todos os possíveis eventos da variável aleatória “u”, multiplicado pela probabilidade de “ocorrência” de cada um desses eventos.
A esperança matemática também pode ser entendida assim: se lançar o dado infinitas vezes, e tirar a média aritmética da soma desses eventos, ter-se-ia o valor “3,5”.
1.2 Variância de uma Variável Aleatória
A variância de uma variável aleatória mede a dispersão desta variável aleatória ao redor de sua esperança matemática. O cálculo da variância faz uso do quadrado dos desvios dos eventos em relação às suas esperanças matemáticas. Ou seja, ele pega o quanto que o evento se distanciou da sua esperança, e eleva esse valor ao quadrado, afim de eliminar a parte negativa.
Var (u) = Σni=1 f(ui)*(ui – E(u))2
Exemplo: No exemplo do lançamento do dado, temos que E(u) = 3,5. Para o evento “1”, tem-se o quadrado da distância do evento até a sua esperança matemática em (1 – 3,5)2 = 6,25. O cálculo para os outros possíveis eventos é feito da mesma forma. A probabilidade de cada evento é de 1/6. Assim, tem-se:
Var (u) = (1/6)*6,25 + (1/6)*2,25 + (1/6)*0,25 + (1/6)*0,25 + (1/6)*2,25 + (1/6)*6,25
Var (u) = 2,91666.
Assim, tem-se: var (u) = ΣNi=1 f((ui – E(u)2)*(ui – E(u))2
Var (u) = E [(u- E(u))2]
Chama-se à raíz-quadrada da variância de uma variável aleatória de desvio-padrão (em inglês standard error (se)).
se (u) = var (u)1/2
1.3 Distribuição de Probabilidade Condicional
Analisemos agora novamente o experimento aleatório “lançar o dado uma vez”, e as variáveis aleatórias u1 = valor de face do dado, em um lançamento; e u6 = quantidade de números naturais, pela qual o número de face do dado é divisível.
A quantidade de possíveis eventos para "u1" é N = 6. A quantidade de possíveis eventos para "u6" é N = 4. Caso o valor de face "u1" seja “3”, temos que u6 = 2, pois “3” é divisível por “1” e por “3”. Caso "u1" seja “6”, temos que u6 = 4, pois “6” é divisível por “1”, “2”, “3” por “6”.
Algumas vezes é interessante saber se há dependência entre duas variáveis aleatórias. Certa dependência pode resultar, por exemplo, do fato de que a probabilidade com a qual "u1" assuma certo valor, dependa do valor que "u6" assumir, ou seja, depende de "u6j". Chama-se à esta probabilidade, que depende do valor de "u6j", de probabilidade condicional.
Então, tem-se a seguinte tabela:
Variável Eventos
u1 1 2 3 4 5 6
u6 1 2 2 3 2 4
Partindo do pressuposto, que nós sabemos que u6j = 2 (essa notação só para exaltar o fato de que "u6" depende de uma outra variável), então representa a probabilidade condicional de que a variável aleatória "u1" tenha o valor u1,i = 3 exatamente 1/3. Podemos ver na tabela que para u6j = 2, tanto ui1 = 2, como u1i = 3 e ui1 = 5 estão de acordo. Assim, esses três eventos têm a mesma probabilidade de ocorrência.
Baseado nas probabilidades condicionais, pode-se definir uma Distribuição de Probabilidade condicional para a variável aleatória u1: f(u1i/u6j). Essa distribuição atribui (dados valores de "u6j") para cada possível evento da variável aleatória "u1" à probabilidade de sua "ocorrência".
1.4 Co-variância de duas Variáveis Aleatórias
Não-Correlação
Pode ser provado se há uma relação entre as variáveis “u1” e “u6”.
Uma relação positiva se mostraria da seguinte forma:
Se o valor de face “u1,i” for alto (u1,i – E(u1)) > 0, então deve também existir muitos números naturais, pelos quais este valor seja divisível (u6,j – U(u6)) > 0. Em contrapartida, caso o valor de face “u1,i” for baixo (u1,i – E(u1)) < 0, então deve também existir poucos números naturais, pelos quais este valor seja divisível (u6,j – E(u6)) < 0.
No caso de uma relação negativa, acontece justamente o contrário.
A Co-variância das duas variáveis aleatórias formalisa esta relação. Ela é uma medida de relação linear entre duas variáveis aleatórias.
Em outras palavras, a relação linear entre as duas variáveis aleatórias “u1” e “u6” é então mais forte, quando for melhor possível traçar uma reta através da “núvem de pontos” formada através dos pontos observados (u1,i ; u6,j).
Coeficiente de Correlação
Independência
1.5 Regras de Cálculo para Esperança Matemática e Variância
Esperança Matemática
Variância
1.6 Distribuição de Probabilidade Normal
Esse tipo de distribuição só existe para variáveis aleatórias contínuas.
Seja uma variável “u” normalmente distribuída, então, a forma da distribuição normal depende só e unicamente da Esperança Matemática e da Variância da variável aleatória “u”. A notação, então, é a seguinte:
Seja uma variável “u” normalmente distribuída, então, a forma da distribuição normal depende só e unicamente da Esperança Matemática e da Variância da variável aleatória “u”. A notação, então, é a seguinte:
u ~ N(E(u), Var (u))
Capítulo 2: Levantamento Amostral
2.1 Média amostral de uma Variável
2.2 Variância amostral de uma Variável
2.3 Co-variância amostral de duas Variáveis
Capítulo 3: Distribuições Especiais de Probabilidade
3.1 Distribuição Normal Padrão
3.2 Distribuição χ2
3.3 Distribuição “t”
3.4 Distribuição “F”