Noções de Probabilidade e Estatística
|
Parte 1 - Conceitos iniciais
Entende-se por Estatística o conjunto de métodos e técnicas usados para organizar, descrever, analisar e interpretar um ou mais conjuntos de valores (dados) oriundos de estudos e experimentos das mais diversas áreas do conhecimento. Compreende:
Nos cursos de Estatística básica geralmente são abordadas 3 grandes áreas: Estatística descritiva ou exploratória, Probabilidade e Inferência.
Conjunto de técnicas destinadas a descrever e resumir dados a fim de tirar conclusões a respeito de características de interesse.
Compreende a etapa de consistência dos dados, isto é, verificar se os dados coletados são condizentes com a realidade.
Nesta etapa busca-se gerar resumos numéricos, medidas descritivas e visualizações gráficas acerca dos dados com o intuito de compreender preliminarmente o comportamento das variáveis individualmente e as interações entre elas.
A palavra probabilidade deriva da palavra em Latim probare. A teoria das probabilidades tenta quantificar a noção de provável, ou seja, de que forma podemos lidar e quantificar incertezas.
É a teoria matemática utilizada para se estudar a incerteza oriunda de fenômenos de caráter aleatório.
A inferência estatística é o ramo responsável pela estimação de quantidades desconhecidas da população (os chamados parâmetros) com base numa amostra.
Nesta área formulam-se e testam hipóteses com o objetico de extrapolar para a população resultados obtidos na amostra.
Vale ressaltar que se tivermos informação sobre todos os elementos da população não se faz necessário o uso das técnicas de inferência.
Em Estatística dois conceitos são importatntíssimos: população e amostra.
População: conjunto de seres, itens ou eventos com uma característica comum. TODOS aqueles que possuem a característica de interesse pertencem à população.
Amostra: subconjunto da população. Na prática é inviável trabalhar com a população toda, a alternativa então é trabalhar com uma amostra e inferir os resultados para a população. A seleção da amostra pode ser feita de diversas maneiras. A forma mais comum é a chamada amostragem aleatória simples, em que todos os elementos da população possuem a mesma probabilidade de serem selecionados para a amostra. Existem outras formas de amostragem, tais como: amostragem aleatória estratificada, por agrupamento, sistemática, etc. A forma adequada de amostragem conduz a um menor tamanho amostral para obtenção de uma precisão satisfatória.
De forma geral, as etapas para análise de um conjunto de dados são:
Denominam-se Variáveis as características observadas em cada um dos elementos que pertencem à amostra. Na prática precisamos de uma forma para representar indivíduos e variáveis.
Um conjunto de dados considerado arrumado é aquele em que cada coluna representa uma variável, cada linha representa uma observação e cada célula representa o valor observado no elemento \(i\) na variável \(j\):
O conjunto de dados completo e sem tratamentos é denominado conjunto de dados brutos e, na prática, podemos coletar variáveis de diferentes tipos e naturezas.
Como exemplo de conjunto de dados brutos considere que um questionário foi aplicado aos alunos do primeiro ano de uma escola (disponível aqui) e possui as seguintes informações:
Parte dos dados brutos, representados em forma de tabela têm a seguinte forma:
Informações de questionário estudantil - dados brutos.
Existem dois tipos de variáveis: as numéricas (quantitativas) e as não numéricas (qualitativas), cada uma das classes tem suas ramificações:
Variáveis Quantitativas: assumem valores numéricos.
Podem ser:
Discretas: características mensuráveis que podem assumir apenas um número finito ou infinito contável de valores e, assim, somente fazem sentido valores inteiros.
Contínuas: características mensuráveis que assumem valores em uma escala contínua, isto é, na reta real.
Variáveis Qualitativas: são as características definidas categorias, ou seja, representam uma classificação dos indivíduos e não uma característica numérica.
Podem ser:
Nominais: não existe ordenação nem peso entre as categorias.
Ordinais: existe uma ordenação entre as categorias.
Existem peculiaridades na classificação de variáveis devido a situações como: discretização de variáveis contínuas, limitações em instrumentos de mensuração, utilização de quantidades numéricas para representação de variáveis categóricas, etc. Deve-se sempre estar atento a este tipo de situação pois podem levar a implicações nas análises e consequentemente nos resultados.
Classificando as variáveis do conjunto de dados do exemplo:
As variáveis Idade, Exerc e TV em essência são variáveis quantitativas contínuas, contudo note como nos dados elas foram tratadas como discretas, tendo em vista que há apenas valores inteiros.
Críticas e sugestões a este material sempre serão bem vindas.
Para entrar em contato comigo, envie uma mensagem para lineuacf@gmail.com.