Noções de Probabilidade e Estatística
|
Parte 2.1 - Introdução à análise exploratória de dados
Tabelas de frequência e medidas resumo
Parte primordial de qualquer análise estatística é chamada análise descritiva ou exploratória. Tal etapa consiste basicamente de resumos numéricos e análises gráficas das variáveis disponíveis em um conjunto de dados. Trata-se de uma etapa de extrema importância e deve preceder qualquer análise mais sofisticada.
Neste material serão apresentados os principais conceitos a respeito de análise exploratória. Na primeira parte será discutido o uso de tabelas de frequência para representação de dados de diferentes naturezas (tabelas de frequência simples, com faixas de valores, conjuntas) e medidas resumo (de posição e dispersão). Na segunda parte, medidas de associação, gráficos e ainda uma breve apresentação do conceito de assimetria.
Utlizando apenas os dados brutos é difícil responder questões de interesse. Para reduzir os dados originais de forma que fique mais claro o entendimento dos mesmos são utilizadas as tabelas de frequência.
No caso de variáveis qualitativas ou quantitativas discretas ela consiste em listar os possíveis valores da variável e fazer a contagem de quantas vezes cada categoria ou valor aparece nos dados brutos. Para variáveis quantitativas contínuas, ou mesmo discretas com grande amplitude, uma alternativa é montar a tabela de frequências utilizando faixas de valores. Já para avaliar o as frequências de duas variáveis simultaneamente, as tabelas de dupla entrada são uma alternativa.
Os tipos comuns de frequência são:
Considerando os dados brutos apresentados na Parte 1 desta série de materiais, em que um questionário foi aplicado aos alunos do primeiro ano de uma escola (disponível aqui) e as seguintes informações foram coletadas para cada indivíduo:
Exemplos de tabelas de frequência simples para estes dados são:
Tabela de frequências para a variável gênero (uma variável qualitativa nominal)
Tabela de frequências para a variável idade (uma variável quantitativa discreta)
Na prática podemos estar interessados em resumir informações a respeito de uma variável quantitativa discreta que apresente muitos possíveis valores ou ainda uma variável quantitativa contínua, o que significa que é praticamente inviável gerar uma tabela com o valor e número de ocorrências.
Nestas situações uma alternativa consiste na construção de faixas de valores para que seja possível obter um número de classes menor e desta forma seja possível a construção de uma tabela de frequências mais enxuta. Existem técnicas para se calcular o número ideal de faixas, contudo esta quantidade pode ser arbitrária. Em geral recomenda-se utilizar de 5 a 8 faixas de mesma amplitude tendo em vista que um número excessivo de faixas torna a leitura complicada e faixas desiguais podem levar a interpretações equivocadas.
Exemplos de tabelas de frequência utilizando faixas de valores:
Tabela de frequências para a variável peso (uma variável quantitativa contínua)
Tabela de frequências para a variável TV (uma variável quantitativa contínua)
Quando estamos interessados em avaliar o comportamento de 2 variáveis podemos construir tabelas de frequência conjunta.
Considere uma amostra de 20 alunos em que perguntou-se se eles trabalhavam e qual o número de vestibulares prestados.
\(X\): aluno trabalha (sim ou não)
\(Y\): nº de vestibulares prestados
Os dados obtidos foram:
Note que a variável \(X\) é qualitativa nominal com dois níveis: sim ou não. Enquanto \(Y\) é uma variável quantitativa discreta. A tabela de frequência conjunta de \(X\) e \(Y\) tem a seguinte forma:
\(\\\)
Um modo mais conveniente de se representar estas informações é através de uma tabela de dupla entrada:
\(\\\)
A última linha e a última coluna contêm os totais de ocorrências de cada variável, sendo possível assim obter a tabela de frequência individual para cada variável. Uma tabela individual obtida pela de dupla entrada é chamada tabela marginal de frequência, ou simplesmente marginal. No caso em questão, as marginais são dadas por:
Variáveis de qualquer natureza podem ter seu comportamento conjunto representado através de tabelas de frequência.
As medidas resumo buscam sumarizar a informação disponível sobre o comportamento de uma variável através de representações numéricas. Existem medidas de posição e de dispersão.
As medidas de posição ou tendência central são medidas resumo obtidas a partir de uma série de valores com o objetivo de mostrar em que valor se concentram os dados observados. Dentre estas medidas destacam-se: a média, mediana e moda dos dados.
Considere uma variável \(X\) com observações representadas por \(x_1,x_2,...x_n\). A média (\(\bar{x}\)) é dada pela soma dos valores dividida pelo número de elementos. Isto é:
\[\bar{x} = \frac{\sum_{i=1}^{n}x_i}{n}\]
Ou ainda, pode-se obter a média para um conjunto de dados organizado numa tabela de frequências da seguinte forma:
\[\bar{x} = \sum_{i=1}^{n} \frac{n_i}{n}x_i\]
Para cáclulo de quartis(\(Q_i\)) e mediana (\(md\)) a partir da tabela de dados brutos precisamos ordenar as observações para selecionar os valores que dividem os dados nas proporções desejadas.
Se o número de observações for par, a mediana será o ponto médio dos dois valores centrais, se for ímpar, a mediana será o valor que ocupa a posição central dos dados ordenados. A mediana divide o conjunto de dados ao meio, ou seja, 50% dos valores estão acima e 50% estão abaixo.
Para obter os quartis basta repetir o procedimento com os dois subconjuntos gerados na obtenção da mediana. Assim obtém-se 3 valores: o primeiro quartil (\(Q_1\)) que marca onde estão 25% dos dados, o segundo quartil (\(Q_2\) ou \(md\)) que marca onde estão 50% dos dados e o terceiro quartil (\(Q_3\)) que marca 75% dos dados.
A moda (\(Mo\)) é o valor mais frequente, isto é, aquele com maior probabilidade de ocorrência.
Na prática, estas medidas possuem vantagens e desvantagens. Caso haja valores discrepantes a média é uma medida altamente influenciada, o que não acontece com a moda e a mediana. Já a mediana é difícil de ser obtida quando existem muitos dados, dado que o processo de ordenação é custoso. Já a dificuldade com a moda surge quando trabalha-se com distribuições multimodais, isto é diversos valores tem a mesma frequência de ocorrência.
As medidas de posição por si só não são de grande valia para tirarmos conclusões preliminares a respeito de um conjunto de dados. Há a necessidade de aliar as medidas de posição a quantidades que mensurem a variabilidade. Desta forma precisamos obter uma medida de posição, que nos dá uma ideia de centro dos dados; e uma medida de dispersão, que nos dá uma noção de quão dispersos são os dados.
Lembre-se que conjuntos de dados com diferentes valores podem gerar as mesmas medidas de posição, contudo um pode ser mais disperso que o outro. Tome como exemplo a média entre 5 valores:
Note como o comportamento interno dos dados varia mas a medida de posição central coincide. Note também como no primeiro caso os 5 valores são idênticos, ou seja, não há dispersão. No entanto note como no quarto caso os valores estão entre 0 e 18, portanto há uma grande dispersão nestes dados. As medidas de dispersão mais utilizadas são: Amplitude, Desvio, Variância, Desvio Padrão, Coeficiente de Variação.
A amplitude referente a uma certa variável, é definida como a diferença entre o maior e o menor valor.
\[\Delta = max-min\]
Muitas vezes esta medida não é conveniente pois só leva em conta dois valores de todo o conjunto.
A ideia é considerar o desvio de cada observação a um valor de referência e então tomar a média destes desvios. Como valor de referência, destaca-se o uso da média, no entanto outras medidas podem ser usadas, como a mediana.
\[desvio \ médio = \frac{\sum_{i=1}^{n} |x_i-\bar{x}|}{n} \]
No cálculo da variância de um conjunto de dados, ao invés de usar os desvios, utiliza-se a soma dos quadrados dos desvios.
\[var = \frac{\sum_{i=1}^{n} (x_i-\bar{x})^2}{n} \]
ou ainda
\[var = \frac{\sum_{i=1}^{n} (x_i^2-\bar{x}^2)}{n}\]
Note que por utilizar a soma dos desvios ao quadrado, esta medida não fica numa unidade conveniente.
Para manter a mesma unidade dos dados originais, é conveniente utilizar o desvio padrão, trata-se da raiz quadrada da variância.
\[dp=\sqrt{var}\]
O coeficiente de variação é dado por
\[cv = \frac{dp}{\bar{x}}\] Note que como a média está no denominador, ela não pode ser 0. Além disso esta medida é adimensional e, em geral, é apresentada em forma de porcentagem.
Críticas e sugestões a este material sempre serão bem vindas.
Para entrar em contato comigo, envie uma mensagem para lineuacf@gmail.com.