Parte 2.1 - Introdução à análise exploratória de dados

Tabelas de frequência e medidas resumo

1 Análise exploratória

Parte primordial de qualquer análise estatística é chamada análise descritiva ou exploratória. Tal etapa consiste basicamente de resumos numéricos e análises gráficas das variáveis disponíveis em um conjunto de dados. Trata-se de uma etapa de extrema importância e deve preceder qualquer análise mais sofisticada.

Neste material serão apresentados os principais conceitos a respeito de análise exploratória. Na primeira parte será discutido o uso de tabelas de frequência para representação de dados de diferentes naturezas (tabelas de frequência simples, com faixas de valores, conjuntas) e medidas resumo (de posição e dispersão). Na segunda parte, medidas de associação, gráficos e ainda uma breve apresentação do conceito de assimetria.

2 Tabelas de frequência

Utlizando apenas os dados brutos é difícil responder questões de interesse. Para reduzir os dados originais de forma que fique mais claro o entendimento dos mesmos são utilizadas as tabelas de frequência.

No caso de variáveis qualitativas ou quantitativas discretas ela consiste em listar os possíveis valores da variável e fazer a contagem de quantas vezes cada categoria ou valor aparece nos dados brutos. Para variáveis quantitativas contínuas, ou mesmo discretas com grande amplitude, uma alternativa é montar a tabela de frequências utilizando faixas de valores. Já para avaliar o as frequências de duas variáveis simultaneamente, as tabelas de dupla entrada são uma alternativa.

Os tipos comuns de frequência são:

Frequência absoluta: contagem simples do número de vezes que a categoria ou valor é visto nos dados brutos, usualmente denominado de \(n_i\).
Frequência relativa: é a frequência absoluta dividida pelo total, isto é, \(f_i = \frac{n_i}{n}\).
Frequência acumulada: soma das frequências relativas, usualmente denotadas por \(f_{ac}\).

Considerando os dados brutos apresentados na Parte 1 desta série de materiais, em que um questionário foi aplicado aos alunos do primeiro ano de uma escola (disponível aqui) e as seguintes informações foram coletadas para cada indivíduo:

Id: identificação do aluno.
Turma: turma a que o aluno foi alocado (A ou B).
Sexo: F se feminino, M se masculino.
Idade: idade em anos.
Alt: altura em metros.
Peso: peso em quilogramas.
Filhos: número de filhos na família.
Fuma: hábito de fumar, sim ou não.
Toler: tolerância ao cigarro: (I) indiferente; (P) incomoda pouco; (M) incomoda muito.
Exerc: horas de atividade física, por semana.
Cine: número de vezes que vai ao cinema por semana.
OpCine: opinião a respeito das salas de cinema na cidade: (B) regular a boa; (M) muito boa.
TV: horas gastas assistindo TV, por semana.
OpTV: opinião a respeito da qualidade da programação na TV: (R) ruim; (M) média; (B) boa; (N) não sabe.

Exemplos de tabelas de frequência simples para estes dados são:

Tabela de frequências para a variável gênero (uma variável qualitativa nominal)

Tabela de frequências para a variável idade (uma variável quantitativa discreta)

Na prática podemos estar interessados em resumir informações a respeito de uma variável quantitativa discreta que apresente muitos possíveis valores ou ainda uma variável quantitativa contínua, o que significa que é praticamente inviável gerar uma tabela com o valor e número de ocorrências.

Nestas situações uma alternativa consiste na construção de faixas de valores para que seja possível obter um número de classes menor e desta forma seja possível a construção de uma tabela de frequências mais enxuta. Existem técnicas para se calcular o número ideal de faixas, contudo esta quantidade pode ser arbitrária. Em geral recomenda-se utilizar de 5 a 8 faixas de mesma amplitude tendo em vista que um número excessivo de faixas torna a leitura complicada e faixas desiguais podem levar a interpretações equivocadas.

Exemplos de tabelas de frequência utilizando faixas de valores:

Tabela de frequências para a variável peso (uma variável quantitativa contínua)

Tabela de frequências para a variável TV (uma variável quantitativa contínua)

Quando estamos interessados em avaliar o comportamento de 2 variáveis podemos construir tabelas de frequência conjunta.

Considere uma amostra de 20 alunos em que perguntou-se se eles trabalhavam e qual o número de vestibulares prestados.

\(X\): aluno trabalha (sim ou não)

\(Y\): nº de vestibulares prestados

Os dados obtidos foram:

Note que a variável \(X\) é qualitativa nominal com dois níveis: sim ou não. Enquanto \(Y\) é uma variável quantitativa discreta. A tabela de frequência conjunta de \(X\) e \(Y\) tem a seguinte forma:

\(\\\)

Um modo mais conveniente de se representar estas informações é através de uma tabela de dupla entrada:

\(\\\)

A última linha e a última coluna contêm os totais de ocorrências de cada variável, sendo possível assim obter a tabela de frequência individual para cada variável. Uma tabela individual obtida pela de dupla entrada é chamada tabela marginal de frequência, ou simplesmente marginal. No caso em questão, as marginais são dadas por:

Variáveis de qualquer natureza podem ter seu comportamento conjunto representado através de tabelas de frequência.

3 Medidas resumo

As medidas resumo buscam sumarizar a informação disponível sobre o comportamento de uma variável através de representações numéricas. Existem medidas de posição e de dispersão.

3.1 Medidas de posição

As medidas de posição ou tendência central são medidas resumo obtidas a partir de uma série de valores com o objetivo de mostrar em que valor se concentram os dados observados. Dentre estas medidas destacam-se: a média, mediana e moda dos dados.

3.1.1 Média

Considere uma variável \(X\) com observações representadas por \(x_1,x_2,...x_n\). A média (\(\bar{x}\)) é dada pela soma dos valores dividida pelo número de elementos. Isto é:

\[\bar{x} = \frac{\sum_{i=1}^{n}x_i}{n}\]

Ou ainda, pode-se obter a média para um conjunto de dados organizado numa tabela de frequências da seguinte forma:

\[\bar{x} = \sum_{i=1}^{n} \frac{n_i}{n}x_i\]

3.1.2 Quartis e Mediana

Para cáclulo de quartis(\(Q_i\)) e mediana (\(md\)) a partir da tabela de dados brutos precisamos ordenar as observações para selecionar os valores que dividem os dados nas proporções desejadas.

Se o número de observações for par, a mediana será o ponto médio dos dois valores centrais, se for ímpar, a mediana será o valor que ocupa a posição central dos dados ordenados. A mediana divide o conjunto de dados ao meio, ou seja, 50% dos valores estão acima e 50% estão abaixo.

Para obter os quartis basta repetir o procedimento com os dois subconjuntos gerados na obtenção da mediana. Assim obtém-se 3 valores: o primeiro quartil (\(Q_1\)) que marca onde estão 25% dos dados, o segundo quartil (\(Q_2\) ou \(md\)) que marca onde estão 50% dos dados e o terceiro quartil (\(Q_3\)) que marca 75% dos dados.

3.1.3 Moda

A moda (\(Mo\)) é o valor mais frequente, isto é, aquele com maior probabilidade de ocorrência.

3.1.4 Comentário

Na prática, estas medidas possuem vantagens e desvantagens. Caso haja valores discrepantes a média é uma medida altamente influenciada, o que não acontece com a moda e a mediana. Já a mediana é difícil de ser obtida quando existem muitos dados, dado que o processo de ordenação é custoso. Já a dificuldade com a moda surge quando trabalha-se com distribuições multimodais, isto é diversos valores tem a mesma frequência de ocorrência.

3.2 Medidas de dispersão

As medidas de posição por si só não são de grande valia para tirarmos conclusões preliminares a respeito de um conjunto de dados. Há a necessidade de aliar as medidas de posição a quantidades que mensurem a variabilidade. Desta forma precisamos obter uma medida de posição, que nos dá uma ideia de centro dos dados; e uma medida de dispersão, que nos dá uma noção de quão dispersos são os dados.

Lembre-se que conjuntos de dados com diferentes valores podem gerar as mesmas medidas de posição, contudo um pode ser mais disperso que o outro. Tome como exemplo a média entre 5 valores:

Se os valores obervados foram {5,5,5,5,5}, a média é 5.
Se os valores obervados foram {5,0,10,1,9}, a média é 5.
Se os valores obervados foram {7,3,3,8,4}, a média é 5.
Se os valores obervados foram {0,1,1,5,18}, a média é 5.

Note como o comportamento interno dos dados varia mas a medida de posição central coincide. Note também como no primeiro caso os 5 valores são idênticos, ou seja, não há dispersão. No entanto note como no quarto caso os valores estão entre 0 e 18, portanto há uma grande dispersão nestes dados. As medidas de dispersão mais utilizadas são: Amplitude, Desvio, Variância, Desvio Padrão, Coeficiente de Variação.

3.2.1 Amplitude

A amplitude referente a uma certa variável, é definida como a diferença entre o maior e o menor valor.

\[\Delta = max-min\]

Muitas vezes esta medida não é conveniente pois só leva em conta dois valores de todo o conjunto.

3.2.2 Desvio

A ideia é considerar o desvio de cada observação a um valor de referência e então tomar a média destes desvios. Como valor de referência, destaca-se o uso da média, no entanto outras medidas podem ser usadas, como a mediana.

\[desvio \ médio = \frac{\sum_{i=1}^{n} |x_i-\bar{x}|}{n} \]

3.2.3 Variância

No cálculo da variância de um conjunto de dados, ao invés de usar os desvios, utiliza-se a soma dos quadrados dos desvios.

\[var = \frac{\sum_{i=1}^{n} (x_i-\bar{x})^2}{n} \]

ou ainda

\[var = \frac{\sum_{i=1}^{n} (x_i^2-\bar{x}^2)}{n}\]

Note que por utilizar a soma dos desvios ao quadrado, esta medida não fica numa unidade conveniente.

3.2.4 Desvio Padrão

Para manter a mesma unidade dos dados originais, é conveniente utilizar o desvio padrão, trata-se da raiz quadrada da variância.

\[dp=\sqrt{var}\]

3.2.5 Coeficiente de Variação

O coeficiente de variação é dado por

\[cv = \frac{dp}{\bar{x}}\] Note que como a média está no denominador, ela não pode ser 0. Além disso esta medida é adimensional e, em geral, é apresentada em forma de porcentagem.

Críticas e sugestões a este material sempre serão bem vindas.

Para entrar em contato comigo, envie uma mensagem para lineuacf@gmail.com.

Noções de Probabilidade e Estatística

`Lineu Alberto`