Noções de Probabilidade e Estatística

Lineu Alberto

Parte 2.2 - Introdução à análise exploratória de dados

Medidas de associação e análise gráfica


1 Análise exploratória

Dando continuidade ao material a respeito de análise exploratória de dados, nesta parte serão apresentadas as medidas de associação, gráficos e ainda uma breve apresentação do conceito de assimetria.


2 Medidas de Associação

O objetivo das medidas de associação é mensurar quanto uma variável influencia outra. Duas medidas de associação destacam-se: o \(Q^2\) e a correlação.


2.1 \(Q^2\)

O coeficiente \(Q^2\) baseia-se na comparação de tabelas de frequência. O que é feito é confrontar os valores reais nas caselas da tabela de frequência de dupla entrada original com as frequências esperadas. O coeficiente é dado por:

\[Q^2 = \sum_{i,j} \frac{(o_{ij}-e_{ij})^2}{e_{ij}}\]

\(o_{ij}\) e \(e_{ij}\) representam as frequências observadas e esperadas na linha \(i\) e coluna \(j\). A diferença entre observado e esperado ao quadrado evita o cancelamento de termos positivos com negativos enquanto que a divisão pelo valor esperado padroniza a medida.

Se as frequências esperadas forem muito próximas das observadas, espera-se que o coeficiente fique próximo de zero. Valores diferentes de 0 indicam associação, isto é, dependência entre as variáveis.

O procedimento para cálculo do \(Q^2\) é:

  1. Obter a tabela de dupla entrada com as frequências observadas (\(o_{ij}\)).
  2. Obter a tabela de dupla entrada com as frequências relativas por coluna (a soma da coluna deve ser igual a 1), inclusive para a coluna de total.
  3. Obter a tabela de dupla entrada com as frequências esperadas (\(e_{ij}\)).
    • Para obter a frequência esperada basta multiplicar a frequência relativa da coluna de soma pelo total da coluna da tabela de frequências observadas.
  4. Aplicar os valores obtidos na fórmula do \(Q^2\)
    • Se o valor for próximo de 0, então não há associação entre as variáveis.
    • Se o valor for diferente de 0, então há associação entre as variáveis.

Considere o exemplo a seguir com duas variáveis \(T\) e \(A\) quaisquer:

  1. Tabela de frequências observadas
T/A 0 1 2 3 4 Soma
0 5 4 2 3 1 15
1 2 8 6 4 1 21
2 4 8 8 5 2 27
3 4 2 2 5 4 17
Soma 15 22 18 17 8 80

\(\\\)

  1. Tabela de frequências relativas por linha
T/A 0 1 2 3 4 Total linha/ Total
0 0.33 0.18 0.11 0.18 0.12 0.19
1 0.13 0.36 0.33 0.24 0.12 0.26
2 0.27 0.36 0.44 0.29 0.25 0.34
3 0.27 0.09 0.11 0.29 0.50 0.21
Soma 1.00 1.00 1.00 1.00 1.00 1.00

\(\\\)

  1. Tabela de frequências esperadas

\(\\\)

T/A 0 1 2 3 4 Total linha/ Total
0 0,19*15=2,85 0,19*22=4,18 0,19*18=3,42 0,19*17=3,23 0,19*8=1,52 0.19
1 0,26*15 = 3,9 5,72 4,68 4,42 2,08 0.26
2 0,34*15 = 5,1 7,48 6,12 5,78 2,72 0.34
3 0,21*15 = 3,15 4,62 3,78 3,57 1,68 0.21
Total coluna
freq.
15 22 18 17 8

\(\\\)

  1. Coeficiente

\[Q^2 = \frac{(5-2.81)^2}{2.81}+...+\frac{(4-1.7)^2}{1.7} = 12.63\]

Como o valor não está próximo de 0, conclui-se que há associação entre as variáveis.


2.2 Correlação

Considere um conjunto de dados com \(n\) pares de valores para as variáveis \(X\) e \(Y\), representados por (\(x_i, y_i\)), \(i=1,2,...,n\). O coeficiente de correlação mede a dependência linear entre as variáveis e é calculado da seguinte forma:

\[\rho_{X,Y} = \frac{\sum_{i=1}^{n} (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{[\sum_{j=1}^{n} (x_j-\bar{x})^2][\sum_{j=1}^{n} (y_j-\bar{y})^2]}}\]

ou ainda:

\[\rho_{X,Y} = \frac{\sum_{i=1}^{n}x_{i}y_{i}-n\bar{x}\bar{y}}{\sqrt{[\sum_{j=1}^{n}x_{j}^{2}-n\bar{x}^{2}] [\sum_{j=1}^{n}y_{j}^{2}-n\bar{y}^{2}]}}\]

A correlação varia de -1 até 1 em que valores acima de 0 indicam correlação positiva (a medida que uma variável aumenta a outra também aumenta), valores abaixo de 0 indicam correlação negativa (a medida que uma variável aumenta a outra diminui) e valores próximos de 0 indicam ausência de correlação.


3 Gráficos

A organização dos dados em tabelas de frequência proporciona um meio eficaz de estudo do comportamento das características de interesse, contudo a informação pode ser melhor representada por meio de gráficos.

Visualização de dados é um assunto interessante pois não requer elevada proficiência em tópicos avançados de Estatística para aplicação e interpretação dos resultados, fazendo com que se caracterize como uma técnica simples, com grande apelo visual e extremamente informativa quanto ao conjunto de dados.

Cuidados devem ser tomados no que diz respeito à escolha do tipo de gráfico para representar a variável com o intuito de evitar que o gráfico fique desproporcional ou privilegiando determinados valores a fim de induzir conclusões àqueles que utilizam o gráfico como forma de visualização.

O uso e divulgação ética e criteriosa de dados devem ser pré-requisitos indispensáveis e inegociáveis

A escolha do gráfico está diretamente ligada ao tipo das variáveis. Além disso, existem gráficos que permitem análises de mais de uma variável simultâneamente a fim de verificar como uma influencia a outra(s). Algumas possibilidades de gráficos para cada tipo de variável são:

  • Qualitativa nominal ou ordinal: setores, barras.

  • Quantitativa discreta: barras, histograma, boxplot.

  • Quantitativas contínuas: histograma ou boxplot.

  • Análises bivariadas:
    • Quantivativa vs Quantitativa: Diagrama de dispersão.
    • Qualitativa vs Quantitativa: Boxplots.
    • Qualitativa vs Qualitativa: Gráfico de mosaico.

3.1 Gráfico de setores

Consiste em repartir um círculo em setores de tamanhos proporcionais às frequências relativas ou às porcentagens de cada valor.


3.2 Gráfico de barras

Utiliza os possíveis valores das variáveis no eixo das abcissas (x) e as frequências ou porcentagens no eixo das ordenadas (y). Para cada valor da variável desenha-se uma barra correspondente à frequência.


3.3 Histograma

Consiste em retângulos contíguos de base dada pelas faixas de valores da variável e área igual à frequência da rescpectiva faixa. A altura de cada retângulo é denominada densidade de frequência ou simplesmente densidade e é dada pelo quociente da área pela amplitude da faixa.


3.4 Box-plot

O Box-plot faz uso dos quartis para obtenção de um gráfico no qual é possível analisar a distribuição dos dados, isto é, aspectos quanto a posição, variabilidade, assimetria e também a presença de valores atípicos.

A construção de um box-plot inicia-se com um retângulo em que a aresta inferior coincide com o primeiro quartil e a superior com o terceiro quartil. A mediana é representada por um traço entre as duas arestas.

De \(Q_1\) até \(Q_3\) estão 50% das observações centrais, o que dá uma ideia a respeito de quão dispersos são os valores. A amplitude deste intervalo, \(IQ=Q_3-Q_1\) é chamada amplitude interquartil. Para obtenção da amplitude do box-plot além do retângulo faz-se \([Q_1-1,5IQ ; Q_3+1,5IQ]\), desenha-se então uma linha até estes valores. Valores além destes extremos são marcados como um ponto ou asterisco e são os candidatos a valores atípicos.


3.5 Diagrama de dispersão

Para confecção do diagrama de dispersão uma variável é colocada no eixo x, outra no eixo y e então os pares ordenados são representados por pontos no plano cartesiano


3.6 Gráfico de mosaico

Os gráficos de mosaico são usados para mostrar a relação entre duas variáveis qualitativas. Consiste em uma grade em que cada retângulo representa o número de casos que corresponde a um cruzamento específico de níveis das variáveis em questão. Quanto mais níveis das variáveis, maior será o número de retângulos.


4 Assimetria

Uma característica interessante de um conjunto de dados é a existência ou não de simetria. Um conjunto pode ser aproximadamente simétrico, assimétrico à esquerda ou à direita. Tais características são facilmente diagnosticadas através de análise gráfica, fazendo uso de histogramas e box-plots; porém há também a possibilidade de diagnóstico via análise das medidas de posição e através de coeficientes de assimetria conhecidos.




Críticas e sugestões a este material sempre serão bem vindas.

Para entrar em contato comigo, envie uma mensagem para .