|
Ok… Vencemos a etapa de montar o questionário, tratar as respostas, filtrar respostas coerentes e etc. Agora precisamos começar nossa análise. Em geral começamos sempre por uma análise exploratória do nosso conjunto de dados.
Em uma análise exploratória buscamos sintetizar a informação presente nos dados por meio de tabelas, gráficos e medidas.
Cuidados devem ser tomados no que diz respeito à escolha do tipo de representação. Devemos, por exemplo, evitar que o gráfico fique desproporcional ou privilegiando determinados valores a fim de induzir conclusões àqueles que utilizam o gráfico como forma de visualização.
A escolha do gráfico está diretamente ligada ao tipo das variáveis. Além disso, existem gráficos que permitem análises de mais de uma variável simultâneamente a fim de verificar como uma influencia a outra(s).
Existem dois tipos de variáveis: as numéricas (quantitativas) e as não numéricas (qualitativas):
Variáveis Quantitativas: assumem valores numéricos.
Podem ser:
Discretas: características mensuráveis que podem assumir apenas um número finito ou infinito contável de valores e, assim, somente fazem sentido valores inteiros.
Contínuas: características mensuráveis que assumem valores em uma escala contínua, isto é, na reta real.
Variáveis Qualitativas: são as características definidas categorias, ou seja, representam uma classificação dos indivíduos e não uma característica numérica.
Podem ser:
Nominais: não existe ordenação nem peso entre as categorias.
Ordinais: existe uma ordenação entre as categorias.
Tendo isso em mente podemos começar a pensar em que medidas e gráficos podemos utilizar para representar nossas variáveis (análises univariadas) e também estudar a relação entre estas variáveis (análises bi, tri e multivariadas)
Algumas possibilidades de gráficos para cada tipo de variável são:
Qualitativa nominal ou ordinal: setores, barras, linhas.
Quantitativa discreta: barras, linhas, histograma, boxplot, densidade.
Quantitativas contínuas: histograma, densidade, boxplot.
Análises bivariadas:
Considere um conjunto de dados genérico, composto por uma variável quantitativa discreta, duas variáveis quantitativas contínuas e duas variáveis qualitativas nominais. Veja alguns exemplos das representações mencionadas:
Niveis | Frequencia | Frequencia.relativa |
---|---|---|
a | 28 | 0.28 |
b | 42 | 0.42 |
c | 30 | 0.3 |
Niveis | Frequencia | Frequencia.relativa |
---|---|---|
1 | 4 | 0.04 |
2 | 10 | 0.1 |
3 | 15 | 0.15 |
4 | 16 | 0.16 |
5 | 15 | 0.15 |
6 | 15 | 0.15 |
7 | 17 | 0.17 |
8 | 4 | 0.04 |
9 | 2 | 0.02 |
10 | 1 | 0.01 |
11 | 1 | 0.01 |
Classes | Frequencia | Frequencia relativa |
---|---|---|
[10,20] | 3 | 0.03 |
(20,30] | 14 | 0.14 |
(30,40] | 27 | 0.27 |
(40,50] | 41 | 0.41 |
(50,60] | 12 | 0.12 |
(60,70] | 2 | 0.02 |
(70,80] | 1 | 0.01 |
Minimo | Quartil_1 | Media | Mediana | Quartil_3 | Maximo |
---|---|---|---|---|---|
10.2 | 33.91 | 40.64 | 41.41 | 48.17 | 73.14 |
Amplitude | Variancia | Desvio_padrao |
---|---|---|
62.94 | 114 | 10.68 |