Métodos Estatísticos em Pesquisa Científica


Análise do Questionário 2020


# Pacotes necessários

library(splitstackshape, quietly = TRUE)
library(scales)
library(psych)
library(lubridate)
library(pander)
library(DT)
library(plyr)
library(ggplot2)

# Leitura dos dados

#path <- "./resp_teste.csv"
path <- "quest/resp_mpec2020 - Respostas ao formulário 1.csv"

quest <- read.csv(path, sep = ',', encoding = 'UTF-8')
#quest <- read.csv(path, sep = ',', encoding = 'latin1')

# Excluindo a primeira coluna referente aos carimbos de data e hora do google forms
quest <- quest[,-1]

# Classificacao das variaves
# lo/ln - var qualitativa ordinal, nominal
# td - var quantitativa discreta

# Renomeando as colunas
names(quest) <- 
  c(
    # questoes academicas
    "ln_instituicao", "ln_setorAtuacao", "lo_ativAtuacao",
    "ln_setorArea", "tc_anoFimGrad", "ln_localGrad",
    "ln_progGrad", "tc_inicMest", "tc_fimMest",
    "ln_localMest", "td_artigo", "ln_bolsaEstudo",
    "td_estatGrad", "td_estatPGrad", "lo_soft",
    "ln_enumSoft", "lo_importancia", "td_notaImport",
    "ln_expectAposPG", "ln_conhecTransv", "lo_videoTransv",
    "ln_turma", "lo_contatoProfDisc", "lo_contatoProfColabDisc",
    "ln_medio1", "ln_medio2",
    
    # perfil do aluno
    "ln_sexo", "tc_altura", "tc_peso",
    "dataNasc", "ln_tipoTrab", "ln_compMoradia",
    "td_numIrmao", "ln_origem", "ln_tipoHab",
    "ln_tipoTransp", "tc_tempoPUniv", "td_qtddServTransp", 
    "ln_pet", "ln_instr","ln_rede",
    
    #questoes extra
    "tc_idadeProf", "ln_kiki"
  )

paleta <- c('#F78181', #vermelho
            '#21610B', #verde escuro
            '#A9F5F2', #azul
            '#81F781', #verde
            '#2E9AFE', #azul2
            '#F781F3', #rosa
            '#610B21', #vermelho escuro
            '#F3F781', #amarelo
            '#08088A', #azul escuro
            '#086A87', #azul3
            '#58FA82', #laranja
            '#21610B' #verde escuro
)

path2 <- "quest/resp_2019.csv"

antigo <- read.csv(path2, sep = ',', encoding = 'UTF-8')

antigo <- data.frame(antigo[,-1], stringsAsFactors = FALSE)

names(antigo) <- c("lo_ativAtuacao", "ln_setorAtuacao", 
                   "tc_anoFimGrad", "ln_localGrad", 
                   "ln_progGrad", "tc_inicMest", "tc_fimMest", 
                   "ln_localMest", "td_artigo", "ln_bolsaEstudo", 
                   "td_estatGrad", "td_estatPGrad", "lo_soft", 
                   "ln_enumSoft", "lo_importancia", "td_notaImport", 
                   "ln_tipoTrab", "ln_sexo", "td_numIrmao", 
                   "ln_origem", "ln_compMoradia", "ln_tipoTransp", 
                   "ln_tipoHab", "tc_tempoPUniv", "tc_altura", 
                   "tc_peso", "ln_pet", "ln_instr", "dataNasc", 
                   "ln_rede", "td_qtddServTransp", "lo_provNetflix", 
                   "ln_arrozNatal", "tc_idadeProf", "ln_expectAposPG", 
                   "ln_conhecTransv", "lo_videoTransv", 
                   "lo_contatoProfDisc", "lo_contatoProfColabDisc")

Na primeira aula da disciplina de Métodos Estatísticos em Pesquisa Científica um questionário é repassado aos alunos via formulário do Google.

A ideia é coletar informações a respeito dos participantes da disciplina e realizar uma análise dos dados obtidos de forma a varrer uma boa parte do conteúdo referente à análise exploratória.

Após a realização do questionário os dados foram exportados em formato csv e importados no software R para que uma análise das informações coletada fosse feita.

O material desenvolvido para a oferta 2020 segue em grande parte o molde do que foi feito em outras ofertas.

As duas diferenças de maior impacto das versões anteriores foram com relação ao template do output e organização (tanto das questões no questionário, quanto na apresentação dos resultados).

Para este ano fizemos uma tentativa de organizar as questões do questionário em grupos maiores, desta forma, nesta versão existem:

  • Questões acadêmicas.
  • Questões pessoais.
  • Questões extra.

Quando possível foi acrescentada uma aba com o resultado da análise da questão no ano anterior.

Nas análises das primeiras questões há mais material pois buscou-se explorar um número maior de opções de representação com o objetivo de alimentar a discussão.

Após as análises univariadas exploramos algumas representações bivariadas e, por fim, o correlograma.


Contribuíram para este material:

  • Versão 1 - Hektor Dannyel Vieira Brasil.
  • Versão 2 - Kally Chung.
  • Versão 3 - Lineu Alberto Cavazani de Freitas.

Todas as versões foram desenvolvidas sob a orientação do professor Paulo Justiniano Ribeiro Junior.


Dados

Visando uma análise mais eficiente, foi feita uma série de tratamentos nos dados brutos. Vejamos as primeiras linhas dos dados:



Análise exploratória

Existem dois tipos de variáveis: as numéricas (quantitativas) e as não numéricas (qualitativas), cada uma das classes tem suas ramificações:

Variáveis Quantitativas: assumem valores numéricos.

Podem ser:

  • Discretas: características mensuráveis que podem assumir apenas um número finito ou infinito contável de valores e, assim, somente fazem sentido valores inteiros.

  • Contínuas: características mensuráveis que assumem valores em uma escala contínua, isto é, na reta real.

Variáveis Qualitativas: são as características definidas categorias, ou seja, representam uma classificação dos indivíduos e não uma característica numérica.

Podem ser:

  • Nominais: não existe ordenação nem peso entre as categorias.

  • Ordinais: existe uma ordenação entre as categorias.


Podemos sintetizar a informação presente nos dados por meio de tabelas de frequência e gráficos.

Cuidados devem ser tomados no que diz respeito à escolha do tipo de gráfico para representar a variável com o intuito de evitar que o gráfico fique desproporcional ou privilegiando determinados valores a fim de induzir conclusões àqueles que utilizam o gráfico como forma de visualização.

A escolha do gráfico está diretamente ligada ao tipo das variáveis. Além disso, existem gráficos que permitem análises de mais de uma variável simultâneamente a fim de verificar como uma influencia a outra(s).

Algumas possibilidades de gráficos para cada tipo de variável são:

  • Qualitativa nominal ou ordinal: setores, barras.

  • Quantitativa discreta: barras, histograma, boxplot.

  • Quantitativas contínuas: histograma ou boxplot.

  • Análises bivariadas:
    • Quantivativa vs Quantitativa: Diagrama de dispersão.
    • Qualitativa vs Quantitativa: Boxplots.
    • Qualitativa vs Qualitativa: Gráfico de mosaico.

Análise univariada

Vamos analisar, uma a uma, as questões do questionário.


Questões acadêmicas

A qual instituição você está filiado hoje?

Se você estuda na UFPR, em qual setor você está inserido?

Tabela 1

Sem subset de alunos da UFPR

Setor de Atuação Freq Perc
ac - artes, comunicacao e design 2 0.4065
ag - agrarias 101 20.53
bl - ciencias biologiccas 58 11.79
ch - humanas 25 5.081
ct - ciencias da terra 21 4.268
ed - educacao 14 2.846
ep - educacao profissional e tecnologica 1 0.2033
et - exatas 34 6.911
jd - juridicas 0 0
sa - sociais aplicadas 35 7.114
sd - saude 121 24.59
sl - litoral 4 0.813
sp - palotina 31 6.301
tc - tecnologia 45 9.146

Comparativo 1

# 2020
quest$ln_setorAtuacao <- tolower(iconv(quest$ln_setorAtuacao, 
                                       to ='ASCII//TRANSLIT', 
                                       from = "UTF-8"))

quest$ln_setorAtuacao <- factor(quest$ln_setorAtuacao,
                                levels = c("ac - artes, comunicacao e design",        
                                           "ag - agrarias",                           
                                           "bl - ciencias biologiccas",                
                                           "ch - humanas",
                                           "ct - ciencias da terra",
                                           "ed - educacao",                           
                                           "ep - educacao profissional e tecnologica",
                                           "et - exatas", 
                                           "jd - juridicas",                          
                                           "sa - sociais aplicadas",                  
                                           "sd - saude",
                                           "sl - litoral",
                                           "sp - palotina",                           
                                           "tc - tecnologia"))

quest_ufpr <- subset(quest, ln_instituicao == 'ufpr')

fa_at <- table(quest_ufpr$ln_setorAtuacao)   # frequência absoluta
fr_at <- prop.table(fa_at) # frequência relativa
#fac_at <- cumsum(fr_at)    # frequência acumulada

at <- data.frame(niveis = names(fa_at),
                 #freq = as.vector(fa_at),
                 freq_r = as.vector(fr_at),
                 ano = rep(2020, length(fr_at)))

# 2019

antigo$ln_setorAtuacao <- tolower(iconv(antigo$ln_setorAtuacao, 
                                       to ='ASCII//TRANSLIT', 
                                       from = "UTF-8"))

antigo$ln_setorAtuacao <- factor(antigo$ln_setorAtuacao,
                                levels = c("ac - artes, comunicacao e design",        
                                           "ag - agrarias",                           
                                           "bl - ciencias biologiccas",                
                                           "ch - humanas",
                                           "ct - ciencias da terra",
                                           "ed - educacao",                           
                                           "ep - educacao profissional e tecnologica",
                                           "et - exatas", 
                                           "jd - juridicas",                          
                                           "sa - sociais aplicadas",                  
                                           "sd - saude",
                                           "sl - litoral",
                                           "sp - palotina",                           
                                           "tc - tecnologia"))


fa_at <- table(antigo$ln_setorAtuacao)   # frequência absoluta
fr_at <- prop.table(fa_at) # frequência relativa
#fac_at <- cumsum(fr_at)    # frequência acumulada

at2 <- data.frame(niveis = names(fa_at),
                 #freq = as.vector(fa_at),
                 freq_r = as.vector(fr_at),
                 ano = rep(2019, length(fr_at)))
##

at[15:28,] <- at2
at$freq_r <- round(at$freq_r, 2)
at$ano <- as.factor(at$ano)

at <- arrange(at, niveis)


ggplot(at, 
       aes(x=niveis, y=freq_r, fill=ano)) + 
  geom_bar(stat="identity", alpha = 0.8, col = 1) +
  xlab("") + ylab("Frequência relativa") + theme_classic()+
  coord_flip() + ggtitle("Comparativo das Turmas")


Qual sua atividade atual na sua universidade (relacionada à presença nesta disciplina)?

Em qual ano você concluiu sua graduação?

Tabela 1

niveis freq freq_r freq_ac
1989 1 0.00133 0.00133
1990 5 0.006649 0.007979
1991 4 0.005319 0.0133
1992 2 0.00266 0.01596
1993 2 0.00266 0.01862
1994 5 0.006649 0.02527
1995 1 0.00133 0.0266
1996 3 0.003989 0.03059
1997 7 0.009309 0.03989
1998 7 0.009309 0.0492
1999 3 0.003989 0.05319
2000 9 0.01197 0.06516
2001 9 0.01197 0.07713
2002 15 0.01995 0.09707
2003 4 0.005319 0.1024
2004 12 0.01596 0.1184
2005 17 0.02261 0.141
2006 16 0.02128 0.1622
2007 25 0.03324 0.1955
2008 34 0.04521 0.2407
2009 14 0.01862 0.2593
2010 16 0.02128 0.2806
2011 22 0.02926 0.3098
2012 25 0.03324 0.3431
2013 39 0.05186 0.3949
2014 36 0.04787 0.4428
2015 55 0.07314 0.516
2016 64 0.08511 0.6011
2017 94 0.125 0.7261
2018 72 0.09574 0.8218
2019 112 0.1489 0.9707
2020 13 0.01729 0.988
2021 3 0.003989 0.992
2022 1 0.00133 0.9934
2023 1 0.00133 0.9947
2024 2 0.00266 0.9973
20032013 1 0.00133 0.9987
20132003 1 0.00133 1

Em qual instituição você concluiu sua graduação?

De quais programas de graduação você participou?

Se você já concluiu o mestrado, qual o ano de início do mestrado? E qual o ano de conclusão do seu mestrado?

Em qual instituição você fez seu mestrado?

Quantos artigos (com qualis) você já publicou?

Você é bolsista remunerado de algum programa?

Quantas disciplinas diferentes de Estatística vc cursou na pós-graduação (mestrado + doutorado) no total?

Tabela 1

niveis freq freq_r freq_ac
0 319 0.4242 0.4242
1 114 0.1516 0.5758
2 68 0.09043 0.6662
3 24 0.03191 0.6981
4 20 0.0266 0.7247
5 27 0.0359 0.7606
6 24 0.03191 0.7926
7 21 0.02793 0.8205
8 32 0.04255 0.863
9 11 0.01463 0.8777
10 29 0.03856 0.9162
11 7 0.009309 0.9255
12 15 0.01995 0.9455
14 5 0.006649 0.9521
15 11 0.01463 0.9668
16 4 0.005319 0.9721
18 2 0.00266 0.9747
20 5 0.006649 0.9814
21 1 0.00133 0.9827
24 1 0.00133 0.984
25 1 0.00133 0.9854
27 2 0.00266 0.988
28 1 0.00133 0.9894
30 3 0.003989 0.9934
33 1 0.00133 0.9947
34 1 0.00133 0.996
37 1 0.00133 0.9973
50 1 0.00133 0.9987
94 1 0.00133 1

Já utilizou algum software com funcionalidades estatísticas?

Qual(is) software(s) estatístico(s) você usa ou já usou?

Pergunta aplicada somente a quem já usou algum software estatístico. Na opção “Outros”, separe por ponto-e-vírgula.

Tabela

niveis freq freq_r freq_ac
. 1 0.0008525 0.0008525
action stat 4 0.00341 0.004263
actionstat 1 0.0008525 0.005115
agreestat 1 0.0008525 0.005968
alguns softwares de sig. 1 0.0008525 0.00682
asistat 1 0.0008525 0.007673
assistat 10 0.008525 0.0162
assitat 1 0.0008525 0.01705
bioestat 6 0.005115 0.02217
bioestat5.0 1 0.0008525 0.02302
biostat 6 0.005115 0.02813
epi info 1 0.0008525 0.02899
epiinfo 1 0.0008525 0.02984
excel 472 0.4024 0.4322
genes 3 0.002558 0.4348
geoda 1 0.0008525 0.4356
graphpad 1 0.0008525 0.4365
graphpad prism 13 0.01108 0.4476
graphpad prism 7 2 0.001705 0.4493
graphpad prisma 3 0.002558 0.4518
graphprima 1 0.0008525 0.4527
jamovi 2 0.001705 0.4544
jmp 3 0.002558 0.4569
libreoffice calc 1 0.0008525 0.4578
maple 1 0.0008525 0.4587
matlab 83 0.07076 0.5294
microstrategy 1 0.0008525 0.5303
minitab 56 0.04774 0.578
mplus e amos 1 0.0008525 0.5789
numbers 1 0.0008525 0.5797
origin 6 0.005115 0.5848
origin 8.0 1 0.0008525 0.5857
origin prolab 1 0.0008525 0.5865
pacotes e bibliotecas da plataforma anaconda da linguagem python 1 0.0008525 0.5874
pass 1 0.0008525 0.5882
past 7 0.005968 0.5942
phayton 1 0.0008525 0.5951
power bi 1 0.0008525 0.5959
prim 1 0.0008525 0.5968
prism 6 0.005115 0.6019
prisma 7 0.005968 0.6078
python 2 0.001705 0.6095
qgis 2 0.001705 0.6113
qlik 1 0.0008525 0.6121
r 158 0.1347 0.7468
rbio 1 0.0008525 0.7477
saeg 1 0.0008525 0.7485
sas 39 0.03325 0.7818
scilab 1 0.0008525 0.7826
sigma plot 3 0.002558 0.7852
sigmaplot 3 0.002558 0.7877
sisvar 15 0.01279 0.8005
sofa 1 0.0008525 0.8014
sphinks 1 0.0008525 0.8022
sphinx 1 0.0008525 0.8031
spss 124 0.1057 0.9088
stata 2 0.001705 0.9105
statgraphics 2 0.001705 0.9122
statistica 92 0.07843 0.9906
systat 5 0.004263 0.9949
tableau 1 0.0008525 0.9957
unscrambler 1 0.0008525 0.9966
winstat 2 0.001705 0.9983
xlstat 2 0.001705 1

2019

antigo$ln_enumSoft <- tolower(iconv(antigo$ln_enumSoft, to ='ASCII//TRANSLIT', 
                                   from = "UTF-8"))
antigo$ln_enumSoft[ antigo$ln_enumSoft %in% "statistica, sisvar e assistat" ] <- "statistica, sisvar, assistat"
antigo$ln_enumSoft <- gsub(",",";",antigo$ln_enumSoft)
ar_enumSoft<- cSplit(antigo, "ln_enumSoft", sep = ";", direction = "long")$ln_enumSoft
ar_enumSoft <- as.character(ar_enumSoft)
classOpcoes <- c("nenhum", "nao usei", "nao utilizei", "nao", "nao se aplica", "0")
ar_enumSoft[ ar_enumSoft %in% classOpcoes ] <- "nao usou"
classOpcoes <- c("action", "action stat 3")
ar_enumSoft[ ar_enumSoft %in% classOpcoes ] <- "action stat"
classOpcoes <- c("epi-info")
ar_enumSoft[ ar_enumSoft %in% classOpcoes ] <- "epi info"
classOpcoes <- c("statigraphics")
ar_enumSoft[ ar_enumSoft %in% classOpcoes ] <- "statgraphics"
ar_enumSoft <- as.factor(ar_enumSoft)


fa_soft2 <- table(ar_enumSoft)   # frequência absoluta
fr_soft2 <- prop.table(fa_soft2) # frequência relativa
fac_soft2 <- cumsum(fr_soft2)    # frequência acumulada

soft2 <- data.frame(niveis = names(fa_soft2),
                     freq = as.vector(fa_soft2),
                     freq_r = as.vector(fr_soft2),
                     freq_ac = as.vector(fac_soft2)) # unindo as informações

# pander:::pander(soft2) # gerando a tabela

soft21 <- arrange(soft2, desc(soft2$freq))

barplot(soft21$freq[1:15], horiz = TRUE, 
        names.arg = soft21$niveis[1:15],
        col = rainbow(length(unique(soft21$niveis))),
        main = "15 Softwares Estatísticos Usados",
        xlim = c(0, max(soft21$freq + 30)), 
        cex.names=0.8, las = 2)

abline(v=50, lty=3, col = 2)
abline(v=100, lty=3, col = 2)
abline(v=150, lty=3, col = 2)
abline(v=200, lty=3, col = 2)
abline(v=250, lty=3, col = 2)
abline(v=300, lty=3, col = 2)


Você vai utilizar métodos estatísticos na sua Pós-Graduação/Pesquisa?

Qual a importância que você atribui à Estatística no seu trabalho de Pós-Graduação/Pesquisa?

Se você está fazendo Pós-Graduação, qual a sua principal expectativa após a conclusão?

Como ficou sabendo da Disciplina Transversal?

Tabela

niveis freq freq_r freq_ac
site da ufpr ou instituicao de origem 299 0.3976 0.3976
email institucional da sucom (superintendencia de comunicacao e marketing) 56 0.07447 0.4721
por alguma outra midia social da ufpr 16 0.02128 0.4934
pelos professores que ministram/ministraram disciplinas da transversal 28 0.03723 0.5306
pelo(a) orientador(a) 208 0.2766 0.8072
por ex-alunos da disciplina 9 0.01197 0.8191
por colegas 52 0.06915 0.8883
outro 84 0.1117 1

Perfil do aluno

Sexo

Qual a sua altura?

Tabela 1

Altura Freq Perc
[135,140] 2 0.266
(140,145] 0 0
(145,150] 9 1.197
(150,155] 37 4.92
(155,160] 98 13.03
(160,165] 148 19.68
(165,170] 160 21.28
(170,175] 112 14.89
(175,180] 101 13.43
(180,185] 52 6.915
(185,190] 24 3.191
(190,195] 8 1.064
(195,200] 0 0
(200,205] 1 0.133

Qual o seu peso?

Tabela 1

Sem tratamento

Peso Freq Perc
[0,1e+03] 751 99.87
(1e+03,2e+03] 0 0
(2e+03,3e+03] 0 0
(3e+03,4e+03] 0 0
(4e+03,5e+03] 0 0
(5e+03,6e+03] 0 0
(6e+03,7e+03] 0 0
(7e+03,8e+03] 0 0
(8e+03,9e+03] 0 0
(9e+03,1e+04] 0 0
(1e+04,1.1e+04] 0 0
(1.1e+04,1.2e+04] 1 0.133

Cálculo do IMC

Qual a data do seu nascimento?

Tabela 3

Meses de aniversário

niveis freq freq_r freq_ac
1 55 0.07314 0.07314
2 56 0.07447 0.1476
3 57 0.0758 0.2234
4 62 0.08245 0.3059
5 57 0.0758 0.3816
6 60 0.07979 0.4614
7 66 0.08777 0.5492
8 63 0.08378 0.633
9 66 0.08777 0.7207
10 67 0.0891 0.8098
11 75 0.09973 0.9096
12 68 0.09043 1

Qual das seguintes categorias descreve melhor sua situação de emprego?

Você mora

Quantos irmãos você tem?

Tabela 1

Quant. de Irmãos Freq Perc
0 77 10.24
1 288 38.3
2 213 28.32
3 85 11.3
4 42 5.585
5 24 3.191
6 6 0.7979
7 8 1.064
8 5 0.6649
9 3 0.3989
10 1 0.133

Possui habilitação para dirigir? Qual categoria?

Qual seu meio de transporte predominante para ir para Universidade?

Em média, quanto tempo você demora para chegar a Universidade?

Em média, quantas vezes você usa táxi/aplicativo de transporte durante o mês?

Possui animal de estimação?

Toca algum instrumento musical?

De quais redes sociais você participa?

Questões extra

Quantos anos você acha que a pessoa da foto abaixo tem?

Drawing Drawing Drawing

Geral

Fotos

Tabela 2
foto minimo quart1 media mediana moda quart3 max
Foto 1 28 45 49.65 50 50 55 70
Foto 2 30 42 45.89 45 45 50 67
foto amplitude variancia desv_pad coef_var
Foto 1 42 38.05 6.169 12.43
Foto 2 37 34.77 5.897 12.85

Observe as figuras abaixo. Uma delas se chama “Bouba” e a outra “Kiki”. Quem é quem?

Drawing

Tabela

niveis freq freq_r freq_ac
Bouba/Kiki 178 0.2367 0.2367
Kiki/Bouba 574 0.7633 1

Gráfico


Análise bivariada

Análises bivariadas tem como objetivo buscar compreender como uma variável se comporta na presença de outra. Isto é, neste tipo de análise buscamos verificar se há relação entre duas variáveis.


Entre duas variáveis qualitativas

Sexo x Bolsa de estudo

Gráfico 1


Gráfico 2


Gráfico 3


Origem x Tipo de ensino médio

Gráfico 1


Gráfico 2


Gráfico 3


Entre uma variável qualitativa e uma quantitativa

Sexo x Numero de artigos


Ensino médio x Idade


Origem x Altura


Entre duas quantitativas

Idade do professor x Idade dos alunos


Peso x Altura


Tempo até a universidade x Uso de aplicativos de mobilidade


Correlação

Gráfico 1


Drawing Drawing Drawing Drawing Drawing

Gráfico 2



Drawing Drawing Drawing Drawing Drawing