1 / 53

Análise Exploratória de Dados

Análise Exploratória de Dados. Objetivos. Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x quantis.

eliora
Télécharger la présentation

Análise Exploratória de Dados

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Análise Exploratória de Dados

  2. Objetivos • Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x quantis. • Trabalhar os exemplos computacionais do livro-texto (páginas 93 e 94) que envolvem uma análise bivariada de variáveis dos arquivos dados9bm.txt (mercado) e dados7bm.txt (veículos).

  3. Gráfico quantis x quantis Suponha dados os valores da variável X e valores da variável Y, todos medidos pela mesma unidade. Por exemplo, notas parciais de uma disciplina, ou temperaturas de duas cidades, ou porcenta- gens da renda familiar gastas com saúde e educação.

  4. Gráfico quantis x quantis (1) • O gráfico qxq é um gráfico dos quantis da variável X contra os quantis da variável Y. • Se m=n o gráfico qxq é um gráfico dos dados ordenados de X contra os dados ordenados de Y. • Se as distribuições dos dois conjuntos de dados fossem idênticas, os pontos estariam sobre a retay=x.

  5. Gráfico quantis x quantis (2) • Enquanto que um gráfico de dispersão fornece uma possível relação global entre as variáveis, o gráfico qxqmostra se valores pequenos de X estão relacionados com valores pequenos de Y, • se valores intermediários de X estão relacionados com valores intermediários de Y, • se valores grandes de X estão relacionados com valores grandes de Y.

  6. Gráfico quantis x quantis (3) • Num gráfico de dispersão, podemos ter x1< x2 e y1 >y2 . • Num gráfico qxq,não é possível ter x1< x2e y1 >y2 ,pois os valores em ambos os eixos estão ordenados, do menor para o maior.

  7. Exemplo 1 • Na tabela a seguir temos as notas de 20 alunos em duas provas de Estatística. aluno P1 P2 1 8.5 8.0 2 3.5 2.8 3 7.2 6.5 4 5.5 6.2 5 9.5 9.0 6 7.0 7.5 7 4.8 5.2 8 6.6 7.2 9 2.5 4.0 10 7.0 6.8 11 7.4 6.5 12 5.6 5.0 13 6.3 6.5 14 3.0 3.0 15 8.1 9.0 16 3.8 4.0 17 6.8 5.5 18 10.0 10.0 19 4.5 5.5 20 5.9 5.0 Estes dados estão arquivados em notasEst.txt.

  8. Exemplo 1 (cont) Comando que constrói o gráfico de quantis no R, após ler os dados: qqplot(dados$P1,dados$P2,main=“ Gráfico qxq para as notas em duas provas de Estatística”,xlab=“Quantis da primeira prova”, ylab=“Quantis da segunda prova”) Para inserir no gráfico a reta y=x, acrescente abline(0,1) # o primeiro número indica o coeficiente linear da reta desejada e, o segundo, o coeficiente angular.

  9. Exemplo 1: (cont.) • Do gráfico de quantis, podemos perceber que as notas em Estatística das provas 1 e 2 tem distribuições muito parecidas, pois os pontos do qqplot estão muito próximos da reta y=xcom desvios bem pequenos.

  10. Exemplo 2: • Dados: Temperaturas médias mensais em Ubatuba e Cananéia (SP) na base dados5bm.txt. • Construa o gráfico qxq das temperaturas de Cananéia contra as de Ubatuba.

  11. Exemplo 2: (cont.) • Observe que a maior parte dos pontos está acima da reta y=x, mostrando que as temperaturas de Ubatuba são, em geral, maiores do que as de Cananéia, para valores maiores do que 17 graus. • Obs.: Quando mn, é necessário modificar os valores de p para os quantis da variável com maior número de pontos. • O R aceita vetores de tamanhos diferentes para o qqplot.

  12. Qqplot quando mn • Suponha n>m. Neste caso, usamos interpolação nos quantis da variável X para corresponder aos quantis da variável Y no gráfico, pois há menos observações na variável Y. • Exemplo: Suponha n=40 e m=20.

  13. Qqplot quando mn (1) Neste caso, para cada valor ordenado de Y, correspondemos um valor médio dos valores ordenados de X.

  14. Qqplot quando mn (2) Mais geralmente, quando n>m correspondemos os quantis y(i) aos quantis de X: onde Se j for inteiro, fazemos o gráfico de y(i) versus x(j). Caso contrário, se j=k+r, onde k é inteiro e 0<r<1, fazemos o gráfico de y(i) versus x*(j) onde

  15. Exercício 34 do livro Faça o gráficoqxq para os dois conjuntos A e B abaixo: A 65 54 49 60 70 25 87 100 70 102 40 47 B 48 35 45 50 52 20 72 102 46 82 cálculos Observe que neste caso n=12 e m=10 Quantis de X

  16. Exercício 34 do livro

  17. Exemplo 3: • Dados: salários em dados6bm.txt. • Faça o gráfico qxqda variável salário de professor secundário contra salário de administrador. • A variável nivelmedio da base representa os salários do professor de ensino médio. • Faça comentários sobre a forma do gráfico obtido.

  18. Comentário • É possível perceber claramente, pelo gráfico qxqque os salários de professores do nível médio são menores do que os salários dos administradores.

  19. Exemplos computacionais

  20. Exemplo C1: Duas variáveis quantitativas • Dados: mercado em dados9bm.txt • Dispõe-se dos preços de fechamento diários de ações da telebrás (Y) e os índices IBOVESPA(X), de 2 de janeiro a 24 de fevereiro de 1995, num total de n=39 observações. • Construa o diagrama de dispersão destes dados.

  21. Comentários • A nuvem de pontos do diagrama de dispersão de IBOVESPA contra o preço das ações da Telebrás mostra que há forte correlação positiva entre estas variáveis. • Represente no diagrama de dispersão obtido a reta de mínimos quadrados, onde IBOVESPA é a variável independente e preço das ações da Telebrás, a variável dependente.

  22. Reta de mínimos quadrados

  23. Correlação • cor(dados$indice,dados$telebras) • [1] 0.9818552

  24. Reta de mínimos quadrados • Coefficients: • (Intercept) dados$indice • -3.7588 0.8808 • Modelo: Preco_Telebras=-3.7588+0.8808x(IBOVESPA)

  25. Valores ajustados versus resíduos

  26. Exemplo C2: • Dados sobre veículos em dados7bm.txt. • Dispõe-se de preço, comprimento e a capacidade do motor de veículos vendido no Brasil em duas categorias: Nacional e Importado. • Podemos fazer um gráfico de dispersão simbólico de preços e comprimentos, indicando por N se o carro for nacional e I, caso contrário.

  27. Exemplo C2: (cont.) • Para a construção de tal diagrama de dispersão, vamos primeiramente ordenar a base de dados pela variável origem (nacional ou importado). • dados<-read.table(“m:\\natalie\\aed\\dados7bm.txt”,header=T) • indice<-order(dados$origem) • table(dados$origem) • dadosord<-dados[indice,]

  28. Exemplo C2: (cont.) • I N • 12 18 • Assim, em dadosord, as observações de 1 a 12 referem-se a veículos importados e de 13 a 30 referem-se a veículos nacionais.

  29. Exemplo C2: (cont.) • plot(dadosord$comprimento[13:30],dadosord$preco[13:30],pch="N",col="red",main="Gráfico de dispersão simbólico das variáveis comprimento e preco",sub="N: nacional, I:importado",ylab="preco",xlab="comprimento”, ylim=c(5000,39000),xlim=c(3,5)) • points(dadosord$comprimento[1:12],dadosord$preco[1:12],pch="I",col="blue")

  30. Motor e preço

  31. Motor e comprimento

  32. Origem versus outras variáveis • Considere os pares de variáveis: origem e preço, origem e motor e, origem e comprimento. • Há algum par de variáveis apresentando associação? • Construa os boxplots por origem e da distribuição global. • Calcule o R2.

  33. > aov(dados$preco~dados$origem) Call: aov(formula = dados$preco ~ dados$origem) Terms: dados$origem Residuals Sum of Squares 514601743 1648021011 Deg. of Freedom 1 28 Residual standard error: 7671.89 514601743/(514601743+1648021011) [1] 0.2379526 R.: Cerca de 24% da variação total de preço é explicada pela origem do veículo (nacional ou importado).

  34. > aov(dados$comprimento~dados$origem) Call: aov(formula = dados$comprimento ~ dados$origem) Terms: dados$origem Residuals Sum of Squares 0.159609 3.750911 Deg. of Freedom 1 28 Residual standard error: 0.366007 > 0.159609/(0.159609+3.750911) [1] 0.04081529 R.: A origem explica apenas cerca de 4% da variação total devida ao comprimento.

  35. > aov(dados$motor~dados$origem) Call: aov(formula = dados$motor ~ dados$origem) Terms: dados$origem Residuals Sum of Squares 164.356 21328.444 Deg. of Freedom 1 28 Residual standard error: 27.59946 > 164.356/(164.356+21328.444) [1] 0.007647026 R.: A origem explica apenas 0,7% da variação total de motor.

  36. Comentário • Das análises realizadas, podemos perceber que apenas o par origem e preço apresenta alguma associação com os preços mais altos para importados. • A origem explica cerca de 24% da variação total de preço.

  37. Qqplot

  38. Exemplo C3 (Tabela de contingência) • Referência: Moore, David S., and George P. McCabe (1989). Introduction to the Practice of Statistics. Original source: World Almanac and Book of Facts, 1986 • Descrição: Nível de escolaridade de americanos por idade em 1984. As contagens estão em milhares de pessoas. • Fonte: U.S. Bureau of the Census. Americanos de menos de 25 anos não foram incluídos porque muitos ainda não completaram sua formação educacional.

  39. Exemplo C3 (Tabela de contingência)

More Related