1 / 78

TÉCNICAS ESTATÍSTICAS APLICADAS EM CLIMATOLOGIA Simone E. Teleginski Ferraz

TÉCNICAS ESTATÍSTICAS APLICADAS EM CLIMATOLOGIA Simone E. Teleginski Ferraz Departamento de Física - UFSM. INTRODUÇÃO

Télécharger la présentation

TÉCNICAS ESTATÍSTICAS APLICADAS EM CLIMATOLOGIA Simone E. Teleginski Ferraz

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. TÉCNICAS ESTATÍSTICAS APLICADAS EM CLIMATOLOGIA Simone E. Teleginski Ferraz Departamento de Física - UFSM

  2. INTRODUÇÃO Os métodos e técnicas estatísticas são utilizados em Climatologia basicamente para analisar o tempo passado com o objetivo de inferir sobre o provável comportamento futuro de alguma variável. A aplicação de técnicas estatísticas tem a vantagem de compactar o enorme volume de dados, medidos, por exemplo, em uma estação, em uma simples tabela ou uma equação, capaz de resumir todas as informações de modo a facilitar as inferências sobre os dados.

  3. UM POUCO DE HISTÓRIA Surgiu na Antigüidade e se desenvolveu paralelamente à própria civilização humana. Há mais de 3.000 anos AC, os antigos egípcios deixaram dados estatísticos sobre seus povos gravados em monumentos históricos daquela época, principalmente nas famosas pirâmides. Os chineses realizaram um censo demográfico no ano 2.275 AC e, bem mais tarde, os romanos no ano 556 AC, também realizaram trabalho bastante semelhante.

  4. Nessas épocas, os censos concentravam-se basicamente no levantamento do número de habitantes, nascimentos, óbitos e forças guerreiras, pois seus objetivos eram voltados a fornecer dados confiáveis aos então governantes. Na era Cristã, principalmente no primeiro milênio, houve também diversos censos demográficos, notadamente em Israel e alguns países do ocidente.

  5. Entretanto, a partir do século XVI, a estatística começou a ganhar importância, passando a ser estudada por matemáticos e filósofos e, conseqüentemente, foi introduzida nos currículos das universidades. DEFINIÇÃO É uma coleção de métodos para planejar experimentos, obter dados e organizá-los, resumi-los, analisá-los, interpretá-los e deles extrair conclusões.

  6. CONCEITOS IMPORTANTES População: é uma coleção completa de todos os elementos a serem estudados. Ex: conhecer a altura de todos os habitantes do Brasil. Amostra: é uma sub-coleção de elementos extraídos de uma população. Ex: conhecer a altura de um conjunto de habitantes do Brasil. Quando o estudo trata de dados meteorológicos, temos em mãos uma amostra, pois não conhecemos a população, pois não há o registro contínuo dos dados desde a origem do planeta.

  7. Quando trabalhamos com amostras, os resultados obtidos nos cálculos estatísticos são utilizados para fazer inferências (generalizações) sobre a população. Exemplo: Cera e Ferraz, 2007

  8. DISTRIBUIÇÃO DE FREQUÊNCIAS

  9. DISTRIBUIÇÃO DE FREQUÊNCIAS Precisamos manipular grande quantidade de dados. Estes devem ser organizados de tal forma a facilitar o trabalho do investigador do fenômeno. Devemos dispô-los de forma que consigamos extrair de maneira fácil informações como: maior e menor temperatura, quantos dias tiveram temperaturas acima ou abaixo de um determinado valor, etc. Para tanto, é elaborado uma distribuição de freqüências.

  10. A distribuição de frequências é uma tabela que relaciona categorias ou classes de valores, juntamente com contagens ou frequências do número de valores que se enquadram em cada categoria. A distribuição de frequências pode ser representada através de um histograma, que é um gráfico cujas bases são os limites das classes e as alturas são as frequências.

  11. ELABORAÇÃO DE UMA DF

  12. Passo 1: Ordenar os elementos dos dados brutos em ordem crescente, indicando a freqüência absoluta de cada elemento. Dados brutos:São as observações. Freqüência absoluta:número de vezes que um valor aparece num conjunto de dados. Passo 2: Determinar o número de intervalos de classe (K) – Usar regra de Sturges: K = 1+3,3 (log10 n) K = 1+3,3 (log10 31) K = 1+3,3 (1,49) K = 5,9  6 Portanto, a distribuição de freqüências será constituída de 6 intervalos de classe.

  13. Passo 3: Determinar a amplitude dos intervalos de classe (h): Sendo K o número de intervalos de classe e xmáxe xmínsão respectivamente o maior e o menor valor do conjunto de dados. h  1,7

  14. MEDIDAS DE POSIÇAO OU DE TENDÊNCIA CENTRAL

  15. MEDIDAS DE TENDÊNCIA CENTRAL É impossível manipularmos todos os elementos da seqüência de dados, a não ser que sejam poucos. É importante sabermos onde os valores da seqüência se concentram, facilitando assim a análise. As medidas de posição ou de tendência central possibilitam determinar o valor localizado no centro ou no meio de um conjunto de dados. Há diferentes maneiras de definir o centro de um conjunto de dados, assim, há diferentes definições de medidas de tendência central como: média, mediana, moda e ponto médio.

  16. MÉDIA ARITMÉTICA Valor obtido somando-se todos os elementos do conjunto e dividindo-se a soma pelo número total de elementos. sendo a média aritmética, xi os dados do conjunto amostral e n o número de valores. A média aritmética depende de todos os valores da série e qualquer alteração de um deles altera seu valor. Esta medida é influenciada por valores extremos, podendo, em alguns casos, não representar a série.

  17. MÉDIA HARMÔNICA Usada como medida de tendência central para conjuntos de dados que consistem em taxas de variação, como por exemplo velocidades. Obtém-se a média harmônica dividindo-se o número n de valores pela soma dos inversos de todos os valores.

  18. MÉDIA GEOMÉTRICA Mais usada na administração e na economia para achar taxas médias de variação, de crescimento, ou razões médias. Dados n valores (todos positivos), a média aritmética é a raiz nmado seu produto. Por exemplo, determina-se a média geométrica de 2, 4, 10 multiplicando-se os três valores – o que dá 80, e tomando-se a raiz cúbica do resultado (porque há três valores). O resultado é 4,3.

  19. MÉDIA QUADRÁTICA É utilizada em geral em experimentos físicos. Em sistemas de distribuição de energia, por exemplo, as tensões e correntes são em geral dadas em termos de sua média quadrática. Eleva-se cada valor ao quadrado, soma-se os resultados, divide-se o total pelo número n de valores e toma-se a raiz quadrada do resultado. Por exemplo, a média quadrática de 2, 4, 10 é 6,3.

  20. MEDIANA É o elemento que ocupa a posição central de uma série de dados. Para encontrá-la os dados devem estar dispostos em ordem crescente ou decrescente. Se a série tiver um número ímpar de dados o valor que estiver ocupando o meio da série será a mediana. Se tiver um número par de dados deve-se extrair a média aritmética dos dois valores centrais, uma vez que, o valor correspondente a mediana acha-se entre eles. A mediana dos dados fornecidos na tabela 1 corresponde a 20,9ºC.

  21. MODA Valor que ocorre com maior freqüência. Identificada apenas observando-se a série nos casos de dados não agrupados. Quando a série possuir dois valores com a mesma freqüência máxima, cada um deles é uma moda, e o conjunto diz-se bimodal. Se mais de dois valores ocorrerem com a mesma freqüência máxima, o conjunto é multimodal. A tabela 1 é multimodal, pois cinco valores (18,3; 18,9; 21,2; 22,4 e 23,2) aparecem com a mesma freqüência máxima.

  22. PONTO MÉDIO O ponto médio é o valor que está a meio caminho entre o maior e o menor valor da série de dados. Para obtê-lo, somamos esses valores extremos e dividimos o resultado por 2, como na expressão a seguir : O ponto médio dos dados da tabela 1 é:

  23. MEDIDAS DE DISPERSÃO OU DE VARIABILIDADE

  24. MEDIDAS DE DISPERSÃO Vimos que um conjunto de valores pode ser sintetizado, por meio de procedimentos matemáticos, em poucos valores representativos. Tais valores podem servir de comparação para dar a posição de qualquer elemento do conjunto. Mas não é o bastante dar uma das medidas de posição para caracterizar perfeitamente um conjunto de valores, pois, mesmo sabendo, por exemplo, que a temperatura média de duas cidades é a mesma, e igual a 24ºC, ainda assim somos levados a pensar a respeito do clima dessas cidades.

  25. Em uma delas a temperatura poderá variar entre limites de muito calor e de muito frio e, haver, ainda, uma temperatura média de 24ºC. A outra poderá ter uma variação pequena de temperatura, mas mantendo uma média de 24ºC. Vemos, então, que a média – ainda que considerada como um número que tem a faculdade de representar uma série de valores – não pode, por si mesma, destacar o grau de homogeneidade ou heterogeneidade que existe entre os valores que compõem um conjunto.

  26. Exemplo: X: 70, 70, 70, 70, 70 Y: 68, 69, 70, 71, 72 Z: 5, 15, 50, 120, 160 Entretanto, é fácil notar que o conjunto x é mais homogêneo que os conjuntos y e z, já que todos os valores são iguais a média. O conjunto y, por sua vez, é mais homogêneo que o conjunto z, pois há menor diversificação entre cada um de seus valores e a média é representativa. Média aritmética = 70

  27. Chamando de dispersão a maior ou menor diversificação dos valores de uma variável em torno de um valor de tendência central. Podemos dizer que o conjunto x apresenta dispersão ou variabilidade nula e que o conjunto y apresenta uma distribuição ou variabilidade menor que o conjunto z. Portanto, para qualificar os valores de uma dada variável, a Estatística recorre às seguintes medidas de dispersão: amplitude total, desvio-padrão e a variância.

  28. AMPLITUDE TOTAL Éa diferença entre o maior e o menor valor deste. Para calculá-la, basta subtrair o menor valor do maior. Quanto maior a amplitude total de um conjunto de dados, maior é a dispersão ou variabilidade dos valores. A amplitude total da tabela é: AT = 25,1 – 16,1 = 9º C É instável, pois se deixa influenciar pelos valores extremos, que são, na sua maioria, devidos ao acaso.

  29. DESVIO-PADRÃO O desvio-padrão e a variância são medidas que fogem a essa falha, pois levam em consideração a totalidade dos valores da variável em estudo, o que faz delas índices de variabilidade bastante estáveis e, por isso mesmo, os mais geralmente empregados. Assim, pode-se definir o desvio-padrão como uma medida da magnitude do espalhamento ou dispersão dos dados em relação à média da série.

  30. O cálculo do desvio-padrão amostral (s) é: Para o desvio-padrão populacional () é: Observa-se que para a população é substituído por  e n-1 por N. Uma regra que auxilia na interpretação do valor de um desvio-padrão é a regra empírica, aplicável somente a conjuntos de dados aproximadamente em forma de sino.

  31. A REGRA 68-95-99

  32. A REGRA 68-95-99 PARA OS DADOS DA TABELA

  33. VARIÂNCIA É uma medida estatística da dispersão dos dados em torno da média de um conjunto de dados. É obtida quando não extraímos a raiz quadrada do desvio-padrão. A variância amostral é definida como: a variância populacional é: A variância dos dados da tabela 1 é 4,86º C.

  34. SEPARATRIZES

  35. SEPARATRIZES A mediana caracteriza uma série de valores devido à sua posição central. Além disso, ela separa a série em dois grupos que apresentam o mesmo número de valores. Existem outras medidas que não são medidas de tendência central, mas estão ligadas à mediana relativamente à sua segunda característica, já que se baseiam na sua posição na série.

  36. Essa medidas denominadas de quantis ou fractis, são juntamente com a mediana, conhecidas pelo nome genérico de separatrizes. O quantil, por sua vez, é o nome genérico para outras medidas, como as que dividem o conjunto de dados em 4, 10 ou 100 partes, por exemplo. Estas são denominadas de quartil, decil e percentil, respectivamente.

  37. Os três quartis Q1, Q2 e Q3 dividem o conjunto dos dados em quatro subconjuntos de tal forma que: Os decis dividem o conjunto de dados em 10 partes iguais. Os nove decis D1, D2, D3,..., D9 são tais que 10% dos elementos situam-se abaixo de D1, 10% entre D1 e D2 e assim por diante. A mediana é o quinto decil. Os percentis dividem o conjunto dos dados ordenados em 100 partes iguais. A mediana é o qüinquagésimo percentil.

  38. OBTENÇÃO DOS QUANTIS 1. dispor os dados em ordem crescente; 2. colocar um n° de ordem para cada valor (i=1, ..., i=N); 3. determinar a ordem quantílica: Pi=i/(N+1) 4. calcular o quantilQ(P) para uma ordem quantílicaPi: a) se P coincidir com algum Pi já obtido, então: Q(P)=Q(Pi)=yi b) se P não coincidir, haverá um índice i tal que Pi<P<Pi+1, onde Q(P) será obtido por interpolação, onde: Q(P)=yi+{[P-Pi]/[Pi+1-Pi]}*[yi+1-yi]

  39. Exemplo: Dados: 104, 5, 43, 123, 58, 63, 12, 71 e 32; O quartil inferior Q(0,25),o superior Q(0,75) e o primeiro tercil Q(0,333) são:

  40. Q(0,25)=[Q(0,20)+Q(0,30)]=(12+32)/2=22 Q(25%) = 22 Q(0,75)=[Q(0,70)+Q(0,80)]=(71+104)/2=87,5 Q(75%)=87,5 O primeiro tercil está entre 30% e 40%, cujos quantis respectivos são 32 e 43, portanto: Q(P)=yi+{[P-Pi]/[Pi+1-Pi]}*[yi+1-yi] Q(33,3%)=32+{[33,3-30]/40,0-30,0]}*[43-32] =32+(3,3/10,0)*11 = 35,63

  41. ANÁLISE DE SÉRIES TEMPORAIS

  42. SÉRIE TEMPORAL Éum conjunto cronológico (ordenado no tempo) de observações, por ex.: registros de temperatura diária de uma cidade, as vendas diárias de uma loja, a temperatura de um paciente a cada hora, entre outros. A análise de tais dados tem por objetivo determinar se eles apresentam algum padrão não-aleatório. Por vezes, o que se deseja é, realmente localizar esses padrões não-aleatórios, que podem então ser usados para predições quanto ao futuro.

  43. Outras vezes, o objetivo é constatar a ausência de padrões não aleatórios. Nesses casos, os padrões não-aleatórios são encarados como um sinal de que determinado sistema ou processo está fora de controle. A análise de séries temporais (AST) tem grande importância como informação para a previsão do futuro. O estudo do comportamento das variações ocorridas no passado em dados de interesse permite-nos prever as variações que poderão ocorrer no futuro.

  44. OBJETIVOS DA AST Descrição: consiste em conhecermos o comportamento de uma ST. O primeiro passo na análise é elaborar o gráfico da série temporal com o objetivo de observar as principais propriedades da série como: tendência, ciclo sazonal e valores extremos (valores que não parecem consistentes com os demais). Explicação: quando as observações são tomadas de duas ou mais variáveis, podemos estar interessados em saber se a variação de uma série pode explicar a variação das outras.

  45. OBJETIVOS DA AST Previsão: dada uma série temporal observada, pode-se querer prever os valores futuros desta. Controle: implica na geração de séries temporais para medir a qualidade de um processo. Exemplo: medir o peso de um determinado produto após ser embalado para o consumo. Isto tem como objetivo saber se está sendo embalado com excesso ou falta.

  46. SÉRIES TEMPORAIS E ESPACIAIS Quando medidas em um ponto fixo sobre um período de tempo, a série é chamada de série temporal. Medidas em um tempo fixo sobre uma série de localidades no espaço originam uma série espacial. Ambas as séries fornecem medidas de uma variável dependente tal como a temperatura ou umidade como função de uma variável independente, tal como o tempo, t, ou local, x.

  47. SÉRIES CONTÍNUAS E DISCRETAS Uma série temporal é dita contínua quando as observações são feitas continuamente no tempo. A série temporal constituída por medidas tomadas em intervalos de tempo espaçados regularmente, até um número finito de N dados é denominada série discreta. O período total de medidas em uma série discreta é P = Nt, ou seja, o número total de dados multiplicado pelo intervalo de tempo em que os dados são medidos.

  48. FUNÇÕES DETERMINÍSTICAS E NÃO-DETERMINÍSTICAS Uma série temporal pode ser uma função x aleatória ou não-determinística de uma variável independente t. Na maioria das situações, a função x(t) será uma função do tempo, mas em outras situações pode ser uma função de outro parâmetro físico, como por exemplo, do espaço. Uma característica das séries temporais é que seu comportamento futuro não pode ser previsto exatamente, como seria o caso de uma função ‘determinística’ do tempo.

  49. Se medirmos a temperatura do ar todos os dias e verificarmos a presença de um ciclo diurno. Entretanto, não conseguimos determinar uma relação determinística que possa ser ajustada a cada intervalo dessa série de dados porque diversos fatores podem estar causando variações nessa medida (exemplo, nebulosidade, entradas de frentes, alteração dos ventos por circulações locais, etc.). Se compararmos uma série temporal de temperatura em um determinado sítio em dois anos distintos, podemos verificar visualmente que esses dois trechos da série não se parecem um com outro.

More Related