Transformação de dados com dplyr

Introdução

Neste blocos de exercícios você vai utilizar o pacote dplyr para responder as questões a seguir, de modo a trabalhar as seguintes habilidades:

  • Filtrar dados (filter)
  • Criar e modificar variáveis (mutate)
  • Sumariar dados (summarise)
  • Organizar os dados em ordem decrescente ou crescente (arrange)
  • Agrupar dados (group_by)

Pacotes necessários

Para fazer estes exercícios, acione os pacotes do tidyverse:

Primeiro bloco de exercícios

Banco de dados

Entre os exercícios 1 e 5, o banco de dados ufo_sightings.csv vai ser empregado. Estes dados trazem informações sobre o avistamento de objetos voadores não identificados (ovinis ou ufo, na sigla em inglês). Os dados vêm do National UFO Reporting Center, limpos e enriquecidos com dados da sunrise-sunset.org por Jon Harmon.

O livro de códigos dos dados inclui 11 variáveis:

Variável Classe Descrição
reported_date_time datetime A hora e data do avistamento, conforme aparece nos dados originais do NUFORC.
reported_date_time_utc datetime A hora e data do avistamento, normalizadas para UTC.
posted_date datetime A data em que o avistamento foi publicado no NUFORC.
city character A cidade do avistamento. Alguns deles foram limpos dos dados originais.
state character O estado, província ou divisão semelhante do avistamento.
country_code character O código de 2 letras do país do avistamento, normalizado a partir dos dados originais.
shape character A forma da nave relatada .
reported_duration character A duração relatada do evento, nas palavras da testemunha.
duration_seconds double A duração normalizada para segundos usando regex.
summary character O resumo do evento relatado.
has_images logical Se o avistamento possui imagens disponíveis no NUFORC.
day_part character A parte aproximada do dia em que o avistamento ocorreu, com base na data e hora informadas, no local e nos dados de sunrise-sunset.org. A latitude e a longitude foram arredondadas para o dígito 10, e a data foi arredondada para a semana, para corresponder a pontos de tempo como “crepúsculo náutico”, “nascer do sol” e “pôr do sol”.

Obtenção dos dados do primeiro bloco de exercícios

Para obter os dados, execute o código a seguir:

ufo <- read_csv("https://tinyurl.com/ufo-avist")

Exercício 1

Considere a coluna intitulada reported_date_time_utc e filtre as linhas para todos os avistamentos ocorridos após 10 de setembro de 19931.

Conte o número de avistamentos de ovnis com formato chevron por cada estado dos EUA (US) e classifique em ordem decrescente.

Qual o número de avistamentos do segundo estado dos EUA com maior número de aparições de ovnis com formato chevron?

Dica
ymd("1993-9-10")

Exercício 2

Os avistamentos ocorrem em diversos estados dos EUA. Qual o tempo médio de duração (em horas) do estado que mais tem avistamentos de objetos com o formato cigar?

Exercício 3

Em qual parte do dia os avistamentos tem maior tempo de duração médio?

Exercício 4

Qual o ano com maior número de avistamentos nos EUA?

Dica
year(reported_date_time_utc)

Exercício 5

Qual a quinta cidade dos EUA com o maior número de avistamentos? Em qual estado ela fica localizada?

Segundo bloco de exercícios

Banco de dados

Entre os exercícios 6 e 13, o banco de dados noaa_data vai ser empregado. Estes dados trazem informações sobre desastres naturais nos Estados Unidos vindos do U.S. National Oceanic and Atmospheric Administration’s (NOAA). A versão aqui utilizada foi limpa e simplificada, de modo que seu livro de códigos inclui 7 variáveis:

Variável Classe Descrição
year double Ano em que ocorreu o evento
state character Sigla do estado em que o evento ocorreu
evtype character Tipo de evento
fatalities double Número de mortes decorrentes do evento
injuries double Número de feridos deixados pelo evento
propdmg double Montante em dólar dos prejuízos a propriedades em decorrência do evento
cropdmg double Montante em dólar dos prejuízdos a plantações em decorrência do evento

Obtenção dos dados do segundo bloco de exercícios

Para obter os dados, execute o código a seguir:

eventos <- read_csv("https://tinyurl.com/noaa-clean")

Exercício 6

Em qual ano houve o maior número de pessoas feridas em decorrência de desastres naturais nos Estados Unidos? Qual tipo de evento que causou esses ferimentos?

Exercício 7

Em qual ano houve o maior número de fatalidades em decorrência de desastres naturais nos Estados Unidos? Qual tipo de evento causou essas mortes?

Exercício 8

Qual evento levou ao maior número de pessoas feridas nos EUA?

Exercício 9

Qual evento que, em média, levou ao maior número de pessoas feridas nos EUA?

Exercício 10

Qual evento causou o maior número de fatalidades?

Exercício 11

Qual evento que, em média, levou ao maior número de fatalidades nos EUA?

Exercício 12

Qual estado tem o maior prejuízo em relação a plantações causados por desastres naturais nos EUA?

Exercício 13

Qual estado tem, em média, o maior prejuízo a propriedades causado por desastres naturais nos EUA?

Terceiro bloco de exercícios

Banco de dados

No último bloco de exercícios, você vai utilizar um banco de dados toy2 srq_20_simulado.csv que simula uma coleta de dados de participantes que responderam o Self-Reporting Questionnaire-20 (SRQ-20).

O SRQ-20 é uma ferramenta de triagem utilizada para avaliar a presença de Transtornos Mentais Comuns (TMCs) em indivíduos. Ela consiste em um questionário com 20 perguntas que abordam diferentes sintomas e questões relacionadas ao estado emocional e mental das pessoas.

Cada pergunta no SRQ-20 tem duas opções de resposta: “sim” (1) e “não” (0). Dependendo das respostas dadas pelo indivíduo, é possível calcular uma pontuação total que varia de 0 a 20. O ponto de corte comumente utilizado é 7. Isso significa que se a pontuação total do indivíduo for igual ou inferior a 7, ele não apresenta indicativos significativos de Transtornos Mentais Comuns. No entanto, se a pontuação for maior do que 7, isso pode indicar a presença de sintomas que sugerem a necessidade de avaliação adicional ou intervenção profissional para possíveis problemas de saúde mental.

O SRQ-20 é uma ferramenta de triagem amplamente utilizada em contextos clínicos e de pesquisa para identificar sinais iniciais de problemas de saúde mental em uma população. No entanto, é importante observar que o SRQ-20 não é uma ferramenta diagnóstica definitiva. Uma pontuação alta na SRQ-20 indica a possibilidade de problemas de saúde mental, mas um diagnóstico preciso requer avaliação mais aprofundada por profissionais de saúde mental qualificados.

O livro de códigos desse banco simulado mostra as seguintes variáveis:

Variável Classe Descrição
id double Código de identificação do caso no banco de dados
genero character Gênero do participante (masculino ou feminino)
srq1 character Assusta-se com facilidade?
srq2 character Sente-se triste ultimamente?
srq3 character Você chora mais do que de costume?
srq4 character Tem dores de cabeça frequentemente?
srq5 character Você dorme mal?
srq6 character Você sente desconforto estomacal?
srq7 character Sente-se nervoso, tenso ou preocupado?
srq8 character Você tem má digestão?
srq9 character Você tem falta de apetite?
srq10 character Tem tremores nas mãos?
srq11 character Você se cansa com facilidade?
srq12 character Tem dificuldade em tomar decisão?
srq13 character Tem dificuldades de ter satisfação em suas tarefas?
srq14 character O seu trabalho traz sofrimento?
srq15 character Sente-se cansado todo o tempo?
srq16 character Tem dificuldade de pensar claramente?
srq17 character Sente-se incapaz de desempenhar papel útil em sua vida?
srq18 character Tem perdido o interesse pelas coisas?
srq19 character Tem pensado em dar fim à sua vida?
srq20 character Sente-se inútil em sua vida?

Obtenção dos dados do terceiro bloco de exercícios

Para obter os dados, execute o código a seguir:

srq20 <- read_csv("https://tinyurl.com/srq20toy")

Exercício 14

Qual o percentual de casos do banco de dados que tem indicativo de TMCs?

Exercício 15

Qual o percentual de casos com indicativo de tmcs entre os participantes que declararam o gênero feminino?

Exercício 16

Qual a média, o devio padrão, o máximo e mínimo do resultado do SRQ-20 entre todos os participantes?

Exercício 17

Qual a média, o devio padrão, o máximo e mínimo do resultado do SRQ-20 entre s participantes que declararam o gênero masculino?

Notas de rodapé

  1. Esta é a data de estreia da série Arquivo X.↩︎

  2. Um banco de dados toy é um conjunto de dados simulado usado para fins educativos, de demonstração ou de teste, que ajuda a ilustrar tarefas de manipulação de dados, análises estatísticas, dentre outras.↩︎