Del curso: Linguagem de Programação R para Ciência de Dados: Formação Básica
Pré-processamento (dataprep), o que é?
Del curso: Linguagem de Programação R para Ciência de Dados: Formação Básica
Pré-processamento (dataprep), o que é?
Neste vídeo falaremos sobre pré-processamento de dados. Nesta etapa, também conhecida pela abreviação "dataprep", de Data Preparation, procuramos garantir que as informações estejam retratando de forma apropriada as variáveis que se propõem a representar. Do ponto de vista ferramental, não precisaremos de muitos recursos novos, porém precisaremos, sim, de um novo olhar sobre os dados, procurando agora garantir qualidade na informação. Veremos, agora, algumas das ações que podem ser relacionadas com esta etapa. Temos desde ações relacionadas à importação dos dados, como tratamento de registros inválidos ou identificação na unidade de análise, ações relacionadas ao perfil, como gerar metadados ou corrigir formatações incorretas, a limpeza propriamente dita, como a remoção de colunas irrelevantes ou filtrar observações que estejam fora do escopo de análise e, por fim, as ações que costumam realmente receber a denominação de pré-modelagem, como a aplicação de codificações, padronizações ou tratamento de dados faltantes. Este último bloco recebe esse nome pois muitas dessas ações são condicionais necessárias para aplicar alguns algoritmos de modelagem. Vale comentar que essa etapa aqui dá trabalho. Algumas estimativas indicam que até 80% do tempo numa análise de dados pode se concentrar aqui, na investigação, entendimento e endereçamento dos problemas, mas perceba também que trata-se de uma etapa extremamente necessária. Afinal, de que adianta a análise de dados se o dado em si não for confiável?
Practica mientras aprendes con los archivos de ejercicios.
Descarga los archivos que el instructor utiliza para enseñar el curso. Sigue las instrucciones y aprende viendo, escuchando y practicando.
Contenido
-
-
-
-
-
-
-
-
-
Pré-processamento (dataprep), o que é?1 min 51 s
-
(Bloqueado)
Pré processamento de dados no R2 min 55 s
-
(Bloqueado)
Tratando dados faltantes e imputação de dados (missing)4 min 19 s
-
(Bloqueado)
Feature engineering, o que é?3 min 2 s
-
(Bloqueado)
Feature engineering no R, trabalhando com datas, textos e fatores4 min 10 s
-
(Bloqueado)
Considerações finais37 s
-
-
-
-