Migrando entre Python e R? Veja como a IA pode ajudar você Na comunidade de Ciência de Dados, é comum a discussão sobre qual linguagem de programação é melhor: Python ou R. Ambas possuem vantagens e desvantagens e podem ser usadas para uma ampla variedade de tarefas, desde análise exploratória até modelagem preditiva. Mas, na prática, na análise de dados para boa parte das tarefas usuais as duas desempenham muito bem. Bom, suponha que você é muito bom em R, mas vai trabalhar com um time que trabalha em Python >). Até algum tempo atrás você poderia ficar intimidado em ter que aprender uma nova linguagem. Mas hoje em dia com o auxílio dos assistentes de programação você pode ficar bem mais tranquilo. Importante você ter em mente que a escolha entre Python e R geralmente não está apenas nas características técnicas de cada linguagem, mas nas necessidades do time em que você está inserido e nas políticas da sua empresa. R é incrível para análise estatística e visualizações interativas. Python é amplamente utilizado em aprendizado de máquina e integração com sistemas de produção. Seja qual for sua escolha, o importante é estar pronto para se adaptar às demandas do seu projeto e colaborar com sua equipe. Se você está em um cenário onde precisa aprender uma nova linguagem, ferramentas baseadas em IA, como o ChatGPT, Anthropic ou Gemini, podem ser grandes aliados. Esses modelos não apenas ajudam na tradução de códigos entre as linguagens, mas também fornecem explicações claras sobre as diferenças, acelerando seu aprendizado. Super importante é que você consegue aprender já fazendo o que acelera muito o seu desenvolvimento. Vamos ver um exemplo bem simples sobre manipulação de dados: Em R: # Filtrando dados em um data frame library(dplyr) dados <- data.frame(nome = c("Ana", "João", "Maria"), idade = c(23, 35, 29)) dados_filtrados <- dados %>% filter(idade > 25) print(dados_filtrados) Traduzido para Python: # Filtrando dados em um DataFrame import pandas as pd dados = pd.DataFrame({"nome": ["Ana", "João", "Maria"], "idade": [23, 35, 29]}) dados_filtrados = dados[dados["idade"] > 25] print(dados_filtrados) Você também pode pedir à IA que explique as diferenças, como: Em R, utilizamos o pacote dplyr e o operador %>% para manipulações. Em Python, o pacote pandas permite manipulações de forma direta com operadores como [] para filtragem. E você, tem alguma experiência interessante com migração entre Python e R ou vice-versa? Compartilhe nos comentários! Quer saber mais como usar ferramentas de IA dentro da área de dados? Conheça o nosso BootCamp IA para Data Science. Link para inscrição no primeiro comentário.
Ômega Data Academy
E-learning
Curitiba, Paraná 1284 seguidores
Impulsionamos carreiras e negócios com ensino íntegro, didático e aplicado de Data Science
Sobre nosotros
A Ômega escola online de Data Science é uma empresa inovadora da área de educação online que busca formar Cientistas de Dados com forte fundamentação estatística e matemática alinhados com as demandas atuais e futuras do mercado de dados. Nossa missão é impactar carreiras e negócios com uma formação íntegra e fundamentada, com ensino humano, didático e aplicado orientado aos resultados e autonomia profissional do aluno.
- Sitio web
-
https://escola.omegadatascience.com.br
Enlace externo para Ômega Data Academy
- Sector
- E-learning
- Tamaño de la empresa
- De 2 a 10 empleados
- Sede
- Curitiba, Paraná
- Tipo
- Institución educativa
- Fundación
- 2021
- Especialidades
- Cursos EaD, Programação em R, Análise de Dados, Modelagem Estatística, Visualização de Dados, Estatística, Análise de Experimentos, Planejamento de Pesquisas, Análise Multivariada y Implementação Computacional
Ubicaciones
-
Principal
Curitiba, Paraná, BR
Empleados en Ômega Data Academy
Actualizaciones
-
A forma mais simples de programar em shell O shell é uma das ferramentas mais poderosas e versáteis no arsenal de qualquer profissional de tecnologia. Ele é essencial para interagir com sistemas baseados em Unix, como Linux e macOS, e permite realizar tarefas como automação, manipulação de arquivos e diagnósticos de sistemas de forma rápida e eficiente. Apesar de sua importância, muitos ainda sentem dificuldade em aprender ou utilizar o básico do shell. Neste artigo, vou discutir algumas tarefas que saber shell vai te ajudar a executar e mostrar que hoje usando um assistente de código está muito mais fácil aprender shell. Aprender shell é útil pelo menos nas seguintes situações: Automatização de tarefas repetitivas:, Tarefas como mover arquivos, organizar diretórios ou processar logs, podem ser automatizadas com scripts de shell. Eficiência e produtividade: Um comando de shell bem escrito pode realizar em segundos tarefas que levariam minutos ou até horas se feitas manualmente. Maior controle sobre o sistema: Comandos de shell permitem manipular arquivos, processos e configurações do sistema de maneira granular, o que é indispensável para istração de servidores. Interoperabilidade: O shell funciona como um ponto de integração entre diversas ferramentas e linguagens de programação, possibilitando fluxos de trabalho mais robustos. Agendar tarefas na CRON: Você pode usar shell para agendar tarefas no seu sistema operacional. Deploy de soluções: Para o deploy (colocar em produção) por exemplo usando Docker ou criando APIs, saber o básico de shell é fundamental. Todas as etapas do deploy usando Docker, por exemplo, são realizadas usando a linha de comando shell. No entanto, é comum que novos usuários se sintam intimidados pela sintaxe e pelos conceitos do shell. E é aqui que os LLMs entram em cena. Os modelos de linguagem de grande escala, como o ChatGPT podem ser usados para gerar, corrigir e aprimorar códigos de shell. Eles oferecem várias facilidades/vantagens: 1. Geração de códigos sob demanda 2. Explicação e aprendizado interativo 3. Sugestões e boas práticas 4. Detecção e correção de erros 5. Customização para tarefas específicas Mas lembre-se, para aproveitar ao máximo o poder dos LLMs para gerar código você deve: Ser claro nas descrições: Explique claramente o que deseja fazer. Peça explicações: Use o modelo não apenas para gerar código, mas também para entender conceitos e estruturas. Teste os comandos gerados: Pessoal é lógico que você deve sempre testar o código em um ambiente próprio antes de querer por em produção :) Combine aprendizado com prática: Use os códigos gerados como base, mas tente modificá-los e escrevê-los manualmente para solidificar seu conhecimento. Quer aprender mais sobre shell usando LLMs para facilitar a construção de códigos? Confira nosso BootCamp IA para Data Science! Link no primeiro comentário.
-
-
A forma mais fácil de aprender regex! Hoje vou falar sobre uma ferramenta poderosa que muitos desconhecem: expressões regulares ou regex. Regex são padrões usados para localizar, corresponder e manipular texto, o legal é que a mesma sintaxe pode ser usada quase que em qualquer linguagem de programação. Regex executa tarefas complexas de busca de padrão textual usando uma sintaxe específica, por exemplo Validação de entrada: Verificar se um e-mail ou número de telefone está em formato correto. Busca e substituição: Localizar padrões em textos e alterá-los, como converter datas de "DD-MM-YYYY" para "YYYY-MM-DD". Extração de informações: Capturar dados relevantes, como números em relatórios ou URLs em textos. Aplicações são comuns em: Análise de logs: Identificar padrões de erro ou eventos específicos. Web scraping: Extrair informações de páginas da web. Pré-processamento de dados: Limpar e padronizar textos. A sintaxe de uma regex combina caracteres e metacaracteres que definem padrões. Caracteres Literais: Correspondem exatamente ao texto (ex.: cat corresponde a "cat"). Metacaracteres: .: Qualquer caractere (exceto nova linha). ^, $: Início e fim da string. *, +, ?: Repetições (zero ou mais, uma ou mais, zero ou uma). |: Alternativa ("ou"). \: Escapa metacaracteres. Classes de Caracteres: [abc]: Qualquer caractere a, b ou c. [^abc]: Qualquer caractere que não seja a, b ou c. [a-z]: Qualquer letra minúscula de a a z. Quantificadores: {n}: Exatamente n repetições. {n,}: Pelo menos n repetições. {n,m}: Entre n e m repetições. Grupos e Âncoras: (abc): Agrupa como uma unidade. \1: Referências a grupos capturados. \b, \B: Limite e não-limite de palavras. Abaixo deixo um exemplo simples em python import re # Validar e-mail email = "[email protected]" if re.match(r"^[\w\.-]+@[\w\.-]+\.\w+$", email): print("E-mail válido!") # Substituir números texto = "O preço é 150 reais." novo_texto = re.sub(r"\d+", "XXX", texto) print(novo_texto) # "O preço é XXX reais." # Extrair URLs texto_com_url = "Visite nosso site: https://www.exemplo.com." urls = re.findall(r"https?://\S+", texto_com_url) print(urls) # ['https://www.exemplo.com'] Eu confesso que minha fluência em regex não é das melhores, porém consigo fazer tudo que preciso usando o chatGPT ou Codeium como assistentes de código. Quer aprender mais sobre regex e usar LLMs para facilitar a construção de códigos? Confira nosso BootCamp IA para Data Science! Link no primeiro comentário.
-
-
Prompt que venho usando para documentar meu código. Pessoal hoje quero compartilhar uma estratégia que está me ajudando muito a deixar meu código melhor documentado. Com o crescente uso de IA generativas, usá-las para fazer a parte “chata” da programação é sempre uma ótima ideia. Nos últimos anos eu venho programando principalmente em R e Python. Escrevo muitas funções e aqui está um prompt que venho usando com frequência para documentar minhas funções. “Você é um especialista em programação e documentação de código. Sua tarefa é criar uma documentação clara, detalhada e bem formatada para a função abaixo, de acordo com os melhores padrões de codificação. Inclua as seguintes informações: Descrição geral: O que a função faz. Parâmetros: Liste cada parâmetro com seu nome, tipo esperado, e uma breve explicação do que ele representa. Retorno: O que a função retorna (tipo e descrição). Exemplos: Um ou mais exemplos de uso prático da função. Erros e Exceções: Situações em que erros podem ocorrer e como tratá-los (se aplicável). Aqui está o código: [COLOCO O CÓDIGO AQUI] Certifique-se de que a linguagem da documentação esteja adaptada à linguagem do código (R ou Python), com uso consistente de convenções como roxygen2 para R e docstrings estilo PEP 257 para Python.” Em termos de ferramentas tenho usado muito o GPT-4o e tem funcionado muito bem. O Gemini e o modelo da Anthropic também. Porém, para o último, o plano gratuito acaba super rápido. Eu testei o prompt incluindo um exemplo de função documentada por mim, porém os resultados são muito similares. Então, tenho usado esse prompt mais curto, sem os exemplos. Que tal já começar a usar para documentar as suas funções? Testa e me conta o resultado aqui nos comentários. Tem um prompt ainda melhor? Compartilha comigo! Quer aprender mais sobre engenharia de prompt? Nos dias 04, 05 e 06/02/2025 teremos o primeiro BootCamp: IA para Data Science onde essa e mais técnicas vão ser apresentadas de forma rápida e didática para você já incorporar no seu dia a dia de trabalho. Inscreva-se pelo link no primeiro comentário.
-
Quer programar mais e melhor? Use pair programming Pair programming é uma prática onde dois programadores trabalham juntos em uma tarefa: um escreve o código (“driver”) enquanto o outro revisa e pensa na arquitetura geral (“navigator”). Essa técnica, pode melhorar a qualidade do código e acelerar o aprendizado mútuo. Com os avanços da IA generativa esta prática está ganhando uma nova versão. Ferramentas como GitHub Copilot e ChatGPT, permitem que assistentes de código assumam o papel de “drivers” ou “navigators” em projetos. Por exemplo, você pode usar IA para gerar código rapidamente enquanto revisa e ajusta o trabalho para atender aos requisitos do projeto. Existe uma certa crença e alguns estudos que mostram que o pair programming aumenta o tempo de desenvolvimento, porém reduz bugs, além de eliminar longas revisões de código. Em cenários com assistentes de IA, os benefícios incluem: Aumento da produtividade: IA consegue gerar código muito rapidamente, porém nem sempre o código executa a tarefa que você realmente quer. Por isso, o papel do “navigator” ou revisor. em tempo real: Sugestões instantâneas ajudam a resolver problemas mais rapidamente. É claro, como tudo que envolve um assistente virtual, alguns cuidados devem ser tomados: Revisão é essencial: IA pode gerar código incorreto; Orientação clara: Use prompts detalhados para obter soluções relevantes. Equilíbrio: Não dependa exclusivamente da IA; combine-a com expertise humana. Algumas ferramentas que já usei incluem: GitHub Copilot, ChatGPT, Codeium, Cline, Claude 3.5 Sonnet, Gemini e tem mais um monte. Como pair programming todas funcionam muito bem. Eu gosto do ChatGPT com o modelo GPT-4o. Para configurações de APIs do próprio Google o Gemini parece ser um pouco melhor (minha percepção). Uma tarefa que realizei desta forma foi criar um script que: i) encontra conteúdos virais no TikTok que são marcados como “original sound”; ii) faz do conteúdo; iii) extrai o áudio do conteúdo; iv) avalia se no aúdio contém uma música ou apenas fala comum; v) se contiver uma música, usa uma API de reconhecimento de música para identificar qual música é; vi) caso não seja possível reconhecer extrai a transcrição do áudio; vii) faz uma busca no Google e/ou Tavily para ver se o conteúdo é encontrado e julga se é uma música ou não; viii) monta um relatório de tudo que foi encontrado e indica potenciais áudios originais (músicas que já fazem sucesso no TikTok, mas ainda não foram registradas). Curtiu essa estratégia? Quer aprender mais sobre ela? Nos dias 04, 05 e 06/02/2025 teremos o primeiro BootCamp: IA para Data Science onde essa e mais técnicas vão ser apresentadas de forma rápida e didática para você já incorporar no seu dia a dia de trabalho. Inscreva-se pelo link no primeiro comentário. Se quiser receber mais conteúdo, assine a minha Newsletter. Link nos comentários. Para os s também mandamos uma versão expandida da matéria publicada no Linkedin.
-
-
ChatGPT, Gemini, DeepSeek... O que são e como estão mudando a área de dados? No ambiente corporativo atual, onde a inovação é essencial, a IA generativa desponta como uma das áreas mais transformadoras. Ferramentas como ChatGPT, Gemini, Cloud Sonnet e DeepSeek exemplificam modelos capazes de gerar texto, voz, vídeos e até músicas, e estão tomando um papel importante em várias áreas, e claro a área de dados não é exceção. Como coordenador de duas especializações na área de dados, professor do curso de estatística e ciência de dados e ainda vice-coordenador do mestrado e doutorado em Métodos Numéricos. E atuando como consultor em diversos projetos de dados vejo algumas áreas que estão sendo bastante afetadas pelo uso destas ferramentas: Pré-processamento de Dados: A IA generativa facilita a limpeza, transformação e harmonização de dados provenientes de múltiplas fontes, como APIs e bancos de dados, otimizando processos complexos. Automatização de Tarefas: Scripts gerados por IA automatizam etapas repetitivas, como extração e filtragem de dados, permitindo criar pipelines mais confiáveis e eficientes. Um exemplo aqui que tenho trabalhado bastante é a tradução de vídeos inclusive com a inclusão de dublagem gerado por IA generativa. Geração de Dados Sintéticos: Apesar de controversa, a criação de dados sintéticos para treinamento de modelos pode preservar a privacidade, embora sua eficácia ainda seja debatida. Eu particularmente, não acredito muito no uso de dados sintéticos para realmente criar modelos novos. Para estudo, entender a estrutura de um problema até podem ser úteis. Mas como tudo está mudando muito rápido, quem sabe! Análise de Texto: Tarefas antes demoradas, como análise de sentimento e classificação de tópicos, agora são realizadas rapidamente com LLMs. O processo se resume a uma chamada de API e um certo processo de tentativa e erro na elaboração do prompt ideal. Mas respondendo a pergunta do título da matéria: Na minha opinião a IA generativa está aumentando significativamente a produtividade dos Cientistas de Dados. Eu senti um aumento significativo na minha produtividade e muito importante na qualidade/reprodutibilidade do meu código. E você, como enxerga o impacto da IA generativa na sua área? Deixe seu comentário. Quer aprender sobre ferramentas de IA generativa para aumentar a sua produtividade na tarefa de analisar dados? Conheça o nosso BootCamp IA para Data Science. Link no primeiro comentário! Quer saber mais sobre aspectos da IA generativa dentro da área de estatística, matemática, programação e ciência de dados em geral me add. Para receber as notificações de novas publicações e outros assuntos, se inscreva na minha Newsletter. Link nos comentários!
-
-
Pessoal venho estudando muito sobre o ambiente de aprendizado de máquina e aplicações de inteligência artificial de forma geral nos últimos dois anos. Além da parte técnica por baixo dos modelos, tenho visto inúmeras novas ferramentas surgindo. Sendo assim, decidi começar a escrever uma série de matérias reportando aspectos interessantes de diversas ferramentas. Meu foco é sempre em ferramentas que ajudem de alguma forma o dia-a-dia de quem analisa dados em algum sentido. Seja você um Cientista/Analista de dados profissional ou um pesquisador de alguma outra área ou mesmo um entusiasta da área de dados essas matérias podem ser legais para você ter uma ideia geral sobre novas ferramentas. Hoje eu vou falar sobre o Hugging Face, cujo website oficial é o seguinte huggingface.co. O Hugging Face (HF) é uma plataforma e comunidade de machine learning (ML) e ciência de dados que facilita a criação, treinamento e implantação de modelos de ML. Às vezes o pessoal chama o HF do "GitHub da inteligência artificial", o HF permite que desenvolvedores compartilhem, testem e implementem seus modelos em aplicações reais de forma colaborativa. A plataforma tem uma biblioteca Python Transformers, que simplifica o , treinamento e uso de modelos de ML, que ajuda muito na criação de fluxos de trabalho e pipelines de aprendizado de máquina. Por que eu curti HF? Open Source: É muito fácil compartilhar modelos e conjunto de dados, o que incentiva a pesquisa. Sustentabilidade: Reduz o tempo de treinamento, o consumo de recursos e o impacto ambiental. Esse é um ponto importante, e para nós pesquisadores/usuários com poucos recursos computacionais. Usar um modelo já treinado e melhorá-lo em algum sentido requer menos recursos do que treinar um modelo do zero completo. Ferramentas de Implantação: Facilita a integração de modelos em aplicações práticas. Esse aspecto ajuda muito quem não vem de uma formação sólida em computação a colocar os modelos “pra rodar” o famoso deploy. Alguns aspectos históricos interessantes é que o HF foi fundado em 2016 em Nova York por Clément Delangue, Julien Chaumond e Thomas Wolf, a empresa começou como um aplicativo de chatbot voltado para adolescentes antes de se reinventar como uma plataforma de machine learning. Atualmente, o HF é apoiado por gigantes como Google, Amazon e Nvidia, e em 2023 firmou uma parceria estratégica com a AWS para integrar suas soluções ao ecossistema da Amazon. Se você trabalha com IA, o HF é uma ferramenta super interessante para você ganhar tempo usando modelos prontos! Eu estou particularmente interessado em séries temporais atualmente, então encontrei uma série de modelos para esta tarefa. Mas esse é assunto para uma próxima matéria. Se você quer saber mais sobre Machine Learning, inteligência artificial, data science e tudo que está em volta destes tópicos me segue aqui no Linkedin. E se quiser pode receber as matérias por email. Deixei nos comentários o link para se inscrever na minha Newsletter.
-
-
Inferência estatística é o estudo de uma função! Muitos analistas de dados, mesmo experientes, ficam confusos com conceitos básicos de Inferência Estatística, como erros padrões, estatísticas de testes e p-valores. Há quem acredite que a Inferência Estatística se resume a testar hipóteses ou construir intervalos de confiança. Na verdade, trata-se de uma estratégia para tomar decisões usando dados em situações incertas. Todas as tarefas da Inferência Estatística podem ser explicadas por meio da função de verossimilhança. Inferência estatística envolve a estimativa de parâmetros populacionais a partir de dados amostrais, supondo uma amostra aleatória simples de uma população definida. Mesmo para algoritmos de aprendizado de máquina, entender essas suposições é fundamental. Definimos a variável de interesse e usamos amostras para aprender sobre os parâmetros populacionais. Assumimos um modelo probabilístico, parametrizado por um ou mais parâmetros. Estimamos esses parâmetros e esperamos que o modelo represente bem a população. Isso nos leva aos métodos de Inferência Estatística, especialmente o método da Máxima Verossimilhança, baseado na função de verossimilhança. A função de verossimilhança é a distribuição conjunta das variáveis aleatórias do modelo, vista como função dos parâmetros com base nos dados observados. Ela mede a compatibilidade dos dados com o modelo, e buscamos os valores dos parâmetros que maximizam essa compatibilidade. O ponto máximo indica o valor mais compatível com a amostra observada, mas valores próximos também são aceitos, formando o intervalo de confiança. Um teste de hipótese define um valor para o parâmetro sob a hipótese nula. Testar uma hipótese é medir a distância entre o valor sob a hipótese nula e o valor mais compatível com a amostra. Se a distância for pequena, não rejeitamos a hipótese nula; se for grande, rejeitamos. A figura do post mostra três formas de medir a distância entre o valor sob a hipótese nula e o ponto máximo da verossimilhança, cada uma levando a um teste de hipótese diferente e potencialmente a conclusões distintas. Quer saber mais sobre Inferência Estatística? Conheça o primeiro curso do Brasil 100% dedicado ao tema, 100% online com aulas gravadas. Comece hoje! Dúvidas? Me chame no privado.
-
-
Por que criei o primeiro curso de Inferência Estatística Avançada do Brasil? Em 2016, retornei ao Brasil após três anos na Europa, onde tive a oportunidade de concluir meu doutorado em Matemática na Syddansk Universitet, em Odense, na Dinamarca. Durante esse período, atuei como pesquisador visitante na University of Franche-Comté, na França, e na National University of Ireland. Em todas essas universidades e nos diversos eventos científicos dos quais participei como palestrante, a análise de dados foi um tema central. Ao voltar para o Brasil, a Ciência de Dados estava em plena ascensão, com diversos cursos, majoritariamente online, surgindo. No entanto, ao analisar o conteúdo desses cursos, fiquei decepcionado com a abordagem simplista de muitos instrutores, que tratavam métodos estatísticos como “receitas de bolo”. Além disso, muitos cursos de ciência de dados apresentavam a estatística de forma semelhante aos cursos de graduação no Brasil, evidenciando um conhecimento limitado dos instrutores, que pareciam não compreender a criação e o pensamento analítico por trás das técnicas estatísticas. Para mitigar esse cenário, criei, junto com um grupo excelente de professores, um dos primeiros programas de especialização em data science e big data do Brasil. Estamos caminhando para a nossa nona turma, tendo formado mais de 200 especialistas em Ciência de Dados. Contudo, nosso programa é presencial, o que limita seu alcance geográfico. Em 2021, impulsionado pela pandemia de Covid-19, iniciei uma nova fase, criando cursos online. O objetivo era disponibilizar um conhecimento estatístico real para um público mais amplo, ajudando a afastar a área de Ciência de Dados dos cursos estilo “receita de bolo”. Nesse contexto, desenvolvi vários cursos, incluindo o primeiro e mais completo curso de Inferência Estatística do Brasil. O curso "Inferência Estatística Avançada: Uma abordagem baseada na verossimilhança" condensa meus 14 anos de experiência ensinando estatística em níveis de graduação, especialização, mestrado e doutorado. Baseia-se nos cursos que fiz durante meu mestrado e doutorado. Criei esse curso para capacitar profissionais com uma ferramenta essencial para a tomada de decisões informadas e baseadas em dados, impulsionando o sucesso de negócios e projetos em diversos setores. Além disso, visa mostrar para profissionais não estatísticos a importância de pensar como um estatístico. Quer saber mais sobre o curso? O link está no primeiro comentário. Qualquer dúvida, adicione-me e me chame no privado para conversarmos.
-