top of page


Data Lake ou Lakehouse: Distinções na Arquitetura de Dados Moderna
No mundo atual, impulsionado por dados, as organizações enfrentam desafios relacionados ao grande volume e à complexidade dos dados. Duas estruturas principais, data lakes e lakehouses, surgiram para ajudar as empresas a gerenciar e aproveitar seus dados de forma eficaz. Este artigo apresenta uma comparação clara de ambos os conceitos, destacando suas características únicas e aplicações práticas na arquitetura de dados moderna.
Claude Paugh
18 de mai.7 min de leitura
0 visualização


7 técnicas fáceis para detectar anomalias no Pandas para análise de dados
A análise de dados é uma jornada empolgante, mas também traz consigo seus desafios. Um dos maiores obstáculos é identificar anomalias — resultados inesperados que podem distorcer nossas conclusões e previsões. Seja analisando dados de vendas ou monitorando o desempenho do sistema, reconhecer essas anomalias é fundamental. Como usuário apaixonado da biblioteca Pandas do Python,
Claude Paugh
14 de mai.4 min de leitura
0 visualização


Apache Iceberg Storage e Pandas Analytics: Parte I
Geralmente gosto de experimentar coisas novas, e com a tecnologia não é diferente. Então, decidi pesquisar mais a fundo a mecânica por trás do Apache Iceberg, e especificamente a implementação do Python, o PyIceberg.
Claude Paugh
7 de mai.7 min de leitura
5 visualizações


Aproveitando o poder do Dask para fluxos de trabalho escaláveis de ciência de dados
É aí que entra o Dask. Esta poderosa biblioteca Python foi projetada para computação paralela, facilitando o dimensionamento de fluxos de trabalho para cientistas de dados. Nesta publicação, vamos nos aprofundar em como usar o Dask para fluxos de trabalho escaláveis de ciência de dados, com exemplos claros e insights práticos.
Claude Paugh
3 de mai.5 min de leitura
3 visualizações


Usos do design de modelagem de cofre de dados
O Data Vault é, na verdade, um paradigma de design, e não uma tecnologia. Pode ser usado em qualquer banco de dados relacional ou datalake. Surgiu do desejo de encontrar uma maneira melhor de armazenar dados e se distanciar dos designs de esquema estrela/cluster/constelação e floco de neve (não da empresa de banco de dados) que são frequentemente usados em data warehouses.
Claude Paugh
2 de mai.9 min de leitura
3 visualizações


Então, use Python Dask para análise e análise de dados
Com a Biblioteca Python Dask, você pode facilmente executar cálculos complexos em big data usando Python. Isso também pode ser alcançado usando CPUs e GPUs econômicas. Portanto, é importante distinguir entre manipulação e pré-processamento de dados, que podem ser realizados na CPU, e operações algorítmicas e processamento de imagem e vídeo, que são mais adequados para a GPU.
Claude Paugh
25 de abr.6 min de leitura
7 visualizações


Como otimizar o acesso a dados para Apache Spark RDD
Otimizar o acesso a dados nos Conjuntos de Dados Distribuídos Resilientes (RDDs) do Apache Spark pode aumentar significativamente o desempenho de aplicações de big data. O uso de estratégias eficazes pode levar a tempos de processamento mais rápidos e melhor utilização de recursos. Neste post, compartilharei técnicas práticas e exemplos reais que me ajudaram a otimizar o acesso a dados ao trabalhar com RDDs.
Claude Paugh
24 de abr.4 min de leitura
8 visualizações


Benefícios da engenharia de dados e seu impacto nos custos empresariais
No cenário digital atual, as empresas dependem fortemente de dados precisos para gerenciar suas operações. No entanto, muitas organizações ignoram a importância de estruturar esses dados de forma eficaz.
Claude Paugh
17 de abr.5 min de leitura
7 visualizações


Dados de ETFs, fundos mútuos e ações: acesso a conteúdo analítico
Mencionei em um post anterior que um dos motivos pelos quais experimentei o Couchbase foi seu serviço de análise integrado. O acesso é feito pelo menu esquerdo da interface do usuário, logo abaixo da opção “Pesquisar”
Claude Paugh
17 de abr.2 min de leitura
4 visualizações


Dados de ETF, fundos mútuos e acionistas: recuperar conteúdo
Como você pode ver no conjunto de resultados acima, as “colunas” representam as chaves do documento JSON subjacente e os valores correspondem aos dados na grade. As referências são as mesmas ao usar uma consulta DataGrid ou Couchbase UI.
Claude Paugh
17 de abr.2 min de leitura
3 visualizações


Spark Data Engineering: Melhores Práticas e Casos de Uso
No mundo atual, orientado por dados, as empresas geram enormes quantidades de dados a cada segundo. Quando processados e analisados de forma eficaz, esses dados se tornam uma fonte valiosa de informações. O Apache Spark é uma das ferramentas mais poderosas neste campo.
Claude Paugh
17 de abr.5 min de leitura
3 visualizações


ETFs, fundos mútuos e análise de dados de ativos: introdução
Há alguns anos, comecei um projeto paralelo que achei que seria divertido: agregar e enviar registros mensais da SEC para ETFs e fundos mútuos. Eu queria automatizar o processo de compilação de registros da SEC usando registros de índice enviados por empresas e atualizá-los conforme eles eram registrados.
Claude Paugh
17 de abr.5 min de leitura
3 visualizações
bottom of page