top of page


Data Lake ou Lakehouse : distinctions dans l'architecture de données moderne
Dans un monde axé sur les données, les organisations sont confrontées à des défis liés au volume et à la complexité considérables des données. Deux grands frameworks, les lacs de données et les lakehouses, ont émergé pour aider les entreprises à gérer et exploiter efficacement leurs données. Cet article compare clairement ces deux concepts, en soulignant leurs caractéristiques uniques et leurs applications pratiques au sein d'une architecture de données moderne.
Claude Paugh
18 mai8 min de lecture
0


Apache Iceberg et Pandas Analytics : Partie 3
Les deux articles précédents portaient sur l'évaluation d'Apache Iceberg et de ses fonctionnalités, ainsi que sur l'utilisation de PyIceberg pour créer des objets et charger des données. Cet article se concentrera sur l'extraction de données et l'utilisation des dataframes Pandas pour créer des analyses.
Claude Paugh
11 mai5 min de lecture
2


Stockage Apache Iceberg et Pandas Analytics : Partie 1
J'aime généralement essayer de nouvelles choses, et la technologie ne fait pas exception. J'ai donc décidé d'approfondir mes recherches sur les mécanismes d'Apache Iceberg, et plus particulièrement sur l'implémentation Python, PyIceberg.
Apache Iceberg with Industrial Piping
J'ai spécifiquement examiné certains éléments clés qui font généralement partie des pratiques de gestion des données, quelle que soit la technologie
Claude Paugh
7 mai7 min de lecture
3


Exploiter la puissance de Dask pour des workflows de science des données évolutifs
C'est là qu'intervient Dask. Cette puissante bibliothèque Python est conçue pour le calcul parallèle, facilitant ainsi l'adaptation des workflows des data scientists. Dans cet article, nous allons explorer comment utiliser Dask pour des workflows de data science évolutifs, à l'aide d'exemples clairs et d'informations exploitables.
Claude Paugh
3 mai6 min de lecture
5


Maîtriser les agrégations avec Apache Spark DataFrames et Spark SQL en Scala, Python et SQL
Si vous souhaitez exploiter la puissance du Big Data, Apache Spark est le framework idéal. Il offre des API robustes et un écosystème riche, parfaits pour le traitement de grands ensembles de données. Sa capacité à effectuer des agrégations à l'aide de DataFrames et de Spark SQL en fait un outil précieux. Cet article vous guidera dans la réalisation d'agrégations avec Spark DataFrames et Spark SQL, en utilisant Scala et Python. Vous découvrirez des exemples de code pratiques
Claude Paugh
28 avr.4 min de lecture
3


Exploration des cas d'utilisation d'Apache Iceberg et de HDF5 dans la gestion moderne des données
Dans le monde en évolution rapide de la gestion des données, les entreprises sont confrontées au défi de traiter efficacement des quantités de données toujours croissantes. C'est là qu'entrent en jeu deux puissantes solutions de stockage : Apache Iceberg et HDF5. Chacun présente des avantages uniques et aborde différents aspects de la gestion des données. Explorons comment les entreprises peuvent en bénéficier aujourd’hui.
Claude Paugh
22 avr.5 min de lecture
5


Libérez le potentiel d'Apache Iceberg dans les stratégies d'ingénierie des données basées sur le cloud
Dans le monde numérique en évolution rapide d’aujourd’hui, les données sont devenues un atout précieux pour les entreprises. Avec le volume croissant de données, les entreprises ont besoin de solutions innovantes pour traiter efficacement cette richesse d’informations. Parmi ces technologies pionnières figure Apache Iceberg.
Claude Paugh
22 avr.5 min de lecture
3


Bonnes pratiques Apache Spark : Optimisez le traitement de vos données
Apache Spark est un puissant système informatique distribué open source, excellent dans le traitement du Big Data. Reconnu pour sa rapidité et sa simplicité d'utilisation, il est plébiscité par les ingénieurs logiciels et les data scientists.
Claude Paugh
18 avr.4 min de lecture
6


Analyse des données sur les ETF, les fonds communs de placement et la richesse : une introduction
Il y a quelques années, j'ai commencé un travail secondaire que je pensais être amusant : collecter et classer les documents mensuels de la SEC pour les ETF et les fonds communs de placement. Je souhaite automatiser le processus de compilation des documents déposés auprès de la SEC à l'aide des dépôts d'index des entreprises et les mettre à jour lors du dépôt.
Claude Paugh
18 avr.5 min de lecture
3


Collecte de données statistiques avec PySpark : analyse comparative avec Scala
Data processing and statistics gathering are essential tasks in today's data-driven world. Engineers frequently find themselves choosing between tools like PySpark and Scala when embarking on these tasks.
Claude Paugh
18 avr.6 min de lecture
6


Données sur les ETF, les fonds communs de placement et les actionnaires : Récupérer le contenu
If you're a software engineer, there are various SDK's and connectors available. On the other hand if you just want to look at document content, either the built-in "Query" section on the Couchbase console, or a third-party tool that has a driver to connect.
Claude Paugh
17 avr.2 min de lecture
3


Spark Data Engineering : bonnes pratiques et cas d'utilisation
In today's data-driven world, organizations are generating vast amounts of data every second. This data can be a goldmine for insights when processed and analyzed effectively. One of the most powerful tools in this realm is Apache Spark.
Claude Paugh
17 avr.5 min de lecture
6


Avantages de l'ingénierie des données et son impact sur les coûts de l'entreprise
Data architecture refers to the design and organization of data structures and systems within an organization. It defines how data is collected, stored, and used, serving as a blueprint for managing data assets.
Claude Paugh
17 avr.5 min de lecture
5


Données sur les ETF, les fonds d'investissement et les actions : accédez à du contenu analytique
The analytics console looks very much like the query console with the exception of the panels on the right. This is where you can map data structures from the local or remote Couchbase collections as sources. The analytics service makes a copy of the original data, and provides the ability to index it separately from the original source.
Claude Paugh
17 avr.2 min de lecture
3


Calcul parallèle à l'aide de la bibliothèque Python Dask
Dask is a flexible library for parallel computing in Python. It is designed to scale from a single machine to a cluster of machines seamlessly. By using Dask, you can manage and manipulate large datasets that are too big to fit into memory on a single machine.
Claude Paugh
17 avr.3 min de lecture
5
bottom of page