top of page


Apache Iceberg et Pandas Analytics : Partie 3
Les deux articles précédents portaient sur l'évaluation d'Apache Iceberg et de ses fonctionnalités, ainsi que sur l'utilisation de PyIceberg pour créer des objets et charger des données. Cet article se concentrera sur l'extraction de données et l'utilisation des dataframes Pandas pour créer des analyses.
Claude Paugh
11 mai5 min de lecture
2 vues


Stockage Apache Iceberg et Pandas Analytics : Partie 1
J'aime généralement essayer de nouvelles choses, et la technologie ne fait pas exception. J'ai donc décidé d'approfondir mes recherches sur les mécanismes d'Apache Iceberg, et plus particulièrement sur l'implémentation Python, PyIceberg.
Apache Iceberg with Industrial Piping
J'ai spécifiquement examiné certains éléments clés qui font généralement partie des pratiques de gestion des données, quelle que soit la technologie
Claude Paugh
7 mai7 min de lecture
3 vues


Exploiter la puissance de Dask pour des workflows de science des données évolutifs
C'est là qu'intervient Dask. Cette puissante bibliothèque Python est conçue pour le calcul parallèle, facilitant ainsi l'adaptation des workflows des data scientists. Dans cet article, nous allons explorer comment utiliser Dask pour des workflows de data science évolutifs, à l'aide d'exemples clairs et d'informations exploitables.
Claude Paugh
3 mai6 min de lecture
5 vues


Maîtriser les agrégations avec Apache Spark DataFrames et Spark SQL en Scala, Python et SQL
Si vous souhaitez exploiter la puissance du Big Data, Apache Spark est le framework idéal. Il offre des API robustes et un écosystème riche, parfaits pour le traitement de grands ensembles de données. Sa capacité à effectuer des agrégations à l'aide de DataFrames et de Spark SQL en fait un outil précieux. Cet article vous guidera dans la réalisation d'agrégations avec Spark DataFrames et Spark SQL, en utilisant Scala et Python. Vous découvrirez des exemples de code pratiques
Claude Paugh
28 avr.4 min de lecture
3 vues


Exploration des cas d'utilisation d'Apache Iceberg et de HDF5 dans la gestion moderne des données
Dans le monde en évolution rapide de la gestion des données, les entreprises sont confrontées au défi de traiter efficacement des quantités de données toujours croissantes. C'est là qu'entrent en jeu deux puissantes solutions de stockage : Apache Iceberg et HDF5. Chacun présente des avantages uniques et aborde différents aspects de la gestion des données. Explorons comment les entreprises peuvent en bénéficier aujourd’hui.
Claude Paugh
22 avr.5 min de lecture
5 vues


Libérez le potentiel d'Apache Iceberg dans les stratégies d'ingénierie des données basées sur le cloud
Dans le monde numérique en évolution rapide d’aujourd’hui, les données sont devenues un atout précieux pour les entreprises. Avec le volume croissant de données, les entreprises ont besoin de solutions innovantes pour traiter efficacement cette richesse d’informations. Parmi ces technologies pionnières figure Apache Iceberg.
Claude Paugh
22 avr.5 min de lecture
3 vues


Analyse des données sur les ETF, les fonds communs de placement et la richesse : une introduction
Il y a quelques années, j'ai commencé un travail secondaire que je pensais être amusant : collecter et classer les documents mensuels de la SEC pour les ETF et les fonds communs de placement. Je souhaite automatiser le processus de compilation des documents déposés auprès de la SEC à l'aide des dépôts d'index des entreprises et les mettre à jour lors du dépôt.
Claude Paugh
18 avr.5 min de lecture
3 vues
bottom of page