top of page


Apache Iceberg et Pandas Analytics : Partie 3
Les deux articles précédents portaient sur l'évaluation d'Apache Iceberg et de ses fonctionnalités, ainsi que sur l'utilisation de PyIceberg pour créer des objets et charger des données. Cet article se concentrera sur l'extraction de données et l'utilisation des dataframes Pandas pour créer des analyses.
Claude Paugh
11 mai5 min de lecture
2 vues


Stockage Apache Iceberg et Pandas Analytics : Partie 1
J'aime généralement essayer de nouvelles choses, et la technologie ne fait pas exception. J'ai donc décidé d'approfondir mes recherches sur les mécanismes d'Apache Iceberg, et plus particulièrement sur l'implémentation Python, PyIceberg.
Apache Iceberg with Industrial Piping
J'ai spécifiquement examiné certains éléments clés qui font généralement partie des pratiques de gestion des données, quelle que soit la technologie
Claude Paugh
7 mai7 min de lecture
3 vues


Exploiter la puissance de Dask pour des workflows de science des données évolutifs
C'est là qu'intervient Dask. Cette puissante bibliothèque Python est conçue pour le calcul parallèle, facilitant ainsi l'adaptation des workflows des data scientists. Dans cet article, nous allons explorer comment utiliser Dask pour des workflows de data science évolutifs, à l'aide d'exemples clairs et d'informations exploitables.
Claude Paugh
3 mai6 min de lecture
5 vues


Maîtriser les agrégations avec Apache Spark DataFrames et Spark SQL en Scala, Python et SQL
Si vous souhaitez exploiter la puissance du Big Data, Apache Spark est le framework idéal. Il offre des API robustes et un écosystème riche, parfaits pour le traitement de grands ensembles de données. Sa capacité à effectuer des agrégations à l'aide de DataFrames et de Spark SQL en fait un outil précieux. Cet article vous guidera dans la réalisation d'agrégations avec Spark DataFrames et Spark SQL, en utilisant Scala et Python. Vous découvrirez des exemples de code pratiques
Claude Paugh
28 avr.4 min de lecture
3 vues


Libérez le potentiel d'Apache Iceberg dans les stratégies d'ingénierie des données basées sur le cloud
Dans le monde numérique en évolution rapide d’aujourd’hui, les données sont devenues un atout précieux pour les entreprises. Avec le volume croissant de données, les entreprises ont besoin de solutions innovantes pour traiter efficacement cette richesse d’informations. Parmi ces technologies pionnières figure Apache Iceberg.
Claude Paugh
22 avr.5 min de lecture
3 vues


Bonnes pratiques Apache Spark : Optimisez le traitement de vos données
Apache Spark est un puissant système informatique distribué open source, excellent dans le traitement du Big Data. Reconnu pour sa rapidité et sa simplicité d'utilisation, il est plébiscité par les ingénieurs logiciels et les data scientists.
Claude Paugh
18 avr.4 min de lecture
6 vues


Analyse des données sur les ETF, les fonds communs de placement et la richesse : une introduction
Il y a quelques années, j'ai commencé un travail secondaire que je pensais être amusant : collecter et classer les documents mensuels de la SEC pour les ETF et les fonds communs de placement. Je souhaite automatiser le processus de compilation des documents déposés auprès de la SEC à l'aide des dépôts d'index des entreprises et les mettre à jour lors du dépôt.
Claude Paugh
18 avr.5 min de lecture
3 vues
bottom of page