top of page


7 techniques simples pour détecter les anomalies dans Pandas pour l'analyse des données
L'analyse de données est une aventure passionnante, mais elle comporte aussi son lot de défis. L'un des plus grands obstacles est l'identification des anomalies, c'est-à -dire des résultats inattendus susceptibles de fausser nos conclusions et nos prévisions. Que vous analysiez des données de vente ou surveilliez les performances de votre système, il est essentiel de reconnaître ces anomalies. En tant qu'utilisateur passionné de la bibliothèque Pandas de Python, j'ai découvert
Claude Paugh
il y a 3 jours5 min de lecture
Â


Comprendre HDF5 : le format de données polyvalent expliqué avec des exemples
HDF5, ou Hierarchical Data Format version 5, est un format de fichier open source qui permet un stockage et une gestion efficaces de grands ensembles de données. Développé par le groupe HDF, il est largement utilisé dans des domaines variés tels que les sciences, l'ingénierie et l'analyse de données. Sa capacité à gérer des collections de données complexes tout en préservant les relations entre elles en fait un choix de choix pour les professionnels travaillant avec des donné
Claude Paugh
il y a 3 jours4 min de lecture
Â


Optimisation des performances Scala dans Apache Spark à l'aide de Catalyst Optimizer
Dans le monde actuel du traitement des données, Apache Spark s'impose comme une technologie privilégiée pour gérer efficacement les charges de travail de données à grande échelle. Son succès repose en grande partie sur Catalyst Optimizer, un composant essentiel qui peut propulser vos performances de traitement de données vers de nouveaux sommets. Si vous êtes développeur et utilisez Scala pour le traitement de vos données, la maîtrise de Catalyst Optimizer peut améliorer cons
Claude Paugh
il y a 3 jours7 min de lecture
Â


Comment exploiter Python Dask pour un traitement et une analyse de données évolutifs
Dans un monde axé sur les données, traiter et analyser efficacement de grands volumes de données peut représenter un défi majeur pour les ingénieurs logiciels et les data scientists. Les bibliothèques de traitement de données traditionnelles comme Pandas, bien que conviviales, peuvent avoir des difficultés à gérer les vastes volumes de données auxquels de nombreuses organisations sont confrontées. C'est là que la bibliothèque Dask devient essentielle
Claude Paugh
il y a 3 jours8 min de lecture
Â


Utilisations de la conception de la modélisation du coffre-fort de données
Data Vault est un véritable paradigme de conception, et non une technologie. Il peut être utilisé sur n'importe quelle base de données relationnelle ou lac de données. Sa création est née de la volonté de trouver une meilleure façon d'entreposer les données et de s'éloigner des schémas en étoile, en amas d'étoiles, en constellation et en flocon de neige (et non de la société de base de données) fréquemment utilisés dans les entrepôts de données.
Claude Paugh
il y a 3 jours10 min de lecture
Â


ORC vs Parquet : quel format de fichier est le plus flexible dans la confrontation du stockage de données ?
Dans l'univers du Big Data, le choix du format de fichier approprié peut avoir un impact significatif sur la réussite de votre projet. Les performances, l'efficacité du stockage et la convivialité sont autant de facteurs clés qui influencent votre choix. Apache ORC (Optimized Row Columnar) et Apache Parquet sont deux des principaux concurrents dans ce domaine. Cet article explore ces formats en détail, en se concentrant sur leur structure, leurs performances et leurs applicat
Claude Paugh
il y a 3 jours5 min de lecture
Â


Datalake et Lakehouse : comparaison d'Apache Kylin et de Trino pour l'analyse de la veille stratégique
Dans le contexte économique dynamique d'aujourd'hui, disposer des bons outils d'analyse de données et de veille stratégique peut faire toute la différence. Face à l'immense quantité de données disponibles, les entreprises ont besoin de moyens efficaces pour les traiter et les analyser afin d'améliorer leur prise de décision. Apache Kylin et Trino, également connu sous le nom de Presto, sont deux plateformes performantes qui se démarquent dans ce domaine. Bien que toutes deux
Claude Paugh
il y a 4 jours7 min de lecture
Â


Comparaison d'Apache Hive, AWS Glue et Google Data Catalog
S'y retrouver dans le paysage des outils de traitement et de gestion des données peut s'avérer complexe pour les ingénieurs logiciels. Face à la multitude d'options disponibles, il est crucial d'identifier la solution la mieux adaptée à vos besoins spécifiques en matière de workflow. Dans cet article, nous comparerons trois outils populaires : Apache Hive, AWS Glue et Google Data Catalog. En explorant leurs fonctionnalités, leurs complexités et leurs cas d'utilisation idéaux,
Claude Paugh
10 juil.7 min de lecture
Â


Comparaison des formats de fichiers Apache Parquet, ORC et JSON pour le traitement de vos données
Dans l'environnement actuel riche en données, choisir le bon format de fichier peut faire toute la différence. Que vous gériez des projets Big Data, que vous utilisiez du machine learning ou que vous réalisiez des tâches simples liées aux données, il est essentiel de connaître les avantages de chaque format de fichier. Dans cet article, nous explorerons les fonctionnalités, les avantages et les limites uniques de trois formats largement utilisés : Apache Parquet, Apache ORC e
Claude Paugh
10 juil.5 min de lecture
Â


Apache Iceberg, Hadoop et Hive : ouvrez votre Datalake (Lakehouse) -> Partie II
Dans cet article, je vais démontrer l'accès des utilisateurs aux métadonnées Hive et les mécanismes utilisés pour créer des jeux de résultats. J'espère pouvoir vous montrer comment ouvrir les données d'un lac de données ou d'un lachouse aux utilisateurs.
Claude Paugh
24 juin7 min de lecture
Â


Apache Iceberg et Pandas Analytics : Partie 3
Les deux articles précédents portaient sur l'évaluation d'Apache Iceberg et de ses fonctionnalités, ainsi que sur l'utilisation de PyIceberg pour créer des objets et charger des données. Cet article se concentrera sur l'extraction de données et l'utilisation des dataframes Pandas pour créer des analyses.
Claude Paugh
11 mai5 min de lecture
Â


Stockage Apache Iceberg et Pandas Analytics : Partie 1
J'aime généralement essayer de nouvelles choses, et la technologie ne fait pas exception. J'ai donc décidé d'approfondir mes recherches sur les mécanismes d'Apache Iceberg, et plus particulièrement sur l'implémentation Python, PyIceberg.
Apache Iceberg with Industrial Piping
J'ai spécifiquement examiné certains éléments clés qui font généralement partie des pratiques de gestion des données, quelle que soit la technologie
Claude Paugh
7 mai7 min de lecture
Â


Exploiter la puissance de Dask pour des workflows de science des données évolutifs
Dans un monde où les données sont omniprésentes, les organisations sont confrontées à un défi majeur : traiter et analyser efficacement d'énormes quantités de données. Face à l'augmentation des volumes de données (qui devraient atteindre 175 zettaoctets d'ici 2025), les outils de traitement de données traditionnels peinent souvent à suivre le rythme. C'est là qu'intervient Dask. Cette puissante bibliothèque Python est conçue pour le calcul parallèle, facilitant ainsi l'adapta
Claude Paugh
3 mai6 min de lecture
Â


Maîtriser les agrégations avec Apache Spark DataFrames et Spark SQL en Scala, Python et SQL
Si vous souhaitez exploiter la puissance du Big Data, Apache Spark est le framework idéal. Il offre des API robustes et un écosystème riche, parfaits pour le traitement de grands ensembles de données. Sa capacité à effectuer des agrégations à l'aide de DataFrames et de Spark SQL en fait un outil précieux. Cet article vous guidera dans la réalisation d'agrégations avec Spark DataFrames et Spark SQL, en utilisant Scala et Python. Vous découvrirez des exemples de code pratiques
Claude Paugh
28 avr.4 min de lecture
Â


Libérez le potentiel d'Apache Iceberg dans les stratégies d'ingénierie des données basées sur le cloud
Dans le monde numérique en évolution rapide d’aujourd’hui, les données sont devenues un atout précieux pour les entreprises. Avec le volume croissant de données, les entreprises ont besoin de solutions innovantes pour traiter efficacement cette richesse d’informations. Parmi ces technologies pionnières figure Apache Iceberg.
Claude Paugh
22 avr.5 min de lecture
Â


Bonnes pratiques Apache Spark : Optimisez le traitement de vos données
Apache Spark est un puissant système informatique distribué open source, excellent dans le traitement du Big Data. Reconnu pour sa rapidité et sa simplicité d'utilisation, il est plébiscité par les ingénieurs logiciels et les data scientists.
Claude Paugh
18 avr.4 min de lecture
Â


Analyse des données sur les ETF, les fonds communs de placement et la richesse : une introduction
Il y a quelques années, j'ai commencé un travail secondaire que je pensais être amusant : collecter et classer les documents mensuels de la SEC pour les ETF et les fonds communs de placement. Je souhaite automatiser le processus de compilation des documents déposés auprès de la SEC à l'aide des dépôts d'index des entreprises et les mettre à jour lors du dépôt.
Claude Paugh
18 avr.5 min de lecture
Â


Données sur les ETF, les fonds communs de placement et les actionnaires : Récupérer le contenu
Comme vous pouvez le voir dans l'ensemble de résultats ci-dessus, les « colonnes » représentent les clés du document JSON sous-jacent et les valeurs correspondent aux données de la grille. Les références sont les mêmes lors de l'utilisation de DataGrid ou de Couchbase UI Query.
Claude Paugh
17 avr.2 min de lecture
Â


Spark Data Engineering : bonnes pratiques et cas d'utilisation
Dans le monde actuel axé sur les données, les organisations génèrent des quantités massives de données chaque seconde. Ces données constituent une source d’informations précieuse lorsqu’elles sont traitées et analysées efficacement. Apache Spark est l’un des outils les plus puissants dans ce domaine. Ce blog vise à former les ingénieurs de données et les clients potentiels sur l'ingénierie des données Spark, en mettant en évidence les meilleures pratiques et les cas d'utilisa
Claude Paugh
17 avr.5 min de lecture
Â


Avantages de l'ingénierie des données et son impact sur les coûts de l'entreprise
Dans le paysage numérique actuel, les entreprises s’appuient fortement sur des données précises pour gérer leurs opérations. Cependant, de nombreuses organisations négligent l’importance de structurer efficacement ces données. Cette négligence conduit souvent à une réduction de l’efficacité, à un gaspillage des ressources et à une augmentation des coûts d’exploitation. Par conséquent, une bonne planification de l’architecture des données est essentielle pour maximiser la vale
Claude Paugh
17 avr.5 min de lecture
Â
bottom of page