
À PROPOS
Bonjour,
Je m'appelle Claude Paugh et j'ai plus de 25 ans d'expérience dans le secteur des technologies. J'ai débuté ma carrière dans l'infrastructure et les réseaux informatiques, avant de me spécialiser dans le génie logiciel. J'ai quitté le Canada pour les États-Unis pendant la bulle Internet et, depuis plus de 18 ans, je me consacre à l'architecture et à l'ingénierie des données.
Vous trouverez ci-dessous quelques-uns des points forts de ma carrière et de mes projets. Vous pouvez me retrouver sur LinkedIn et sur la page de notre entreprise . Pour plus d'informations, vous pouvez également interroger notre chatbot.
Meilleur,
Claude
Domaines de compétences
Architecture des données
Architecture et mise en œuvre d'un lac de données sur AWS S3 et Redshift Spectrum. Acquisition des données à partir de Salesforce, Five9, l'API Bing, l'API Google Analytics, Pardot, des fichiers structurés (JSON, CSV, XML) et des bases de données relationnelles PostgreSQL.
Gestion des métadonnées et déploiement de l'infrastructure Informatica MDM : gestion ETL, analyse des données, capture des éléments de données métier et de leur traçabilité
J'ai mis en place des améliorations de la méthodologie de développement qui ont permis d'accroître la qualité et la mise à disposition des données lors des phases de développement et de test. La qualité des données est passée de médiocre à excellente et les délais de livraison de 3 jours à 2 heures.
Intégration de données quasi temps réel à l'aide de Python avec Salesforce CRM, capture des exigences de modélisation dimensionnelle et conception de base de données pour un entrepôt de données analytiques sur AWS Redshift.
Création d'architectures de référence et d'implémentations de solutions pour les services d'intégration de données et l'ETL événementiel pour l'intégration AWS (Talend, Redshift, S3, JMS, Apache Service Mix).
Conception d'un lac de données pour l'ingestion de flux de données à l'échelle du pétaoctet (Kinesis) pour un service de streaming mondial. Inclut une stratégie de partitionnement (à la minute) et des modifications des données pour Parquet.
Optimisations du traitement et améliorations de l'architecture pour garantir l'évolutivité et la stabilité des valeurs des séries temporelles lors des modifications du modèle d'apprentissage automatique
Conception d'un prototype de service web (preuve de concept) pour les services de données, utilisant Java et Python.
Élaboration de politiques, de pratiques et de contrats pour l'engagement des consommateurs dans les interfaces de données
Élaboration de conventions de modélisation des données et de lignes directrices relatives aux modèles de conception pour les bases de données relationnelles et multidimensionnelles.
Résolution de problèmes
Analyse ciblée des processus métier complexes et des problèmes de performance applicative. Gestion du tri et de la résolution des problèmes de performance, permettant des gains de performance considérables.
Gestion de projet pour les tests de performance d'un projet de 50 millions de dollars portant sur les opérations commerciales liées à la tarification des produits de gestion d'actifs pour une société gérant plus de 1 000 milliards d'actifs. Encadrement d'une équipe mixte (sur site et à distance) de 12 personnes spécialisées dans les tests de performance.
J'ai dirigé l'équipe de gouvernance de la veille stratégique au sein d'une grande institution financière et défini les orientations stratégiques de l'entreprise. J'étais responsable de la mise à jour des méthodologies de cycle de vie du développement logiciel (SDLC) de l'entreprise, notamment en ce qui concerne les livrables de développement pour les données (méthodes Agile et Waterfall). J'ai piloté la gouvernance des outils de veille stratégique et l'adoption des meilleures pratiques, incluant les solutions commerciales et open source.
Modélisation et analyse
J'ai réalisé la modélisation conceptuelle, logique et physique de nombreux projets tout au long de ma carrière.
Conception du schéma de données de référence pour les titres, les participations/positions et développement d'applications permettant de calculer les analyses d'exposition au risque dérivées à travers les différents niveaux de portefeuilles. Ces calculs analytiques couvraient l'ensemble des portefeuilles d'investissement d'un important gestionnaire d'actifs (200 milliards de dollars d'actifs sous gestion).
Développement d'un prototype de moteur d'analyse utilisant Python et les bibliothèques Dask pour une grande institution financière multinationale. Architecture de preuve de concept pour la création d'un environnement d'analyse Python distribué, incluant l'intégration avec Azure.
Développement d'outils analytiques pour la personnalisation, la préparation et l'agrégation d'ensembles de données à l'aide de Python
Élaboration de conventions de modélisation des données et de lignes directrices relatives aux modèles de conception pour les bases de données relationnelles et multidimensionnelles.
Ingénierie
Conception de bases de données, incluant l'optimisation des performances SQL, la conception physique et le développement de bases de données critiques fournissant des données essentielles au marché dans des délais très courts.
Développement de pipelines de données personnalisés avec Apache Kafka pour l'analyse et le développement de modèles d'apprentissage automatique (ML) en Python. Développement sur des clusters Apache Spark pour des ensembles de données exceptionnellement volumineux (50 To) destinés au chiffrement de données personnelles. Les clusters Spark utilisés pouvaient comporter jusqu'à 62 nœuds, 1 950 processeurs et 10 To de RAM.
Conception et implémentation de schémas sur des clusters Redshift pour une base de données multi-pétaoctets optimisée pour gérer des milliards de lignes avec une croissance annuelle de 25 %.
J'ai implémenté des modèles prédictifs d'apprentissage automatique pour le règlement des crédits en Python, utilisant pandas, NumPy et scikit-learn. Ces modèles ont contribué de manière significative à la génération de revenus pour l'activité principale.
Pipelines de bout en bout de Google Cloud Platform (GCP) construits à l'aide de Python, Kubernetes (GKE), GCP Cloud Functions, Storage Transfer Service (STS), Google Cloud Storage (GCS) et des appliances de stockage Weka.
De nombreuses années d'expérience dans la conception et l'optimisation physique d'Oracle et de DB2 pour des applications hautement disponibles et performantes (des milliers de TPS).