能力领域
数据架构
基于 AWS S3 和 Redshift Spectrum 的数据湖架构和实现。数据来源包括 Salesforce、Five9、Bing API、Google Analytics API、Pardot、结构化文件(JSON、CSV、XML)和 PostgreSQL 关系数据库。
Informatica MDM 元数据管理和基础架构部署,包括 ETL、数据分析、业务数据元素和血缘关系的捕获。
改进了开发方法,提高了开发和测试周期中的数据质量和数据供应效率。数据质量从差提升到优,交付时间从3天缩短到2小时。
使用 Python 与 Salesforce CRM 进行近实时数据集成,在 AWS Redshift 上实现分析数据仓库的维度建模需求捕获和数据库设计。
为 AWS 集成(Talend、Redshift、S3、JMS、Apache Service Mix)创建了数据集成服务和基于事件的 ETL 的解决方案参考架构和实现。
针对全球流媒体服务,设计了用于摄取PB级流式数据(Kinesis)的数据湖。其中包括分区策略(分钟级)和Parquet格式的数据变更修改方案。
在机器学习模型变更期间,通过处理优化和架构增强来确保可扩展性和时间序列值。
使用 Java 和 Python 构建了数据服务的概念验证 Web 服务原型。
制定消费者参与数据接口的政策、实践和合同
为关系型和多维数据库制定了数据建模规范和设计模式指南
问题解决
针对棘手的业务流程重组分析和应用程序性能问题,进行重点分析和问题排查,最终成功解决性能难题,实现了数个数量级的性能提升。
负责管理一个价值 5000 万美元的项目,该项目涵盖资产管理规模超过 1 万亿美元的公司资产管理产品定价的业务运营,并进行性能测试。管理一支由 12 名专注于性能测试的本地和海外团队成员组成的团队。
在一家大型金融机构领导商业智能治理团队,并制定公司发展路线图。负责更新公司软件开发生命周期(SDLC)方法论,使其涵盖数据开发交付物(敏捷和瀑布式)。领导商业智能工具的治理和最佳实践推广,包括商业产品和开源产品。
建模与分析
在职业生涯中,我为多个项目进行了概念建模、逻辑建模和物理建模。
为证券、持仓/头寸设计主数据模式,并开发应用程序以计算嵌套投资组合各层级的衍生风险敞口分析。分析计算涵盖了一家大型资产管理公司(资产管理规模达2000亿美元)的所有投资组合。
为一家大型跨国金融机构开发了基于 Python 和 Dask 库的原型分析引擎。验证了构建分布式 Python 分析环境的概念架构,包括与 Azure 的集成。
使用 Python 进行数据集定制、准备和聚合的分析开发
为关系型和多维数据库制定了数据建模规范和设计模式指南
工程
数据库设计,包括 SQL 性能调优、物理数据库设计以及开发,旨在为需要在短时间内交付市场关键数据的高度关键型数据库提供支持。
使用 Apache Kafka 构建了定制化数据管道,用于 Python 进行分析和机器学习 (ML) 开发。在 Apache Spark 集群上开发用于个人身份信息 (PII) 加密的超大型 (50TB) 数据集。使用的 Spark 集群规模最大达到 62 个节点、1950 个 CPU 和 10TB 内存。
在 Redshift 集群上设计和实现针对多 PB 级数据库的模式,该数据库经过优化,可处理数万亿行数据,并且每年增长 25%。
使用 Python 中的 pandas、NumPy 和 SKLearn 库实现了预测性机器学习信用结算模型。该模型负责核心业务的收入增长。
使用 Python、Kubernetes (GKE)、GCP 云函数、存储传输服务 (STS)、Google 云存储 (GCS) 和 Weka 存储设备构建的 Google Cloud Platform (GCP) 端到端管道
多年来,我们致力于Oracle和DB2物理架构的设计和调优,以实现高可用性和高性能应用(数千TPS)。
