top of page


数据湖或Lakehouse:现代数据架构的区别
在当今数据驱动的世界中,企业面临着与数据量和复杂性相关的挑战。数据湖和湖屋这两大框架应运而生,旨在帮助企业有效地管理和利用数据。本文对这两个概念进行了清晰的比较,重点介绍了它们在现代数据架构中的独特功能及其实际应用。
Claude Paugh
5月18日讀畢需時 6 分鐘
2 次查看


7 种简单的技术来检测 Pandas 数据分析中的异常
数据分析是一段激动人心的旅程,但也伴随着挑战。最大的挑战之一是识别异常——那些可能扭曲我们结论和预测的意外结果。无论您是在分析销售数据还是监控系统性能,识别这些异常都至关重要。作为 Python Pandas 库的忠实用户,我发现了一些有效识别这些异常的实用技巧。在本文中,我将分享七种可靠的方法,您可以轻松实施这些方法,以增强您的数据分析能力。
Claude Paugh
5月14日讀畢需時 4 分鐘
2 次查看


Apache Iceberg 和 Pandas Analytics:第三部分
前两篇文章主要介绍了 Apache Iceberg 及其功能的评估,以及如何使用 PyIceberg 创建对象和加载数据。本文将重点介绍如何导出数据,以及如何使用 Pandas DataFrame 进行分析。
Claude Paugh
5月11日讀畢需時 5 分鐘
3 次查看


Apache Iceberg 存储和 Pandas Analytics:第一部分
我通常喜欢尝试新事物,技术也不例外。因此,我决定对 Apache Iceberg 的底层机制,特别是它的 Python 实现 PyIceberg 进行更深入的研究。
Apache Iceberg with Industrial Piping
我特别关注了一些通常属于数据管理实践的关键项目,无论采用何种技术
Claude Paugh
5月7日讀畢需時 6 分鐘
5 次查看


利用 Dask 的强大功能实现可扩展的数据科学工作流程
Dask 应运而生。这个强大的 Python 库专为并行计算而设计,使数据科学家能够更轻松地扩展其工作流程。在本文中,我们将深入探讨如何使用 Dask 实现可扩展的数据科学工作流程,并提供清晰的示例和切实可行的见解。
Claude Paugh
5月3日讀畢需時 5 分鐘
5 次查看


数据仓库建模设计用途
Data Vault 实际上是一种设计范式,而非一项技术。它可以用于任何关系数据库或数据湖。它的诞生源于人们渴望找到一种更好的数据仓库方式,摆脱数据仓库中常用的星型/星团/星座型和雪花型(并非数据库公司)模式设计。
Claude Paugh
5月2日讀畢需時 8 分鐘
5 次查看


如何优化 Apache Spark 作业以防止过度改组
在使用 Apache Spark 时,我经常遇到一个常见却又棘手的性能问题:过度的 shuffle。shuffle 会显著降低应用程序的运行速度,因此软件工程师必须找到有效的方法来优化 Spark 作业。通过实践经验和各种技巧,我发现了几种可以显著减少 shuffle 并提升 Spark 作业性能的策略。
Claude Paugh
4月24日讀畢需時 3 分鐘
7 次查看


数据工程的好处及其对业务成本的影响
在当今的数字化环境中,企业严重依赖准确的数据来管理其运营。然而,许多组织忽视了有效地构建这些数据的重要性。这种忽视往往会导致效率下降、资源浪费和运营成本增加。因此,适当的数据架构规划对于最大限度地提高公司数据的价值并最大限度地减少不必要的开支至关重要。本博客探讨了强大数据架构的好处以及忽视商业战略这一关键方面所带来的财务影响。
Claude Paugh
4月17日讀畢需時 4 分鐘
5 次查看
bottom of page