top of page


Apache Sparkジョブを最適化して過剰なシャッフルを防ぐ方法
Apache Spark を使っていると、よくあるけれども難しいパフォーマンス問題にしばしば直面しました。それは、過剰なシャッフルです。シャッフルはアプリケーションの速度を大幅に低下させる可能性があるため、ソフトウェアエンジニアにとって Spark ジョブを効果的に最適化する方法を見つけることが不可欠です。経験と様々なテクニックを駆使することで、シャッフルを大幅に削減し、Spark ジョブのパフォーマンスを向上させるいくつかの戦略を発見しました。
Claude Paugh
7月25日読了時間: 5分


並列計算のための Dask Python ライブラリの活用
Daskは、並列計算タスクの実行を簡素化する革新的なPythonライブラリです。大きな問題をより小さく管理しやすいコンポーネントに分割し、それらのタスクを複数のコア、あるいは複数のマシンに分散させることができます。この記事では、Daskライブラリの使い方、その機能、そしてApache Sparkとの比較について解説します。
Claude Paugh
7月24日読了時間: 7分


Scala、Python、SQL で Apache Spark DataFrames と Spark SQL を使用した集計をマスターする
ビッグデータの力を最大限に活用したいなら、Apache Spark が頼りになるフレームワークです。堅牢な API と充実したエコシステムを備え、大規模データセットの処理に最適です。特に、DataFrame と Spark SQL を用いた集計機能は、Spark を非常に貴重なツールにしています。この記事では、Scala と Python の両方を用いて、Spark DataFrame と Spark SQL を用いた集計の実行方法を解説します。実践的なコード例も紹介し、理解を深めます。
Claude Paugh
7月24日読了時間: 5分


スケーラブルなデータ処理と分析にPython Daskを活用する方法
今日のデータドリブンな世界では、大規模なデータセットを効率的に処理・分析することは、ソフトウェアエンジニアやデータサイエンティストにとって大きな課題となり得ます。Pandasのような従来のデータ処理ライブラリは使い勝手が良いものの、多くの組織が直面する膨大な量のデータを扱うには苦労することがあります。そこでDaskライブラリが不可欠となります。
Claude Paugh
7月24日読了時間: 9分


ORC vs Parquet、データストレージ対決でどちらのファイル形式がより柔軟に機能するか
ビッグデータの世界では、適切なファイル形式を選択することがプロジェクトの成功に大きく影響します。パフォーマンス、ストレージ効率、そして使いやすさは、いずれも選択によって左右される重要な要素です。この分野で有力な候補として、Apache ORC(Optimized Row Columnar)とApache Parquetが挙げられます。この記事では、これらの形式を詳細に解説し、構造、パフォーマンス、そして実用的な用途に焦点を当てることで、ニーズに最適な形式を決定できるようお手伝いします。
Claude Paugh
7月24日読了時間: 6分


Datalake と Lakehouse: ビジネス インテリジェンス分析における Apache Kylin と Trino の比較
今日のダイナミックなビジネス環境において、データ分析とビジネスインテリジェンスのための適切なツールは、大きな違いを生みます。膨大な量のデータが存在する中で、企業はより良い意思決定のために、それらを効率的に処理・分析する方法を必要としています。この分野で際立った強力なプラットフォームが、Apache KylinとTrino(別名Presto)です。どちらも分析において重要な機能を提供しますが、これらのテクノロジーを効果的に活用したいデータプロフェッショナルにとって、両者の違いを理解することは重要です
Claude Paugh
7月23日読了時間: 9分


データ処理におけるApache Parquet、ORC、JSONファイル形式の比較
今日のデータが豊富な環境では、適切なファイル形式を選択することが大きな違いを生みます。ビッグデータプロジェクト、機械学習、あるいは単純なデータタスクなど、どのような作業であっても、それぞれのファイル形式がどのような機能を提供するかを理解することが重要です。このブログ記事では、広く使用されている3つの形式、Apache Parquet、Apache ORC、JSONについて、それぞれの機能、利点、そして限界について考察します。
Claude Paugh
7月10日読了時間: 6分


Apache Iceberg、Hadoop、Hive: データレイク (Lakehouse) を開く -> パート II
この記事では、Hiveメタデータへのユーザーアクセスと、結果セットの作成に使用されるメカニズムについて説明します。データレイクやレイクハウスのデータをユーザーに公開する方法を説明できれば幸いです。
Claude Paugh
6月24日読了時間: 8分


Catalyst Optimizer を使用して Apache Spark 上で Scala のパフォーマンスを最大化する
今日のデータ処理の世界では、Apache Spark は大規模なデータ ワークロードを効率的に処理するための推奨テクノロジーとして際立っています。あなたの成功は、データ処理パフォーマンスを新たなレベルに引き上げる重要なコンポーネントである Catalyst Optimizer に大きく左右されます。データ処理に Scala を使用する開発者の場合、Catalyst Optimizer を習得すると、Spark アプリケーションのパフォーマンスが大幅に向上します。この記事では、Catalyst Optimizer について詳しく説明し、その重要性を強調し、それを活用して Spark 上の Scala アプリケーションを最適化するための実用的なヒントを紹介します。
Claude Paugh
5月19日読了時間: 9分


データ分析におけるPandasの異常検出のための7つの簡単なテクニック
データ分析は刺激的な旅ですが、同時に課題も伴います。最大のハードルの一つは、異常値、つまり結論や予測を歪める可能性のある予期せぬ結果を特定することです。売上データの分析でも、システムパフォーマンスの監視でも、こうした異常値を認識することは非常に重要です。
Claude Paugh
5月14日読了時間: 5分


Apache Iceberg と Pandas Analytics: パート III
前回までの2つの記事では、Apache Icebergとその機能の評価、そしてPyIcebergを使ったオブジェクトの作成とデータの読み込みについて説明しました。今回は、データの取り出しと、Pandasデータフレームを使った分析の作成に焦点を当てます。
Claude Paugh
5月11日読了時間: 6分


データボルトモデリング設計の用途
Data Vault は、テクノロジーではなく、設計パラダイムです。あらゆるリレーショナルデータベースやデータレイクで使用できます。これは、データウェアハウスでよく使用されるスター/スタークラスター/コンステレーションやスノーフレーク(DB会社ではありません)スキーマ設計から脱却し、より優れたデータウェアハウス方法を見つけたいという思いから生まれました。
Claude Paugh
5月7日読了時間: 12分


Apache Iceberg ストレージと Pandas Analytics: パート I
私は新しいことに挑戦するのが好きで、テクノロジーも例外ではありません。そこで、Apache Iceberg、特にPython実装であるPyIcebergの仕組みについて、さらに詳しく調べてみることにしました。
工業用配管を備えたApache Iceberg
私は、テクノロジーに関係なく、通常はデータ管理プラクティスの一部となるいくつかの重要な項目を具体的に検討しました。
Claude Paugh
5月7日読了時間: 8分


現代のデータ管理におけるApache IcebergとHDF5のユースケースを探る
急速に進化するデータ管理の世界では、企業は増え続けるデータを効率的に処理するという課題に直面しています。ここで、Apache Iceberg と HDF5 という 2 つの強力なストレージ ソリューションが役立ちます。それぞれに独自の利点があり、データ管理のさまざまな側面に対応します。今日は、企業がこれからどのような利益を得ることができるかを見てみましょう。
Claude Paugh
4月22日読了時間: 6分


クラウドベースのデータエンジニアリング戦略におけるApache Icebergの可能性を探る
急速に進化する今日のデジタル世界では、データは企業にとって貴重な資産となっています。データ量が増加するにつれて、企業はこの膨大な量の情報を効率的に処理するための革新的なソリューションを必要とします。これらの主要なテクノロジーには Apache Iceberg が含まれます。このオープンなスプレッドシート形式により、クラウド環境でのデータ管理が改善され、パフォーマンスが向上し、幅広い分析サポートが提供されます。この記事では、Apache Iceberg がクラウド データ テクノロジーにどのような革命をもたらし、データを効果的に使用したいと考えている組織にとってそれが何を意味するのかを探ります
Claude Paugh
4月22日読了時間: 7分


PySpark による統計データの収集: Scala との比較分析
データ処理と統計の保存は、今日のデータ駆動型の世界では不可欠なタスクです。これらのタスクに直面すると、エンジニアは PySpark や Scala などのツールの中から選択しなければならないことがよくあります。このブログ記事では、パフォーマンス、効率、使いやすさの観点から、これら 2 つの強力なテクノロジーの違いについて説明します。
Claude Paugh
4月18日読了時間: 6分
bottom of page