スケーラブルなデータ処理と分析にPython Daskを活用する方法

Claude Paugh
7月24日
読了時間: 9分

今日のデータドリブンな世界では、大規模なデータセットを効率的に処理・分析することは、ソフトウェアエンジニアやデータサイエンティストにとって大きな課題となり得ます。Pandasのような従来のデータ処理ライブラリは使い勝手が良いものの、多くの組織が直面する膨大な量のデータを扱うには苦労することがあります。そこでDaskライブラリが不可欠となります。

Python Daskライブラリを使えば、ビッグデータに対する複雑な計算をPythonで簡単に実行できます。また、GPUに比べて低コストのCPUでも実行できるため、CPUで実行できるデータラングリングと前処理と、GPUに最適なアルゴリズム演算や画像/動画処理の違いを認識することが重要です。

このブログ記事では、Dask ライブラリの機能を詳しく説明し、それをワークフローに統合する方法を学び、最終的にはその力を活用してデータ処理タスクを最適化する方法を学びます。

Python Dask ライブラリを理解する: 概要

Daskはオープンソースの並列計算ライブラリであり、Pythonアプリケーションを単一マシンから大規模クラスターまで効率的にスケールできます。主にメモリ内で動作するPandasとは異なり、Daskは並列計算の管理に優れており、利用可能なメモリよりも大きなデータセットを処理できます。

Dask の主なコンポーネントは次のとおりです。

Dask 配列: 大規模な多次元配列用。
Dask DataFrames: Pandas DataFrames と同様に大規模なデータセットを操作します。
Dask Bags: Python のリストに似た、非構造化データを処理します。

Dask の本当の魅力は、既存の Python ライブラリと連携し、シームレスに操作できることです。

Daskのインストール

Dask を使い始める前に、自分の環境に Dask をインストールする必要があります。

Dask は pip を使って簡単にインストールできます:

```bash
pip install dask
```

分散スケジューラで Dask を使用する予定の場合は、完全な機能を実現するために以下を含めます。

```bash
pip install dask[distributed]
```

インストールが完了したら、Python 環境で Dask のバージョンを確認してインストールを確認します。

import dask
print(dask.__version__)

Dask Arrays: アウトオブコア計算

Dask配列は、メモリに収まらない可能性のある大規模な数値データを処理するための強力なツールです。メモリに収まらないほど大きな配列は、小さなチャンクに分割することで並列計算を実行できます。

Dask配列の作成

NumPyからDask配列を簡単に作成できます。例えば：

import dask.array as da
import numpy as np

大きなNumPy配列を作成する

numpy_array = np.random.rand(10000, 10000)

NumPy配列からDask配列を作成する

x = da.from_array(numpy_array, chunks=(1000, 1000))

ここで、 `numpy_array` は任意の大きな配列にすることができ、 `chunks` は配列の分割方法を制御します。

基本操作

Dask配列はNumPyと同様の演算が可能ですが、明示的に要求するまで計算は実行されません。例えば：

result = (x + 1).mean()

結果を計算するには、次を使用します。

final_result = result.compute()

このアプローチにより、特に大規模なデータセットを扱う場合にパフォーマンスが大幅に向上します。

Dask DataFrames: ビッグデータのための使い慣れたインターフェース

Pandas を使い慣れている方なら、Dask DataFrames は直感的に操作できるでしょう。使い慣れたインターフェースで大規模なデータセット処理を可能にしながら、並列コンピューティングの利点も活用できます。

Daskデータフレームの作成

次に示すように、CSV ファイルから読み取るか、Pandas DataFrame を変換することで、Dask DataFrame を作成できます。

import dask.dataframe as dd

大きなCSVファイルをDask DataFrameに読み込む

df = dd.read_csv('large_dataset.csv')

この操作により、CSVファイルが複数のパーティションに分割され、並列バッチ処理が可能になります。Daskは、JSON、HDF5、Parquet、Orc、およびSQLを使用したデータベーステーブルからの読み取りもサポートしています。Dask DataFramesは、CSV、HDF5、Parquet、およびSQLへの書き込みが可能です。

Dask DataFramesの操作

フィルタリングやマージなどの一般的な DataFrame 操作は簡単に実行できます。

filtered_df = df[df['avg_gain'] > 30]

これらの操作は遅延型であり、Daskは呼び出されるまでタスクを実行しません。

.compute()

Dask Bagsの探索：非構造化データの操作

Dask Bagsは、Pythonオブジェクトのコレクションを処理するのに非常に便利です。特にJSONファイル、テキストデータ、その他の非構造化型を扱う場合に便利です。Pythonの反復可能オブジェクトを読み込むオプションは、from_sequence関数で利用できます。Avro形式からの読み込みも可能です。また、BagsはCSV、JSON、Avroへの書き込みも可能です。

ダスクバッグの作成

JSON ファイルから読み取ることで Dask Bag を作成できます。

import dask.bag as db
bag = db.read_text('data/*.json')

ダスクバッグの操作

Dask Bagsでは、標準的なマッピングとフィルタリング操作が可能です。マッピング操作の例を以下に示します。

mapped_bag = bag.map(lambda x: x['slope'])

配列やデータフレームと同様に、操作を実行するには `.compute()` を呼び出すことを忘れないでください。

final_output = mapped_bag.compute()

Daskを使ったスケジュール管理

Daskは、ニーズに応じてさまざまなスケジューラを活用します。主な選択肢は、シングルスレッドスケジューラとマルチスレッド（分散型）スケジューラです。

ローカルスケジューラ

ローカルスケジューラは、小規模なワークロードに簡単に使用できます。Pythonのスレッド機能を利用してタスクを並列実行するため、中規模のデータセットでの高速計算に適しています。

分散スケジューラ

大規模なデータセットや高負荷な計算を行う場合は、「dask.distributed」モジュールを使用するとパフォーマンスが大幅に向上します。複数のワーカーにまたがる計算を管理するには、DASKクラスタを設定してください。簡単な設定方法は次のとおりです。

from dask.distributed import Client
client = Client()  # This starts a local cluster
# or
client = Client(processes=False)

クラスターのステータスとタスクの送信を監視できるため、リソースをより適切に制御できます。マルチノードスケジューラを使用するには、各ノードにDaskをインストールし、スケジューラとワーカーに追加の設定を行う必要があります。

単一ノードの場合、dask.config.set(scheduler...)を使用してグローバルデフォルトスケジューラを設定します。コマンド。これはグローバルに実行できます。

dask.config.set(scheduler='threads')
x.compute()

またはコンテキストマネージャーとして:

with dask.config.set(scheduler='threads'):
 x.compute()

プールベースの単一マシンスケジューラを使用すると、カスタムプールを提供したり、必要なワーカー数を指定したりできます。

from concurrent.futures import ThreadPoolExecutor
with dask.config.set(pool=ThreadPoolExecutor(4)):
    x.compute()

with dask.config.set(num_workers=4):
    x.compute()

Kubernetes の有無にかかわらず、Dask のクラウド展開に興味がある場合は、Dask ドキュメントの「Dask クラスターの展開」をお読みになることをお勧めします。

シングルノード、クラウド、Kubernetes、HPCのシナリオを網羅しています。また、ドキュメントの最後には、 CoiledとSaturn CloudをDIYではなくSaaSオプションとして使用する際の運用に関するトピックとリファレンスも掲載しています。

PythonインタープリターがGILを解放しないというスケーラビリティの問題がある場合は、ワーカーのデプロイが必須となる可能性が高いです。ワーカーあたりのスレッド数はカスタマイズできますが、使用するプロセッサコア（CPUまたはvCPU）ごとに1スレッドが目安となります。

これは複数のワーカーに分散することも、1つのワーカーに分散することもできます。例えば、クラウドプロバイダー（Kubernetesではありません）から12個のvCPUを割り当てている場合、以下のように設定できます。

dask worker --nworkers 12 --nthreads 1 tcp://192.0.0.100:8786
# or
dask worker --nworkers 1 --nthreads 12 tcp://192.0.0.100:8786

これらは明らかにシェルまたはスクリプトで実行されるコマンドラインオプションです。完全なコマンドラインリファレンスはこちらです。これらの例ではIPv4アドレスを使用していますが、ホスト名の使用が推奨されます。また、DaskはDNSの名前解決をサポートしています。また、コマンドラインから起動する場合、ワーカーにメモリ制限を設定できることも注目に値します。

次のようにしてコマンドラインからスケジューラを起動します。

$ dask scheduler
Scheduler at:   tcp://192.0.0.100:8786

Daskワーカーが起動時に使用するスケジューラを指定していることにご留意ください。これはDaskの欠点の一つですが、 1つのスケジューラでは単一障害点（SPOF）になり、これを回避できます。クラウドプロバイダーをご利用の場合は、単一のアドレス要求に応答する複数のノードを作成するオプションがありますので、これらのオプションを検討することでSPOFを軽減できます。

スケジューラとワーカーの両方を起動すると、診断用Webサーバーが起動し、URLはIPアドレスまたはデプロイされたホストのポート8787と同じになるため、スケジューラとワーカーを監視できます。タスクグラフ、ワーカーのメモリ消費量、スレッドアクティビティを確認できます。利用可能なHTTPエンドポイントの詳細については、こちらをご覧ください。

Daskによるパフォーマンスの最適化

Daskの潜在能力を最大限に引き出すには、パフォーマンスの最適化が鍵となります。ここでは、優れた結果をもたらす2つの戦略をご紹介します。

データパーティショニング

データを扱いやすいチャンクに適切に分割することで、パフォーマンスが向上します。例えば、Dask DataFramesでは、パーティション数を明示的に指定することで計算速度が向上します。

Dask Dataframe の機能は基本的に大規模な Pandas を提供するため、各パーティションは基本的にラップされた Pandas データフレームです。例えば、10億行のデータセットが Dask Dataframe にあり、100 個のパーティションが必要な場合、Dask は内部的に 1,000 万個の Pandas データフレームを作成します。

Daskは高レベルのデータアクセスを処理しますが、基盤となる各データフレームはPandasの実装です。Pandasのキーワードargsを使用できますが、Daskが使用しているPandasのバージョンによって制限があります。

小さなタスクを多用しすぎない

タスクを極端に小さく作成すると、非効率につながる可能性があります。各タスクにはオーバーヘッドが伴い、タスクが細分化されすぎると並列処理のメリットが損なわれる可能性があります。大規模なDASKでは、より少数の大きなタスクを実行するのが最適です。

Daskの一般的な使用例

Dask は、データの処理と分析のさまざまなシナリオに適用できます。

大規模データ分析

Dask DataFramesは、メモリ制限を超える大規模データセットの分析に最適で、標準的な分析におけるPandasと同様に機能します。Daskが使用しているPandasのバージョンを確認し、サポートされている機能を確認してください。

機械学習

DaskはScikit-learnなどの人気ライブラリとシームレスに統合できます。例えば、Dask-MLを利用することで、大規模なデータセットに機械学習タスクを効率的にスケールし、処理時間を大幅に短縮できます。DaskはPython関数の分散並列処理機能を備えているため、関数があればデコレータのみで並列化できます。ただし、ネストには制限があります。

データの取り込みと変換

Dask は、分析前の前処理段階で非常に重要な大規模なデータセットの読み取りと変換のプロセスを簡素化し、複数の形式を簡単に処理できるようにします。

データワークフローにDaskを活用する

Daskをスケーラブルなデータ処理と分析に活用することで、特に大規模なデータ操作に取り組む際に大きなメリットが得られます。Daskのコア機能を理解することで、PythonデータサイエンスワークフローにDaskを効果的に組み込むことができます。

Daskの並列処理機能により、従来のツールでは対応しきれない処理にも対応できます。大規模な配列、データフレーム、非構造化データなど、Daskは効率的なデータ操作の新たな道を切り開きます。

これで、Dask のパワーを最大限に活用し、データ処理タスクを効率的かつスケーラブルに実行できるようになります。

スケーラブルなデータ処理をさらに探求していく中で、Dask を試してみて、ワークフローをどう強化できるかを確かめてみてください。コーディングを楽しみましょう！