Dominando agregações com Apache Spark DataFrames e Spark SQL em Scala, Python e SQL

Claude Paugh
28 de abr.
4 min de leitura

Atualizado: há 2 dias

Se você deseja aproveitar o poder do big data, o Apache Spark é o framework ideal. Ele oferece APIs robustas e um ecossistema rico, perfeito para processar grandes conjuntos de dados. Em particular, a capacidade do Spark de realizar agregações usando DataFrames e Spark SQL o torna uma ferramenta inestimável. Este post o guiará pela execução de agregações com Spark DataFrames e Spark SQL usando Scala e Python. Você verá exemplos práticos de código para consolidar sua compreensão.

Compreendendo Spark DataFrames

Spark DataFrames são coleções de dados distribuídas, organizadas em colunas nomeadas, semelhantes a tabelas em um banco de dados relacional. Essa estrutura permite uma manipulação eficiente dos dados. DataFrames aprimoram o desempenho das operações devido a recursos como o Catalyst para otimização de consultas e o mecanismo Tungsten para gerenciamento de memória.

A sintaxe para DataFrames é simples e intuitiva, permitindo que você execute operações funcionais e semelhantes a SQL sem problemas. Por exemplo, você pode realizar cálculos sem precisar de código boilerplate extenso, facilitando tanto para iniciantes quanto para desenvolvedores experientes.

Configurando seu ambiente Spark

Antes de nos aprofundarmos nas agregações, vamos estabelecer o ambiente Spark necessário para os exemplos a seguir. Isso envolve instalar o Apache Spark e configurá-lo para Scala e Python, dependendo do seu sistema operacional e preferências de ambiente de trabalho.

Configuração de ambiente para Scala

Para Scala, comece instalando a Scala Build Tool (SBT). Abaixo está uma configuração simples para o seu arquivo `build.sbt`:

name := "SparkDataFrameExample"
version := "0.1"
scalaVersion := "2.12.10"

libraryDependencies += "org.apache.spark" %% "spark-core" % "3.1.2"
libraryDependencies += "org.apache.spark" %% "spark-sql" % "3.1.2"

Configuração de ambiente para Python

Para usuários de Python, o principal requisito é ter o PySpark instalado. Você pode instalá-lo facilmente via pip:

```bash
pip install pyspark
```

Com seu ambiente configurado, você está pronto para explorar operações de agregação.

Agregações em Spark DataFrames

A agregação é um aspecto vital da análise de dados que permite resumir e compreender padrões complexos de dados. O Spark oferece funcionalidades poderosas para diversas operações de agregação, incluindo `groupBy`, `agg` e uma variedade de funções de agregação.

Usando Scala para Agregações

Vamos considerar um conjunto de dados de vendas para exemplos práticos de agregação com Scala:

case class Sales(transactionId: Int, product: String, amount: Double, quantity: Int)

val salesData = Seq(
  Sales(1, "Widget", 20.0, 5),
  Sales(2, "Gadget", 30.0, 8),
  Sales(3, "Widget", 20.0, 3),
  Sales(4, "Gadget", 30.0, 10)
)

val salesDf = salesData.toDF()

Agora, vamos realizar algumas agregações neste conjunto de dados:

// Total Sales Amount
val totalSales = salesDf.agg(sum("amount").as("total_amount"))

totalSales.show()

// Average Quantity
val averageQuantity = salesDf.agg(avg("quantity").as("average_quantity"))

averageQuantity.show()

// Grouped Aggregation by Product
val salesByProduct = salesDf
  .groupBy("product")
  .agg(sum("amount").as("total_sales"), avg("quantity").as("average_quantity"))

salesByProduct.show()

Usando Python para agregações

Em Python, usar o PySpark para o mesmo conjunto de dados de vendas fica assim:

from pyspark.sql import SparkSession
from pyspark.sql.functions import sum, avg

spark = SparkSession.builder.appName("SalesAggregation").getOrCreate()
data = [
    (1, "Widget", 20.0, 5),
    (2, "Gadget", 30.0, 8),
    (3, "Widget", 20.0, 3),
    (4, "Gadget", 30.0, 10)
]

columns = ["transactionId", "product", "amount", "quantity"]
sales_df = spark.createDataFrame(data, columns)

Valor total das vendas

total_sales = sales_df.agg(sum("amount").alias("total_amount"))
total_sales.show()

Quantidade média

average_quantity = sales_df.agg(avg("quantity").alias("average_quantity"))
average_quantity.show()

Agregação agrupada por produto

sales_by_product = sales_df.groupBy("product").agg(
sum("amount").alias("total_sales"),
    avg("quantity").alias("average_quantity")
)

sales_by_product.show()

Usando Spark SQL para agregações

Além de usar DataFrames, o Spark SQL permite executar consultas SQL diretamente em DataFrames, combinando a facilidade de uso do SQL com o desempenho do Spark.

Comece criando uma visualização temporária com Python:

sales_df.createOrReplaceTempView("sales")

Em seguida, execute comandos SQL como estes:

-- SQL query for total sales amount
SELECT SUM(amount) AS total_amount FROM sales;

-- SQL query for average quantity
SELECT AVG(quantity) AS average_quantity FROM sales;

-- SQL query for aggregated results by product
SELECT product, SUM(amount) AS total_sales, AVG(quantity) AS average_quantity
FROM sales
GROUP BY product;

Exemplos práticos de agregações

Munidos de conhecimento teórico, vamos nos aprofundar em exemplos práticos para fortalecer sua compreensão sobre agregações.

Contagem de produtos distintos vendidos

Contar valores distintos é crucial para diversas análises. Veja como você pode fazer isso em Scala e Python.

Escala

val distinctProductsCount = salesDf.select("product").distinct().count()
println(s"Distinct products sold: $distinctProductsCount")

Pitão

distinct_products_count = sales_df.select("product").distinct().count()
print(f"Distinct products sold: {distinct_products_count}")

Calculando as vendas totais por dia

Imagine que você queira examinar as tendências diárias de vendas. Primeiro, você complementaria o DataFrame `vendas` com informações de data.

Preparar os dados

Adicionando uma coluna de data para o exemplo com Python:

data_with_dates = [
    (1, "Widget", 20.0, 5, "2023-10-01"),
    (2, "Gadget", 30.0, 8, "2023-10-01"),
    (3, "Widget", 20.0, 3, "2023-10-02"),
    (4, "Gadget", 30.0, 10, "2023-10-02")
]

columns_with_dates = ["transactionId", "product", "amount", "quantity", "date"]

sales_df_with_dates = spark.createDataFrame(data_with_dates, columns_with_dates)

Exemplo de agregação

O código para somar o total de vendas por data é semelhante em Scala e Python:

Escala

val dailySales = salesDfWithDates
  .groupBy("date")
  .agg(sum("amount").as("total_sales"))

dailySales.show()

Pitão

daily_sales = sales_df_with_dates.groupBy("date").agg(sum("amount").alias("total_sales"))

daily_sales.show()

Técnicas de Otimização

Para maximizar o desempenho ao usar o Spark para agregações, considere estas técnicas de otimização:

Use particionamento : é benéfico para grandes conjuntos de dados, pois minimiza a quantidade de dados envolvidos em agregações, acelerando assim o processo.
Cache Intermediate DataFrames : O cache pode melhorar o desempenho ao executar várias operações no mesmo conjunto de dados, reduzindo recálculos desnecessários.
Aproveite as junções de transmissão : quando um DataFrame é significativamente menor, a transmissão pode evitar o embaralhamento de grandes conjuntos de dados, melhorando a velocidade.

Resumindo Insights

Entender e dominar agregações usando Apache Spark DataFrames e Spark SQL pode aprimorar significativamente seus esforços de análise de big data. Com o conhecimento e os exemplos práticos fornecidos, você agora tem as ferramentas para realizar processamentos avançados de dados e extrair insights valiosos dos seus conjuntos de dados. Continue experimentando para descobrir insights mais profundos e aprimorar suas capacidades analíticas!

Visão ampla de uma configuração moderna de processamento de dados com o logotipo do Spark — Data processing with Spark DataFrames and SQL

Dominando agregações com Apache Spark DataFrames e Spark SQL em Scala, Python e SQL

Compreendendo Spark DataFrames

Configurando seu ambiente Spark

Configuração de ambiente para Scala

Configuração de ambiente para Python

Agregações em Spark DataFrames

Usando Scala para Agregações

Usando Python para agregações

Valor total das vendas

Quantidade média

Agregação agrupada por produto

Usando Spark SQL para agregações

Exemplos práticos de agregações

Contagem de produtos distintos vendidos

Escala

Pitão

Calculando as vendas totais por dia

Preparar os dados

Adicionando uma coluna de data para o exemplo com Python:

Exemplo de agregação

Escala

Pitão

Técnicas de Otimização

Resumindo Insights

Posts recentes

política de Privacidade