top of page


7 técnicas sencillas para detectar anomalÃas en Pandas para el análisis de datos
El análisis de datos es un proceso apasionante, pero conlleva desafÃos. Uno de los mayores obstáculos es identificar anomalÃas: resultados inesperados que pueden distorsionar nuestras conclusiones y predicciones. Ya sea que analices datos de ventas o monitorices el rendimiento del sistema, reconocer estas anomalÃas es fundamental.
Claude Paugh
14 may4 Min. de lectura
1 visualización


Análisis de Apache Iceberg y Pandas: Parte III
Los dos artÃculos anteriores trataron sobre la evaluación de Apache Iceberg y sus capacidades, asà como sobre el uso de PyIceberg para crear objetos y cargar datos. Esta publicación se centrará en la extracción de datos y el uso de dataframes de Pandas para crear análisis.
Claude Paugh
11 may5 Min. de lectura
1 visualización


Almacenamiento Apache Iceberg y análisis de Pandas: Parte I
Generalmente me gusta probar cosas nuevas, y la tecnologÃa no es la excepción. Asà que decidà investigar más a fondo la mecánica subyacente de Apache Iceberg, y en concreto, la implementación de Python, PyIceberg.
Apache Iceberg with Industrial Piping
Estaba analizando especÃficamente algunos elementos clave que suelen formar parte de las prácticas de gestión de datos, independientemente de la tecnologÃa
Claude Paugh
7 may7 Min. de lectura
5 visualizaciones


Aprovechar el poder de Dask para flujos de trabajo escalables de ciencia de datos
Aquà es donde entra en juego Dask. Esta potente biblioteca de Python está diseñada para computación paralela, lo que facilita a los cientÃficos de datos la escalabilidad de sus flujos de trabajo. En esta publicación, profundizaremos en cómo usar Dask para flujos de trabajo escalables de ciencia de datos, con ejemplos claros y perspectivas prácticas.
Claude Paugh
3 may5 Min. de lectura
3 visualizaciones


Cómo aprovechar Python Dask para el procesamiento y análisis de datos escalables
En el mundo actual, impulsado por los datos, procesar y analizar grandes conjuntos de datos de forma eficiente puede suponer un gran reto para los ingenieros de software y los cientÃficos de datos. Las bibliotecas tradicionales de procesamiento de datos como Pandas, si bien son intuitivas, pueden presentar dificultades con los grandes volúmenes de datos que manejan muchas organizaciones. Aquà es donde la biblioteca Dask se vuelve esencial.
Claude Paugh
25 abr8 Min. de lectura
5 visualizaciones


Dominar las agregaciones con Apache Spark DataFrames y Spark SQL en Scala, Python y SQL
Si quieres aprovechar el potencial del big data, Apache Spark es tu framework de referencia. Ofrece API robustas y un ecosistema completo, perfecto para procesar grandes conjuntos de datos. En particular, la capacidad de Spark para realizar agregaciones mediante DataFrames y Spark SQL lo convierte en una herramienta invaluable. Esta publicación te guiará en la realización de agregaciones con Spark DataFrames y Spark SQL utilizando Scala y Python.
Claude Paugh
24 abr4 Min. de lectura
4 visualizaciones


Uso de la biblioteca Python Dask para computación paralela
Dask es una innovadora biblioteca de Python que simplifica la ejecución de tareas de computación paralela. Esto le permite dividir problemas grandes en componentes más pequeños y manejables y distribuir estas tareas entre múltiples núcleos o incluso múltiples máquinas. En este artÃculo, exploraremos cómo usar la biblioteca Dask y sus caracterÃsticas y la compararemos con Apache Spark.
Claude Paugh
17 abr3 Min. de lectura
4 visualizaciones


Datos de ETF, fondos de inversión y accionariado: Recuperar contenido
Como mencioné en una publicación anterior, yo
Si eres un desarrollador de software, existen muchas
Uso DataGrid de Jetbrains (compré una licencia) y ellos proporcionan sus propios controladores
Claude Paugh
17 abr2 Min. de lectura
4 visualizaciones


Recopilación de estadÃsticas de datos con PySpark: un análisis comparativo con Scala
El procesamiento de datos y la recopilación de estadÃsticas son tareas esenciales en el mundo actual impulsado por los datos. Los ingenieros a menudo se ven obligados a elegir entre herramientas como PySpark y Scala cuando se embarcan en estas tareas.
Claude Paugh
17 abr5 Min. de lectura
4 visualizaciones
bottom of page