top of page


7 técnicas sencillas para detectar anomalÃas en Pandas para el análisis de datos
El análisis de datos es un proceso apasionante, pero conlleva desafÃos. Uno de los mayores obstáculos es identificar anomalÃas: resultados inesperados que pueden distorsionar nuestras conclusiones y predicciones. Ya sea que analices datos de ventas o monitorices el rendimiento del sistema, reconocer estas anomalÃas es fundamental.
Claude Paugh
14 may4 Min. de lectura
1 visualización


Análisis de Apache Iceberg y Pandas: Parte III
Los dos artÃculos anteriores trataron sobre la evaluación de Apache Iceberg y sus capacidades, asà como sobre el uso de PyIceberg para crear objetos y cargar datos. Esta publicación se centrará en la extracción de datos y el uso de dataframes de Pandas para crear análisis.
Claude Paugh
11 may5 Min. de lectura
1 visualización


Almacenamiento Apache Iceberg y análisis de Pandas: Parte I
Generalmente me gusta probar cosas nuevas, y la tecnologÃa no es la excepción. Asà que decidà investigar más a fondo la mecánica subyacente de Apache Iceberg, y en concreto, la implementación de Python, PyIceberg.
Apache Iceberg with Industrial Piping
Estaba analizando especÃficamente algunos elementos clave que suelen formar parte de las prácticas de gestión de datos, independientemente de la tecnologÃa
Claude Paugh
7 may7 Min. de lectura
5 visualizaciones


Aprovechar el poder de Dask para flujos de trabajo escalables de ciencia de datos
Aquà es donde entra en juego Dask. Esta potente biblioteca de Python está diseñada para computación paralela, lo que facilita a los cientÃficos de datos la escalabilidad de sus flujos de trabajo. En esta publicación, profundizaremos en cómo usar Dask para flujos de trabajo escalables de ciencia de datos, con ejemplos claros y perspectivas prácticas.
Claude Paugh
3 may5 Min. de lectura
3 visualizaciones


Cómo aprovechar Python Dask para el procesamiento y análisis de datos escalables
En el mundo actual, impulsado por los datos, procesar y analizar grandes conjuntos de datos de forma eficiente puede suponer un gran reto para los ingenieros de software y los cientÃficos de datos. Las bibliotecas tradicionales de procesamiento de datos como Pandas, si bien son intuitivas, pueden presentar dificultades con los grandes volúmenes de datos que manejan muchas organizaciones. Aquà es donde la biblioteca Dask se vuelve esencial.
Claude Paugh
25 abr8 Min. de lectura
5 visualizaciones


Dominar las agregaciones con Apache Spark DataFrames y Spark SQL en Scala, Python y SQL
Si quieres aprovechar el potencial del big data, Apache Spark es tu framework de referencia. Ofrece API robustas y un ecosistema completo, perfecto para procesar grandes conjuntos de datos. En particular, la capacidad de Spark para realizar agregaciones mediante DataFrames y Spark SQL lo convierte en una herramienta invaluable. Esta publicación te guiará en la realización de agregaciones con Spark DataFrames y Spark SQL utilizando Scala y Python.
Claude Paugh
24 abr4 Min. de lectura
4 visualizaciones


Cómo optimicé los trabajos de Apache Spark para evitar la reorganización excesiva
Al trabajar con Apache Spark, me encontré con frecuencia con un problema de rendimiento común, aunque desafiante: la reorganización excesiva. Esta reorganización puede ralentizar drásticamente la aplicación, por lo que es fundamental que los ingenieros de software encuentren maneras efectivas de optimizar los trabajos de Spark.
Claude Paugh
24 abr3 Min. de lectura
3 visualizaciones


Cómo mejorar el acceso a los datos para Apache Spark RDD
Mejorar el acceso a los datos en los conjuntos de datos distribuidos resilientes (RDD) de Apache Spark puede mejorar significativamente el rendimiento de las aplicaciones de big data.
Claude Paugh
24 abr4 Min. de lectura
4 visualizaciones


Comprensión del formato de datos versátil HDF5 con ejemplos
HDF5 o formato de datos jerárquicos versión 5 es un formato de archivo de código abierto que permite el almacenamiento y la gestión eficientes de grandes conjuntos de datos. Fue desarrollado por el Grupo HDF y se utiliza en numerosos campos como la ciencia, la ingenierÃa y el análisis de datos. La capacidad de HDF5 para gestionar conjuntos de datos complejos manteniendo las relaciones entre ellos lo convierte en una opción ideal para los profesionales que trabajan con big dat
Claude Paugh
22 abr3 Min. de lectura
4 visualizaciones


Explorando los casos de uso de Apache Iceberg y HDF5 en la gestión de datos moderna
En el mundo en rápida evolución de la gestión de datos, las empresas se enfrentan al desafÃo de procesar eficazmente cantidades cada vez mayores de datos. Aquà es donde entran en juego dos potentes soluciones de almacenamiento: Apache Iceberg y HDF5. Cada uno tiene ventajas únicas y aborda diferentes aspectos de la gestión de datos. Exploremos cómo las empresas pueden beneficiarse hoy.
Claude Paugh
22 abr5 Min. de lectura
9 visualizaciones


Uso de la biblioteca Python Dask para computación paralela
Dask es una innovadora biblioteca de Python que simplifica la ejecución de tareas de computación paralela. Esto le permite dividir problemas grandes en componentes más pequeños y manejables y distribuir estas tareas entre múltiples núcleos o incluso múltiples máquinas. En este artÃculo, exploraremos cómo usar la biblioteca Dask y sus caracterÃsticas y la compararemos con Apache Spark.
Claude Paugh
17 abr3 Min. de lectura
4 visualizaciones


Apache Spark Data Engineering: Mejores prácticas y casos de uso
In today's data-driven world, organizations are generating vast amounts of data every second. This data can be a goldmine for insights when processed and analyzed effectively. One of the most powerful tools in this realm is Apache Spark.
Claude Paugh
17 abr5 Min. de lectura
4 visualizaciones


ETF, fondos mutuos y análisis de datos de activos: Introducción
Hace varios años, comencé un proyecto paralelo que pensé que serÃa divertido: agregar y cargar presentaciones mensuales ante la SEC de ETF y fondos mutuos.
Claude Paugh
17 abr5 Min. de lectura
4 visualizaciones


Datos de ETF, fondos de inversión y accionariado: Recuperar contenido
Como mencioné en una publicación anterior, yo
Si eres un desarrollador de software, existen muchas
Uso DataGrid de Jetbrains (compré una licencia) y ellos proporcionan sus propios controladores
Claude Paugh
17 abr2 Min. de lectura
4 visualizaciones


Datos de ETF, fondos mutuos y tenencia: recuperar contenido analÃtico
La consola de Analytics es muy similar a la consola de Consultas, excepto por los paneles de la derecha. Aquà puede vincular estructuras de datos de clústeres de Couchbase locales o remotos como fuentes. El servicio Analytics copia los datos originales y permite indexarlos por separado de la fuente original.
Claude Paugh
17 abr2 Min. de lectura
5 visualizaciones


Recopilación de estadÃsticas de datos con PySpark: un análisis comparativo con Scala
El procesamiento de datos y la recopilación de estadÃsticas son tareas esenciales en el mundo actual impulsado por los datos. Los ingenieros a menudo se ven obligados a elegir entre herramientas como PySpark y Scala cuando se embarcan en estas tareas.
Claude Paugh
17 abr5 Min. de lectura
4 visualizaciones


Mejores prácticas de Apache Spark: optimice el procesamiento de datos
Apache Spark es un potente sistema de computación distribuida de código abierto que destaca en el procesamiento de big data. Es reconocido por su velocidad y facilidad de uso, lo que lo convierte en uno de los favoritos entre ingenieros de software y cientÃficos de datos.
Claude Paugh
17 abr4 Min. de lectura
3 visualizaciones
bottom of page