top of page


7 técnicas sencillas para detectar anomalÃas en Pandas para el análisis de datos
El análisis de datos es un proceso apasionante, pero conlleva desafÃos. Uno de los mayores obstáculos es identificar anomalÃas: resultados inesperados que pueden distorsionar nuestras conclusiones y predicciones. Ya sea que analices datos de ventas o monitorices el rendimiento del sistema, reconocer estas anomalÃas es fundamental.
Claude Paugh
14 may4 Min. de lectura
1 visualización


Análisis de Apache Iceberg y Pandas: Parte III
Los dos artÃculos anteriores trataron sobre la evaluación de Apache Iceberg y sus capacidades, asà como sobre el uso de PyIceberg para crear objetos y cargar datos. Esta publicación se centrará en la extracción de datos y el uso de dataframes de Pandas para crear análisis.
Claude Paugh
11 may5 Min. de lectura
1 visualización


Almacenamiento Apache Iceberg y análisis de Pandas: Parte I
Generalmente me gusta probar cosas nuevas, y la tecnologÃa no es la excepción. Asà que decidà investigar más a fondo la mecánica subyacente de Apache Iceberg, y en concreto, la implementación de Python, PyIceberg.
Apache Iceberg with Industrial Piping
Estaba analizando especÃficamente algunos elementos clave que suelen formar parte de las prácticas de gestión de datos, independientemente de la tecnologÃa
Claude Paugh
7 may7 Min. de lectura
5 visualizaciones


Aprovechar el poder de Dask para flujos de trabajo escalables de ciencia de datos
Aquà es donde entra en juego Dask. Esta potente biblioteca de Python está diseñada para computación paralela, lo que facilita a los cientÃficos de datos la escalabilidad de sus flujos de trabajo. En esta publicación, profundizaremos en cómo usar Dask para flujos de trabajo escalables de ciencia de datos, con ejemplos claros y perspectivas prácticas.
Claude Paugh
3 may5 Min. de lectura
3 visualizaciones


Cómo aprovechar Python Dask para el procesamiento y análisis de datos escalables
En el mundo actual, impulsado por los datos, procesar y analizar grandes conjuntos de datos de forma eficiente puede suponer un gran reto para los ingenieros de software y los cientÃficos de datos. Las bibliotecas tradicionales de procesamiento de datos como Pandas, si bien son intuitivas, pueden presentar dificultades con los grandes volúmenes de datos que manejan muchas organizaciones. Aquà es donde la biblioteca Dask se vuelve esencial.
Claude Paugh
25 abr8 Min. de lectura
5 visualizaciones


Dominar las agregaciones con Apache Spark DataFrames y Spark SQL en Scala, Python y SQL
Si quieres aprovechar el potencial del big data, Apache Spark es tu framework de referencia. Ofrece API robustas y un ecosistema completo, perfecto para procesar grandes conjuntos de datos. En particular, la capacidad de Spark para realizar agregaciones mediante DataFrames y Spark SQL lo convierte en una herramienta invaluable. Esta publicación te guiará en la realización de agregaciones con Spark DataFrames y Spark SQL utilizando Scala y Python.
Claude Paugh
24 abr4 Min. de lectura
4 visualizaciones


Uso de la biblioteca Python Dask para computación paralela
Dask es una innovadora biblioteca de Python que simplifica la ejecución de tareas de computación paralela. Esto le permite dividir problemas grandes en componentes más pequeños y manejables y distribuir estas tareas entre múltiples núcleos o incluso múltiples máquinas. En este artÃculo, exploraremos cómo usar la biblioteca Dask y sus caracterÃsticas y la compararemos con Apache Spark.
Claude Paugh
17 abr3 Min. de lectura
4 visualizaciones


Datos de ETF, fondos mutuos y tenencia: recuperar contenido analÃtico
La consola de Analytics es muy similar a la consola de Consultas, excepto por los paneles de la derecha. Aquà puede vincular estructuras de datos de clústeres de Couchbase locales o remotos como fuentes. El servicio Analytics copia los datos originales y permite indexarlos por separado de la fuente original.
Claude Paugh
17 abr2 Min. de lectura
5 visualizaciones


Recopilación de estadÃsticas de datos con PySpark: un análisis comparativo con Scala
El procesamiento de datos y la recopilación de estadÃsticas son tareas esenciales en el mundo actual impulsado por los datos. Los ingenieros a menudo se ven obligados a elegir entre herramientas como PySpark y Scala cuando se embarcan en estas tareas.
Claude Paugh
17 abr5 Min. de lectura
4 visualizaciones


Mejores prácticas de Apache Spark: optimice el procesamiento de datos
Apache Spark es un potente sistema de computación distribuida de código abierto que destaca en el procesamiento de big data. Es reconocido por su velocidad y facilidad de uso, lo que lo convierte en uno de los favoritos entre ingenieros de software y cientÃficos de datos.
Claude Paugh
17 abr4 Min. de lectura
3 visualizaciones
bottom of page