top of page


7 einfache Techniken zum Erkennen von Anomalien in Pandas für die Datenanalyse
Die Datenanalyse ist eine spannende Reise, bringt aber auch Herausforderungen mit sich. Eine der größten Hürden besteht darin, Anomalien zu erkennen – unerwartete Ergebnisse, die unsere Schlussfolgerungen und Vorhersagen verfälschen können.
Claude Paugh
14. Mai4 Min. Lesezeit
1 Ansicht


Apache Iceberg und Pandas Analytics: Teil III
Die beiden vorherigen Artikel befassten sich mit der Bewertung von Apache Iceberg und seinen Funktionen sowie der Verwendung von PyIceberg zum Erstellen von Objekten und Laden von Daten. Dieser Beitrag konzentriert sich auf das Abrufen von Daten und die Verwendung von Pandas-Datenrahmen zur Erstellung von Analysen.
Claude Paugh
11. Mai5 Min. Lesezeit
14 Ansichten


Apache Iceberg Storage und Pandas Analytics: Teil I
Ich probiere generell gerne Neues aus, und das gilt auch für die Technologie. Deshalb habe ich mich entschlossen, die Mechanismen hinter Apache Iceberg und insbesondere der Python-Implementierung PyIceberg genauer zu untersuchen.
Apache Iceberg with Industrial Piping
Ich habe mir insbesondere einige Schlüsselelemente angesehen, die normalerweise Teil der Datenverwaltungspraktiken sind, unabhängig von der Technologie
Claude Paugh
7. Mai5 Min. Lesezeit
15 Ansichten


Aggregationen mit Apache Spark DataFrames und Spark SQL in Scala, Python und SQL meistern
Wenn Sie das Potenzial von Big Data voll ausschöpfen möchten, ist Apache Spark das ideale Framework. Es bietet robuste APIs und ein umfassendes Ökosystem – ideal für die Verarbeitung großer Datensätze. Insbesondere die Fähigkeit von Spark, Aggregationen mit DataFrames und Spark SQL durchzuführen, macht es zu einem unverzichtbaren Werkzeug. Dieser Beitrag führt Sie durch die Durchführung von Aggregationen mit Spark DataFrames und Spark SQL in Scala und Python. Praktische Codeb
Claude Paugh
28. Apr.4 Min. Lesezeit
17 Ansichten


So nutzen Sie Python Dask für skalierbare Datenverarbeitung und -analyse
In der heutigen datengesteuerten Welt kann die effiziente Verarbeitung und Analyse großer Datensätze für Softwareentwickler und Datenwissenschaftler eine erhebliche Herausforderung darstellen. Herkömmliche Datenverarbeitungsbibliotheken wie Pandas sind zwar intuitiv, können jedoch bei den großen Datenmengen, die viele Organisationen verarbeiten, schwierig zu handhaben sein. Hier wird die Dask-Bibliothek unverzichtbar.
Claude Paugh
25. Apr.7 Min. Lesezeit
13 Ansichten


Nutzung der Dask Python-Bibliothek für paralleles Rechnen
Dask ist eine innovative Python-Bibliothek, die die Ausführung paralleler Rechenaufgaben vereinfacht. Sie können damit große Probleme in kleinere, besser handhabbare Komponenten zerlegen und diese Aufgaben auf mehrere Kerne oder sogar mehrere Maschinen verteilen.
Claude Paugh
17. Apr.3 Min. Lesezeit
17 Ansichten
bottom of page