Jupyter Notebooks und ETL Prozesse

Hinweis: Dieser Blogbeitrag stammt aus der Zeit vor dem Zusammenschluss und wurde von TIMETOACT realisiert – heute Teil von ATVANTAGE. Unsere Erfahrung bleibt – nur unser Name hat sich geändert. Hier finden Sie weitere Informationen rund um die Fusion.

In diesem Blogbeitrag möchten wir uns mit den möglichen Tools beschäftigen, die für Data Science zum Einsatz kommen. Wir bei OpenAdvice (mittlerweile Teil der TIMETOACT) bevorzugen den Einsatz von Jupyter Notebooks in Kombination mit einer Python Version. Welche Vorteile solche Notebooks haben und wie sie mit ihnen arbeiten können, werden wir in diesem Beitrag aufzeigen.

Über Jupyter Notebooks

Jupyter (eine Mischung aus den drei Programmiersprachen Julia, Python & R) ist ein Open Source Projekt, um das Arbeiten mit diversen Programmiersprachen in einer Umgebung möglichst simpel und anschaulich zu gestalten. Ein riesiger Vorteil ist die Darstellung. Wo andere GUIs (graphische Benutzeroberflächen) viele Möglichkeiten, insbesondere Debugger, liefern und oft erschlagend umfangreich sind, glänzt Jupyter mit Übersichtlichkeit ohne Abstriche in der Funktionalität. Den Grundstock bilden sogenannte Zellen. Hier gibt es die Möglichkeit zwischen Code-Zellen (zum Programmieren) und Markdown-Zellen zu wählen. Man kann dementsprechend seinen Code mit Texten, Bildern und z.B. auch .gif Datein kombinieren. Erzeugte Plots, Karten oder Grafiken werden ebenfalls direkt im Notebook dargestellt. Das leichte Exportieren in verschiedene Formate (.pdf, .html, .py, .tex,…) kreiert so ein vollständiges Dokument. So ist es möglich seine Erkenntnisse direkt auszuformulieren und mit dem Code und Grafiken zusammen zu einer Analyse im PDF Format zu exportieren. Alle Beitrage aus dieser Reihe sind und werden aus demonstrationszwecken ebenfalls ausschließlich mit Jupyter Notebooks erstellt. Gerade im Bereich Data Science, wo es u.a. darum geht mit Daten zu jonglieren, sie zu untersuchen, zu visualisieren und die daraus gezogenen Kenntnisse auszuformulieren, liefern Jupyter Notebooks die perfekte Basis alle Aufgabe mit einem (kostenlosen) Tool zu bewältigen. Die einzelnen Stationen eines typischen Projekts wollen wir kurz anschneiden und erklären.

ETL - Extract Transform Load

Nachdem man sich mit der Materie des Projekt vertraut gemacht hat, ist es essenziell die zugehörigen Daten zu sammeln, diese aufzubereiten und anschließend zur Weiterverarbeitung zu sichern. Dieses Vorgehen nennt man auch ETL-Prozess.

Ein typischer ETL Prozess könnte so aussehen:

Einlesen von Daten

Wir wollen einige Möglichkeiten präsentieren, wie man verschiedene Datenquellen mit Python einlesen kann. Zur Datensicherung und -aufbereitung bietet sich das Package Pandas an. Damit werden eingelesene Daten in DataFrames (Tabellen) gespeichert. Ein mal eingelesen kann man diese beliebig weiterverarbeiten. Das macht das Aufbereiten sehr viel handlicher. Neben der Möglichkeit lokal mit Jupyter Notebooks zu arbeiten, gibt es auch in IBM Cognos Analytics die Möglichkeit mit Notebooks zu arbeiten. Die in IBM Cognos Analytics erstellen Datenmodule, Data Sources und auch hochgeladenen Datein können leicht eingelesen werden. Hierfür gibt es einen integrierten Data Connector (CADataConnector). Auch diese eingelesenen Daten werden in einem DataFrame gespeichert.

Datenverarbeitung

Nachdem wir nun Daten eingelesen haben, können wir mit ihnen arbeiten, sie aufbereiten und auch damit rechnen. Die Pandas library bietet hierfür eine Vielzahl von Möglichkeiten. Wie man Daten in ein Notebook einliest haben wir bereits gesehen. Einige der oben aufgeführten Transformationen wollen wir ihnen vorführen. Viele dieser Verarbeitungsschritte sind sogenannte One-liner, das heißt, sie können in nur einer Zeile Code umgesetzt werden. Wir wollen annehmen, dass wir unsere Daten in einem DataFrame namens “df_Beispiel” eingelesen haben.

Datensicherung

Je nach Anforderung können die Daten direkt in eine Datenbank geschrieben werden, oder lokal in Form einer Datei gesichert werden.

Natürlich ist ein ETL Prozess weitaus komplexer und umfangreicher und je nach Projektziel müssen auch weitere Transformationen passieren. Mit diesem Beitrag sollten sie einen kurzen Einblick erhalten wie ein ETL Prozess aussehen könnte. Im nächsten Beitrag dieser Serie freuen wir uns, ihnen verschiedene Arten von Visualisierungen zu zeigen, um die bearbeiteten Daten zielgerecht präsentieren zu können.

Referenz

Digitalisierte Prozesse steigern Effizienz

TIMETOACT & X-INTEGRATE begleiten Energieversorger e-regio auf dem Weg zur Digitalisierung. DIe Beratungsleistungen umfassten u.a. Content Management, Archivierung, Collaboration und Automatisierung.

Teaserbild Unternehmensprozesse mit Low-Code digitalisieren
Blog 04.04.23

Unternehmensprozesse digitalisieren – am besten mit Low-Code

Auch heute geht das Digitalisieren von Unternehmensprozessen eher schleppend voran. Low-Code Plattformen von Anbietern wie Mendix können hier Abhilfe leisten.

Teaserbild zum Blogbeitrag: "Welches Low-Code-Tool ist das richtige?"
Blog 12.05.23

Welches Low-Code-Tool ist das richtige für mein Unternehmen?

Wichtige Auswahlkriterien ✅ Vergleich zwischen Anbietern wie Microsoft, Mendix, HCL und SAP ✅ Wir erleichtern Ihnen im Blog die Entscheidung!

Blog 16.12.24

Wie IBM FileNet und WatsonX.AI den Arbeitsalltag verändern

Digitaler Assistent für Unternehmen: Wie IBM FileNet und WatsonX.AI den Arbeitsalltag verändern

e-regio Logo
Referenz

Digitalisierte Prozesse steigern Effizienz

TIMETOACT & X-INTEGRATE begleiten Energieversorger e-regio auf dem Weg in die Digitalisierung. Lesen Sie hier die Erfolgsgeschichte!

Articifial Intelligence & Data Science
Service

Artificial Intelligence & Data Science

Aus strukturierten und unstrukturierten Daten wertvolle Informationen extrahieren — das verbirgt sich hinter Data Science.

Referenz

HUK-COBURG: Modernisierung der Contact-Center-Prozesse

ARS unterstützte die HUK-COBURG bei der Modernisierung und Optimierung der bestehenden Contact-Center-Prozesse.

Navigationsbild zu Data Science
Service

AI & Data Science

Wir bieten umfassende Lösungen im Bereich Data Science, Machine Learning und AI, die auf Ihre spezifischen Herausforderungen und Ziele zugeschnitten sind.

Event

Data Fabric: Basis für Analytics und KI der nächsten Stufe

Im Webinar erfahren Sie, warum das Thema Data Fabric für Versicherer so wichtig ist. Wir erklären Ihnen, was die Data Fabric genau ist und welche Funktionalität sie für Data Science sowie den IT-Betrieb aufweist. In einer praktischen Demo zeigen wir Ihnen konkret Anwendungsfälle aus der Versicherungsbranche. Darüber hinaus erfahren Sie, in welchen Schritten Sie Ihre eigene Data Fabric einführen können.

Referenz

Modernisierung der Contact-Center-Prozesse

ARS als Teil der TIMETOACT GROUP unterstützte den Kunden mit seiner großen Erfahrung in Architekturdesign und -bewertung sowie Anwendungsentwicklung.

Kompetenz

Optimieren Sie Ihre SAFe-Prozesse mit AI

Entdecken Sie, wie unsere AI-unterstützte Flow Reporting Lösung Ihr agiles Arbeiten revolutioniert. Unseren Experten zeigen wie. Jetzt mehr erfahren!

Blog

Top 10 CSS Tipps & Tricks in 2020

Um die Programmiersprache CSS kommt wohl kein Webentwickler herum. Wir haben für euch zehn Tipps & Tricks zusammengefasst, die ihr in 2020 kennen solltet.

Kompass als Symbolbild für einen Single-Point-of-Truth
Blog 17.03.22

Vorteile und Umsetzung eines Single-Point-of-Truths

Wer keine Struktur in seinen Informationswust bringt, dem bleiben Mehrwerte durch Big Data verschlossen. Für informierte, daten-gestützte Entscheidungen bedarf es eines Single-Point-of-Truths.

Blog

Frauenpower in der IT

Wir sind stolz, auch im IT-Bereich zahlreiche Kolleginnen an Bord zu haben! Im Interview verrät unsere IAG Beraterin Petra Bremer, wie sie zu ihrem Beruf gekommen ist und was sie daran begeistert.

Blog

Deno – Das müsst ihr über die Laufzeitumgebung wissen

Deno nennt sich die neueste Kreation von Ryan Dahl, dem ursprünglichen Schöpfer von Node.js. Die neue Laufzeitumgebung weist einige spannende Neuerungen auf – mehr dazu in unserem Blogbartikel!

Blog 17.12.20

So können Sie Ihre Infrastruktur automatisieren

Ansible ist ein Tool zur Konfiguration und Administration von Servern, um sich wiederholende Aufgaben zu automatisieren.

Boxhandschuhe als Symbol für Entscheidung zwischen Data Lake und Data Warehouse
Blog 15.02.22

Data Lake vs Data Warehouse: Welche Lösung ist die Richtige?

Geht es um die Speicherung großer Datenmengen, kommt man um die Begriffe Data Lake und Data Warehouse kaum herum. Welche der beiden Lösungen für welchen Anwendungsfall geeignet ist!

Checkliste als Symbol für die verschiedenen To Dos im Bereich Lizenzmanagement
Blog 01.02.22

Lizenzmanagement fest im Griff - Das sollten Sie wissen!

Lizenzmanagement hat nicht nur Relevanz für das Thema Compliance, sondern kann auch Kosten und Risiken minimieren. Mehr dazu im Beitrag.

Mit Turbonomic IT-Kosten sparen
Blog 22.06.23

So einfach sparen Sie mit IBM Turbonomic IT-Kosten!

Freuen Sie sich mit uns auf eine sechsteilige Blogserie zum Thema Infrastruktur-Optimierung mit IBM Turbonomic. Im ersten Teil klären wir Fragen und Mehrwert von Turbonomic.

Blog 11.05.23

EU-Nachhaltigkeitsrichtlinie (CSRD) – das müssen Sie wissen!

Die Corporate Sustainability Reporting Directive (CSRD) kommt! Was bedeutet das für Ihr Unternehmen? Wir haben es im Blog zusammengefasst!