Jupyter Notebooks und ETL Prozesse

In diesem Blogbeitrag möchten wir uns mit den möglichen Tools beschäftigen, die für Data Science zum Einsatz kommen. Wir bei OpenAdvice (mittlerweile Teil der TIMETOACT) bevorzugen den Einsatz von Jupyter Notebooks in Kombination mit einer Python Version. Welche Vorteile solche Notebooks haben und wie sie mit ihnen arbeiten können, werden wir in diesem Beitrag aufzeigen.

Über Jupyter Notebooks

Jupyter (eine Mischung aus den drei Programmiersprachen Julia, Python & R) ist ein Open Source Projekt, um das Arbeiten mit diversen Programmiersprachen in einer Umgebung möglichst simpel und anschaulich zu gestalten. Ein riesiger Vorteil ist die Darstellung. Wo andere GUIs (graphische Benutzeroberflächen) viele Möglichkeiten, insbesondere Debugger, liefern und oft erschlagend umfangreich sind, glänzt Jupyter mit Übersichtlichkeit ohne Abstriche in der Funktionalität. Den Grundstock bilden sogenannte Zellen. Hier gibt es die Möglichkeit zwischen Code-Zellen (zum Programmieren) und Markdown-Zellen zu wählen. Man kann dementsprechend seinen Code mit Texten, Bildern und z.B. auch .gif Datein kombinieren. Erzeugte Plots, Karten oder Grafiken werden ebenfalls direkt im Notebook dargestellt. Das leichte Exportieren in verschiedene Formate (.pdf, .html, .py, .tex,…) kreiert so ein vollständiges Dokument. So ist es möglich seine Erkenntnisse direkt auszuformulieren und mit dem Code und Grafiken zusammen zu einer Analyse im PDF Format zu exportieren. Alle Beitrage aus dieser Reihe sind und werden aus demonstrationszwecken ebenfalls ausschließlich mit Jupyter Notebooks erstellt. Gerade im Bereich Data Science, wo es u.a. darum geht mit Daten zu jonglieren, sie zu untersuchen, zu visualisieren und die daraus gezogenen Kenntnisse auszuformulieren, liefern Jupyter Notebooks die perfekte Basis alle Aufgabe mit einem (kostenlosen) Tool zu bewältigen. Die einzelnen Stationen eines typischen Projekts wollen wir kurz anschneiden und erklären.

ETL - Extract Transform Load

Nachdem man sich mit der Materie des Projekt vertraut gemacht hat, ist es essenziell die zugehörigen Daten zu sammeln, diese aufzubereiten und anschließend zur Weiterverarbeitung zu sichern. Dieses Vorgehen nennt man auch ETL-Prozess.

Ein typischer ETL Prozess könnte so aussehen:

Einlesen von Daten

Wir wollen einige Möglichkeiten präsentieren, wie man verschiedene Datenquellen mit Python einlesen kann. Zur Datensicherung und -aufbereitung bietet sich das Package Pandas an. Damit werden eingelesene Daten in DataFrames (Tabellen) gespeichert. Ein mal eingelesen kann man diese beliebig weiterverarbeiten. Das macht das Aufbereiten sehr viel handlicher. Neben der Möglichkeit lokal mit Jupyter Notebooks zu arbeiten, gibt es auch in IBM Cognos Analytics die Möglichkeit mit Notebooks zu arbeiten. Die in IBM Cognos Analytics erstellen Datenmodule, Data Sources und auch hochgeladenen Datein können leicht eingelesen werden. Hierfür gibt es einen integrierten Data Connector (CADataConnector). Auch diese eingelesenen Daten werden in einem DataFrame gespeichert.

Datenverarbeitung

Nachdem wir nun Daten eingelesen haben, können wir mit ihnen arbeiten, sie aufbereiten und auch damit rechnen. Die Pandas library bietet hierfür eine Vielzahl von Möglichkeiten. Wie man Daten in ein Notebook einliest haben wir bereits gesehen. Einige der oben aufgeführten Transformationen wollen wir ihnen vorführen. Viele dieser Verarbeitungsschritte sind sogenannte One-liner, das heißt, sie können in nur einer Zeile Code umgesetzt werden. Wir wollen annehmen, dass wir unsere Daten in einem DataFrame namens “df_Beispiel” eingelesen haben.

Datensicherung

Je nach Anforderung können die Daten direkt in eine Datenbank geschrieben werden, oder lokal in Form einer Datei gesichert werden.

Natürlich ist ein ETL Prozess weitaus komplexer und umfangreicher und je nach Projektziel müssen auch weitere Transformationen passieren. Mit diesem Beitrag sollten sie einen kurzen Einblick erhalten wie ein ETL Prozess aussehen könnte. Im nächsten Beitrag dieser Serie freuen wir uns, ihnen verschiedene Arten von Visualisierungen zu zeigen, um die bearbeiteten Daten zielgerecht präsentieren zu können.

Service

Artificial Intelligence & Data Science

Aus strukturierten und unstrukturierten Daten wertvolle Informationen extrahieren — das verbirgt sich hinter Data Science.

Technologie

IBM Decision Optimization

Mathematische Algorithmen ermöglichen ein schnelles und effizientes Verbessern von teilweise gegenläufigen Vorgaben. Als integraler Bestandteil der IBM Data Science Plattform „Cloud Pak for Data“ bzw. „IBM Watson Studio” wurde die Entscheidungsoptimierung entscheidend erweitert und in den Data Science Prozess eingebettet.

Referenz

Releasewechsel eines eingesetzten IAM-Tools

TIMETOACT erhielt den Auftrag, einen Major Releasewechsel beim eingesetzten IAM-Tool durchzuführen und die Prozesse soweit wie möglich zurück zum Standard des Produktes zu entwickeln. Gleichzeitig wurde ein Wechsel des Service Providers notwendig, was zur Folge hatte, dass sämtliche Komponenten des IAM in ein neues Rechenzentrum umgezogen werden mussten.

Service

Data Science, Artificial Intelligence und Machine Learning

Data Science wird seit einiger Zeit als die Königsdisziplin bei der Erkennung von wertvollen Informationen in größeren Datenmengen gehandelt.

Service

Data Science, Artificial Intelligence und Machine Learning

Data Science wird seit einiger Zeit als die Königsdisziplin bei der Erkennung von wertvollen Informationen in größeren Datenmengen gehandelt.

Technologie

IBM SPSS Modeler

IBM SPSS Modeler ist ein Werkzeug, mit dessen Hilfe Aufgabenstellungen beispielsweise aus dem Bereich Data Science und Data Mining über eine grafische Benutzeroberfläche modelliert und ausgeführt werden können.

Kompetenz 16.09.20

Prozess Automatisierung

Effiziente Prozesse sind das A&O, um Ziele eines Unternehmens zu erreichen. Prozess Automatisierung kommt spätestens ins Spiel, sobald wiederkehrende Tätigkeiten zu viel Zeit in Anspruch nehmen.

Kompetenz 03.09.20

Prozess Management

Prozess Management bedeutet in der Einführungsphase einen Mehraufwand, der sich schnell in einen Mehrwert sowohl für Ihr Unternehmen als auch für Mitarbeiter, Geschäftspartner und Kunden verwandelt.

Kompetenz 05.03.25

Prozess Automation

Efficient processes are the key to achieving a company's goals. Process automation comes into play as soon as rule-based, recurring activities take too much time and distract attention from

Event

TIMETOACT GROUP auf dem Data & AI Forum 2020

Unsere Experten zeigen auf dem IBM Data & AI Forum, wie sich Erkenntnisse aus Data Science für die Planung nutzen und so Kapazitäten optimal auschöpfen und auf Finanzkennzahlen ableiten lassen.

Presse 14.04.23

Fachbeitrag: ChatGPT- Chancen & Risiken für Unternehmen

Fachbeitrag in ZDNET zu Chancen und Risiken von ChatGPT in Unternehmen von Matthias Bauer, Teamlead Data Science bei X-INTEGRATE

Service

AI & Data Science

Wir bieten umfassende Lösungen im Bereich Data Science, Machine Learning und AI, die auf Ihre spezifischen Herausforderungen und Ziele zugeschnitten sind.

Pressemitteilung zur X-INTEGRATE Partnerschaft mit Talend

News 07.07.20

X-INTEGRATE erweitert Partnerschaft mit Talend

Die X-INTEGRATE GmbH wird in ihren Projekten für Data Sciences, Big Data und IoT künftig verstärkt die Software von Talend einsetzen, des US-amerikanischen Spezialisten für Datenmanagement und -integration.

Kompetenz 03.09.20

Data Science, AI & Advanced Analytics

Data Science & Advanced Analytics umfasst ein breites Spektrum von Werkzeugen, die Geschäftsabläufe untersuchen und helfen können, Änderungen und Verbesserungen herbeizuführen.

Blog 07.03.23

Kritikalität im IAM

Jede Person im Unternehmen, mit Zugriff auf ein IT-System, stellt ein mögliches Sicherheitsrisiko dar. Ein Leitfaden für die Bewertung und Handhabung von kritischen Zugriffen gibt es in unserem aktuellen Blogbeitrag.

Blog 04.01.22

Microsoft Viva – was bietet die neue Plattform?

Das neue Microsoft 365 Tool für eine verbesserte Employee Experience. Lesen Sie im Blogbeitrag von Ralph Siepmann, was genau sich hinter Microsoft Viva verbirgt.

Übersicht

Jira Administration Part 2 (Data Center)

In dem Training “Jira Administration Part 2 (Data Center)” lernen die Teilnehmer:innen die notwendigen Administrationsaufgaben für ein produktiv eingesetztes Jira-System kennen.

News 11.07.22

Datengetriebene Prozesse & Geschäftsmodelle

Datengetriebene Prozesse und Geschäftsmodelle - ein Kundenevent der TIMETOACT im Juli 2022 mit zahlreichen Fachvorträgen, Anwendungsbeispielen und viel PS.

Event 14.04.22

Datengetriebene Prozesse & Geschäftsmodelle

In der besonderen Kulisse der MOTORWORLD Stuttgart möchten wir Sie zu spannenden Vorträgen rundum innovativen Softwarelösungen auf Basis konkreter Kundenprojekte einladen.

Kompetenz 14.05.24

Graphentechnologie

Wir helfen Ihnen, das volle Potential der Graphen zu nutzen, um Ihr Unternehmen zu transformieren. Unser Fachwissen reicht von der Modellierung von Graphdatenbanken und Graph Data Science bis hin zu generativer KI.

Jupyter Notebooks und ETL Prozesse

Über Jupyter Notebooks

ETL - Extract Transform Load

Einlesen von Daten

Datenverarbeitung

Datensicherung

Erfahren Sie mehr

Artificial Intelligence & Data Science

IBM Decision Optimization

Releasewechsel eines eingesetzten IAM-Tools

Data Science, Artificial Intelligence und Machine Learning

Data Science, Artificial Intelligence und Machine Learning

IBM SPSS Modeler

Prozess Automatisierung

Prozess Management

Prozess Automation

TIMETOACT GROUP auf dem Data & AI Forum 2020

Fachbeitrag: ChatGPT- Chancen & Risiken für Unternehmen

AI & Data Science

X-INTEGRATE erweitert Partnerschaft mit Talend

Data Science, AI & Advanced Analytics

Kritikalität im IAM

Microsoft Viva – was bietet die neue Plattform?

Jira Administration Part 2 (Data Center)

Datengetriebene Prozesse & Geschäftsmodelle

Datengetriebene Prozesse & Geschäftsmodelle

Graphentechnologie

Bleiben Sie mit dem TIMETOACT GROUP Newsletter auf dem Laufenden!