Jupyter Notebooks und ETL Prozesse

In diesem Blogbeitrag möchten wir uns mit den möglichen Tools beschäftigen, die für Data Science zum Einsatz kommen. Wir bei OpenAdvice (mittlerweile Teil der TIMETOACT) bevorzugen den Einsatz von Jupyter Notebooks in Kombination mit einer Python Version. Welche Vorteile solche Notebooks haben und wie sie mit ihnen arbeiten können, werden wir in diesem Beitrag aufzeigen.

Über Jupyter Notebooks

Jupyter (eine Mischung aus den drei Programmiersprachen Julia, Python & R) ist ein Open Source Projekt, um das Arbeiten mit diversen Programmiersprachen in einer Umgebung möglichst simpel und anschaulich zu gestalten. Ein riesiger Vorteil ist die Darstellung. Wo andere GUIs (graphische Benutzeroberflächen) viele Möglichkeiten, insbesondere Debugger, liefern und oft erschlagend umfangreich sind, glänzt Jupyter mit Übersichtlichkeit ohne Abstriche in der Funktionalität. Den Grundstock bilden sogenannte Zellen. Hier gibt es die Möglichkeit zwischen Code-Zellen (zum Programmieren) und Markdown-Zellen zu wählen. Man kann dementsprechend seinen Code mit Texten, Bildern und z.B. auch .gif Datein kombinieren. Erzeugte Plots, Karten oder Grafiken werden ebenfalls direkt im Notebook dargestellt. Das leichte Exportieren in verschiedene Formate (.pdf, .html, .py, .tex,…) kreiert so ein vollständiges Dokument. So ist es möglich seine Erkenntnisse direkt auszuformulieren und mit dem Code und Grafiken zusammen zu einer Analyse im PDF Format zu exportieren. Alle Beitrage aus dieser Reihe sind und werden aus demonstrationszwecken ebenfalls ausschließlich mit Jupyter Notebooks erstellt. Gerade im Bereich Data Science, wo es u.a. darum geht mit Daten zu jonglieren, sie zu untersuchen, zu visualisieren und die daraus gezogenen Kenntnisse auszuformulieren, liefern Jupyter Notebooks die perfekte Basis alle Aufgabe mit einem (kostenlosen) Tool zu bewältigen. Die einzelnen Stationen eines typischen Projekts wollen wir kurz anschneiden und erklären.

ETL - Extract Transform Load

Nachdem man sich mit der Materie des Projekt vertraut gemacht hat, ist es essenziell die zugehörigen Daten zu sammeln, diese aufzubereiten und anschließend zur Weiterverarbeitung zu sichern. Dieses Vorgehen nennt man auch ETL-Prozess.

Ein typischer ETL Prozess könnte so aussehen:

Einlesen von Daten

Wir wollen einige Möglichkeiten präsentieren, wie man verschiedene Datenquellen mit Python einlesen kann. Zur Datensicherung und -aufbereitung bietet sich das Package Pandas an. Damit werden eingelesene Daten in DataFrames (Tabellen) gespeichert. Ein mal eingelesen kann man diese beliebig weiterverarbeiten. Das macht das Aufbereiten sehr viel handlicher. Neben der Möglichkeit lokal mit Jupyter Notebooks zu arbeiten, gibt es auch in IBM Cognos Analytics die Möglichkeit mit Notebooks zu arbeiten. Die in IBM Cognos Analytics erstellen Datenmodule, Data Sources und auch hochgeladenen Datein können leicht eingelesen werden. Hierfür gibt es einen integrierten Data Connector (CADataConnector). Auch diese eingelesenen Daten werden in einem DataFrame gespeichert.

Datenverarbeitung

Nachdem wir nun Daten eingelesen haben, können wir mit ihnen arbeiten, sie aufbereiten und auch damit rechnen. Die Pandas library bietet hierfür eine Vielzahl von Möglichkeiten. Wie man Daten in ein Notebook einliest haben wir bereits gesehen. Einige der oben aufgeführten Transformationen wollen wir ihnen vorführen. Viele dieser Verarbeitungsschritte sind sogenannte One-liner, das heißt, sie können in nur einer Zeile Code umgesetzt werden. Wir wollen annehmen, dass wir unsere Daten in einem DataFrame namens “df_Beispiel” eingelesen haben.

Datensicherung

Je nach Anforderung können die Daten direkt in eine Datenbank geschrieben werden, oder lokal in Form einer Datei gesichert werden.

Natürlich ist ein ETL Prozess weitaus komplexer und umfangreicher und je nach Projektziel müssen auch weitere Transformationen passieren. Mit diesem Beitrag sollten sie einen kurzen Einblick erhalten wie ein ETL Prozess aussehen könnte. Im nächsten Beitrag dieser Serie freuen wir uns, ihnen verschiedene Arten von Visualisierungen zu zeigen, um die bearbeiteten Daten zielgerecht präsentieren zu können.

Headerbild zu IBM Watson Studio
Technologie

IBM Watson Studio

IBM Watson Studio ist eine integrierte Lösung für die Implementierung einer Data Science Landschaft. Sie hilft Unternehmen, den Prozess von der explorativen Analyse bis zur Implementierung und Operationalisierung der Analyseprozesse zu strukturieren und zu vereinfachen.

Navigationsbild zu Data Science
Service

Data Science, Artificial Intelligence und Machine Learning

Data Science wird seit einiger Zeit als die Königsdisziplin bei der Erkennung von wertvollen Informationen in größeren Datenmengen gehandelt.

Gruppe von Studenten
Blog 04.01.22

Microsoft Viva – was bietet die neue Plattform?

Das neue Microsoft 365 Tool für eine verbesserte Employee Experience. Lesen Sie im Blogbeitrag von Ralph Siepmann, was genau sich hinter Microsoft Viva verbirgt.

Headerbild zu IBM Decision Optimization
Technologie

IBM Decision Optimization

Mathematische Algorithmen ermöglichen ein schnelles und effizientes Verbessern von teilweise gegenläufigen Vorgaben. Als integraler Bestandteil der IBM Data Science Plattform „Cloud Pak for Data“ bzw. „IBM Watson Studio” wurde die Entscheidungsoptimierung entscheidend erweitert und in den Data Science Prozess eingebettet.

Headerbild zu Microsoft Azure
Technologie

Microsoft Azure

Azure ist das Cloud Angebot von Microsoft. In Azure werden zahlreiche Services bereitgestellt, nicht nur für analytische Anforderungen. Besonders zu nennen aus analytische Perspektive sind Services für die Datenhaltung (relational, NoSQL und in-Memory / mit Microsoft oder OpenSource Technologie), Azure Data Factory für Datenintegration, zahlreiche Services inklusive AI und natürlich Services für BI, wie Power BI oder Analysis Services.

Headerbild für IBM SPSS
Technologie

IBM SPSS Modeler

IBM SPSS Modeler ist ein Werkzeug, mit dessen Hilfe Aufgabenstellungen beispielsweise aus dem Bereich Data Science und Data Mining über eine grafische Benutzeroberfläche modelliert und ausgeführt werden können.

Event

TIMETOACT GROUP auf dem Data & AI Forum 2020

Unsere Experten zeigen auf dem IBM Data & AI Forum, wie sich Erkenntnisse aus Data Science für die Planung nutzen und so Kapazitäten optimal auschöpfen und auf Finanzkennzahlen ableiten lassen.

Jul 30
Headerbild IBM Cloud Pak for Data
Technologie

IBM Cloud Pak for Data

Das Cloud Pak for Data fungiert als zentrale, modulare Plattform für analytischen Anwendungsfälle. Es integriert Funktionen für die physikalische und virtuelle Integration von Daten in einen zentralen Datenpool – einen Data Lake oder ein Data Warehouse, einen umfassenden Datenkatalog und zahlreicher Möglichkeiten der (AI-) Analyse bis zur operativen Nutzung derselben.

News 11.07.22

Datengetriebene Prozesse & Geschäftsmodelle

Datengetriebene Prozesse und Geschäftsmodelle - ein Kundenevent der TIMETOACT im Juli 2022 mit zahlreichen Fachvorträgen, Anwendungsbeispielen und viel PS.

Headerbild zu Cloud Pak for Data – Test-Drive
Technologie

IBM Cloud Pak for Data – Test-Drive

Wir wollen durch die Bereitstellung unserer umfassenden Demo- und Kundendatenplattform diesen Kunden eine Möglichkeit bieten pragmatisch einen Eindruck der Technologie mit ihren Daten zu bekommen.

Event 14.04.22

Datengetriebene Prozesse & Geschäftsmodelle

In der besonderen Kulisse der MOTORWORLD Stuttgart möchten wir Sie zu spannenden Vorträgen rundum innovativen Softwarelösungen auf Basis konkreter Kundenprojekte einladen.

Jul 07
Referenz

Digitalisierte Prozesse steigern Effizienz

TIMETOACT & X-INTEGRATE begleiten Energieversorger e-regio auf dem Weg zur Digitalisierung. DIe Beratungsleistungen in dem Projekt umfassten unter anderem die Bereiche Content Management, Archivierung, Collaboration und Automatisierung .

Event

Information Architecture Digital Partner Summit EMEA

08. - 10. September: Zum zweiten Mal findet dieses Jahr der IBM Partner Summit for Information Architecture vom 08.-10. September nachmittags statt. Auf der Agenda stehen verschiedene Keynotes, Case Studies und Vorträge rund um Information Architecture Strategy, Data Management, Data Science und Modernization.

Sep 08
Teaserbild IT Service Management Beratung
Service

IT Service Management Beratung: Prozesse mit IT unterstützen

IT sollte kunden- und serviceorientiert sein. Wir helfen bei der Umsetzung eines effektiven und effizienten IT Service Managements.

Kompetenz 11.02.25

IT Asset Management: Mit Program Design Prozesse optimieren

Mit unserem IT Asset Management Program Design schaffen wir Struktur und Transparenz in Ihren ITAM-Prozessen. Unsere Expert:innen beginnen mit einer detaillierten Reifegradbewertung, entwickeln eine maßgeschneiderte Roadmap und implementieren klare Governance-Strukturen, die individuell auf Ihre Anforderungen abgestimmt sind. Darüber hinaus unterstützen wir Sie bei einer optionalen Zertifizierung nach ISO 19770, um Compliance und Exzellenz sicherzustellen. So optimieren Sie Ihr IT Asset Management, minimieren Risiken und steigern Ihre Effizienz.

Event Archive 08.05.24

Treffen Sie uns auf der TDWI München 2024!

Wir sind dabei! Vom 11. bis 13. Juni startet der jährliche Branchentreff zahlreicher Daten-Experten auf der TDWI München 2024. Aktuelles Wissen, Hypes und Tools werden auf Deutschlands größter Konferenz für Data, Analytics und KI präsentiert. Reisen Sie gemeinsam mit uns durch das Data Universe, sichern Sie sich einen Platz in unseren spannenden Fachvorträgen und kommen Sie auf eine Runde Mario Kart an unserem Stand vorbei.

Jun 11
Online survey filling out and digital form checklist by laptop computer, Document Management Checking System, online documentation database and process manage files
Blog

Mit End-to-End Testing zur einwandfreien Webanwendung

Webanwendungen sind selten statisch. Damit bestehende Funktionen und Layouts dabei keinen Schaden nehmen, kommen End-to-End Tests zum Einsatz.

Blog

9 Tipps & Tricks für Angular

Angular ist unter Webentwicklern ein beliebtes Framework für das Programmieren von Web-, Desktop- und mobilen Anwendungen. In unserer Anleitung haben wir neun Tipps & Tricks zusammengestellt, welche Angular-Einsteigern und Profis die Webentwicklung garantiert erleichtert.

Blog

Top 10 CSS Tipps & Tricks in 2020

Um die Programmiersprache CSS kommt wohl kein Webentwickler herum. Wir haben für euch zehn Tipps & Tricks zusammengefasst, die ihr in 2020 kennen solltet.

Blog

Live Share für die reibungslose Kommunikation in VS Code

Mit der Microsoft Extension Live Share habt ihr die Möglichkeit, gemeinsam mit eurem Team in Visual Studio Code am selben Code zu arbeiten, euch via Chat oder Audio auszutauschen oder Kollegen euren Server zur Verfügung zu stellen.