Die Data Engineering Reise

Data Vault Tabellentypen - Hubs, Links, Satelliten

November 06, 2023 19:06 - 3 seconds - 58.8 KB

Eine Modellierungsmethode, um Daten im Data Warehouse zu strukturieren, ist das Data Vault Konzept. Was sind nun aber die Haupttabellentypen?

Gründe für die Normalisierung in Datenbanken

February 09, 2023 21:08 - 4 minutes - 3.92 MB

Normalisierung wird in Datenbanken angewendet, um Duplikate und Datenredundanz zu vermeiden, die Integrität und Konsistenz der Daten zu gewährleisten und die Performance der Datenbank zu verbessern.

NoSQL Datenbanken vs Relationale Datenbanken

February 08, 2023 21:44 - 2 minutes - 2.12 MB

Relationale Datenbanken nutzen eine tabellarische Struktur, während NoSQL-Datenbanken eine flexible nicht-relationale Struktur verwenden.

Normalisierung in Datenbanken

February 07, 2023 21:52 - 8 minutes - 7.57 MB

Redundanzen und Abhängigkeiten vermeiden.

Primärschlüssel und Fremdschlüssel in Datenbanken

February 06, 2023 22:17 - 4 minutes - 4.54 MB

Ein Primärschlüssel ist ein eindeutiger Wert, der verwendet wird, um einen Datensatz in einer Tabelle zu identifizieren. Ein Fremdschlüssel hingegen ist ein Primärschlüssel einer anderen Tabelle, der in einer anderen Tabelle verwendet wird, um eine Beziehung zwischen den Tabellen herzustellen.

Materialized Views vs Views / SQL Datenbanken und Performance-Verbesserung

February 05, 2023 22:07 - 6 minutes - 6.35 MB

Eine Materialized View speichert das Ergebnis einer Abfrage und stellt es als eine separate Tabelle bereit, während eine View lediglich eine virtuelle Tabelle darstellt, die auf das Ergebnis einer Abfrage verweist. Materialized Views bieten eine bessere Performance, da das Ergebnis einer Abfrage bereits gespeichert ist, während Views jedes Mal neu berechnet werden müssen, wenn sie abgefragt werden.

SQL Basics

February 04, 2023 22:40 - 4 minutes - 3.91 MB

Einige kurze Sätze zum Thema SQL und relationale Datenbanken.

Scrum im Data Engineering

February 03, 2023 21:38 - 7 minutes - 6.63 MB

Scrum ist ein agiles Projektmanagement-Framework, das einen iterativen Ansatz und eine enge Zusammenarbeit und Kommunikation zwischen Teammitgliedern bei der Produktentwicklung fördert. Es verwendet regelmäßige Überprüfungen, Anpassungen und kurze Iterationen (Sprints), um eine hohe Kundenzufriedenheit zu erreichen.

Einfache SQL Interview Frage

February 03, 2023 21:35 - 4 minutes - 4.04 MB

Frage: Wie kann man in SQL die häufigsten Werte in einer Spalte finden?

Data Vault - Daten Modellierung - flexibel und skalierbar

February 02, 2023 21:50 - 8 minutes - 8 MB

Schneller Überblick über das Data Vault Konzept. Mit Beispiel für die Hub, Link und Sateliten Tabellen.

Dimensional Modeling vs Entity Relationship Modeling

February 01, 2023 21:19 - 4 minutes - 3.94 MB

Die eine Modellierungsvariante ist eher für Data Warehouses und die andere für OLTP Systeme.

ACID Konzept in Datenbankmanagement-Systemen

February 01, 2023 20:33 - 3 minutes - 3.68 MB

ACID ist ein Konzept für Datenbankmanagement-Systeme, das Atomarität, Konsistenz, Isolation und Dauerhaftigkeit garantiert, um die Integrität und Zuverlässigkeit von Transaktionen in einer Datenbank zu gewährleisten.

Datenmodellierung kurzer Einblick und verschiedene Modelle

January 30, 2023 21:24 - 4 minutes - 4.28 MB

Datawarehouse-Modellierung kurzer Einblick. https://larsmuellensiefen.substack.com/

ER- Diagramm - OLTP Datenbank-Modellieren

January 30, 2023 20:27 - 6 minutes - 5.62 MB

Datenbankmodellierung mit ER Diagramm. https://larsmuellensiefen.substack.com/

ER- Diagramm - Datenbank-Modellieren

January 30, 2023 20:27 - 6 minutes - 5.62 MB

Datenbankmodellierung mit ER Diagramm. https://larsmuellensiefen.substack.com/

FinOps => Cloud Finanzverwaltung und -optimierung

January 29, 2023 19:42 - 7 minutes - 6.76 MB

FinOps ist ein Ansatz zur Finanzverwaltung und -optimierung in Unternehmen, die Cloud-Computing-Dienste nutzen. Es beinhaltet die Verwaltung von Kosten, Compliance, Risiken und Governance in Bezug auf Cloud-Dienste, sowie Überwachung und Optimierung der Nutzung von Ressourcen, um sicherzustellen, dass sie effizient und kosteneffektiv genutzt werden... - https://larsmuellensiefen.substack.com/

Data Fabric, was ist das?

January 29, 2023 19:28 - 5 minutes - 5.28 MB

Ein Data Fabric ist ein Konzept der Datenarchitektur, das es ermöglicht, Daten auf flexible und skalierbare Weise zu organisieren und zu verwalten, über mehrere Systeme und Standorte hinweg und ermöglicht eine einheitliche und integrierte Datenverwaltung. https://larsmuellensiefen.substack.com/

KI Systeme - Einsatz in der Praxis ChatGPT o. ä. als Data Engineer

January 28, 2023 21:40 - 4 minutes - 4.2 MB

Ersetzten ChatGPT und ähnliche KI basierte Werkzeuge bereits einen Data Engineer?

KI Systeme Einsatz in der Praxis ChatGPT o. ä. als Data Engineer

January 28, 2023 21:40 - 4 minutes - 4.2 MB

Ersetzten ChatGPT und ähnliche KI basierte Werkzeuge bereits einen Data Engineer?

KI als Werkzeug

January 26, 2023 06:16 - 5 minutes - 5.33 MB

Insgesamt ist KI ein leistungsfähiges Werkzeug, das die Effizienz und Genauigkeit von Aufgaben der Datenverarbeitung erheblich verbessern kann und Unternehmen ermöglicht, tiefere Einblicke zu gewinnen und aufgrund ihrer Daten informierte Entscheidungen zu treffen.

KI in der Datenverarbeitung

January 25, 2023 19:13 - 6 minutes - 6.38 MB

Insgesamt kann KI viele Aufgaben der Datenverarbeitung automatisieren und neue Möglichkeiten bieten, aber die menschliche Expertise und das Verständnis des Data Engineer für die spezifische Geschäftsdomäne kann entscheidend sein, um effektive Datensysteme zu entwerfen und umzusetzen.

Star Schema vs Snowflake Schema Daten Modellierung im Data Warehouse

January 24, 2023 20:04 - 4 minutes - 4.27 MB

Star Schema und Snowflake Schema sind beides Techniken, die in Data Warehouses verwendet werden, um Daten zu organisieren und zu strukturieren, damit sie leicht abgefragt und analysiert werden können.

Python-Packages und Librarys für Data Engineering

January 23, 2023 18:51 - 5 minutes - 5.21 MB

https://larsmuellensiefen.substack.com/ - Data Engineering ist ein wichtiger Bestandteil des Prozesses der Datenverarbeitung, der sich mit der Gewinnung, Vorbereitung, Verarbeitung und Verwaltung von Daten beschäftigt. Es gibt viele Python-Pakete, die für die Unterstützung von Data-Aufgaben entwickelt wurden und die es ermöglichen, Daten effektiv zu verarbeiten und zu analysieren. Einige dieser wichtigen Pakete sind Pandas, NumPy, Scikit-learn, TensorFlow, PySpark, Airflow, Dask und SQLAlchemy.

Rust Programmiersprache

January 22, 2023 21:45 - 5 minutes - 5.36 MB

https://larsmuellensiefen.substack.com/ - Rust ist eine moderne Programmiersprache. Sie zielt darauf ab, sicher, schnell und stabil zu sein.

Python Modules vs Packages

January 21, 2023 22:03 - 4 minutes - 3.81 MB

Zusammenfassend ist ein Paket eine Sammlung von Modulen, die in einer Verzeichnisstruktur organisiert sind, während ein Modul eine einzelne Datei mit Python-Definitionen und Anweisungen ist.

Python Module vs Packages

January 21, 2023 22:03 - 4 minutes - 3.81 MB

Zusammenfassend ist ein Paket eine Sammlung von Modulen, die in einer Verzeichnisstruktur organisiert sind, während ein Modul eine einzelne Datei mit Python-Definitionen und Anweisungen ist.

Hyperscaler - wofür steht dieser Begriff im Kentext der "Cloud"?

January 21, 2023 19:38 - 4 minutes - 4.02 MB

Der Begriff "Hyperscaler" beschreibt Unternehmen, wie AWS, M. Azure und GCP... die extreme Skalierbarkeit und Flexibilität der Cloud-Computing-Infrastrukturen ermöglichen. Sie haben die Fähigkeit, ihre Ressourcen schnell und in großem Umfang bereitzustellen, um die Anforderungen von Unternehmen und Entwicklern zu erfüllen.

Pandas vs SQL eine kurze Gegenüberstellung

January 20, 2023 16:44 - 3 minutes - 3.1 MB

Beide Systeme eignen sich für die Arbeit mit Daten. Pandas ist ein Python Package und SQL ist eine Datenbankanfragesprache. https://larsmuellensiefen.substack.com/

5 Python Beispielpackages für Data Engineers

January 19, 2023 21:19 - 8 minutes - 7.6 MB

https://larsmuellensiefen.substack.com/ - Es ist eine der meistgenutzten Sprachen in der Branche und bietet eine Vielzahl von leistungsstarken Tools und Bibliotheken, um Daten effizient zu sammeln, zu transformieren und zu analysieren. Mit Pandas und NumPy kann man mühelos große Datenmengen manipulieren und analysieren. Kurz gesagt, Python ist ein unverzichtbares Werkzeug für jeden Data Engineer.

Container vs Virtual Machines

January 18, 2023 21:15 - 9 minutes - 8.5 MB

https://larsmuellensiefen.substack.com/ - Ein Container ist eine Art von Software, die es ermöglicht, Anwendungen und ihre Abhängigkeiten zusammenzufassen und in einer einzigen, tragbaren und ausführbaren Einheit bereitzustellen. Im Gegensatz dazu ist eine virtuelle Maschine eine Software-Emulation eines physischen Computers, die es ermöglicht, mehrere Betriebssysteme und Anwendungen auf einem einzigen physischen Computer auszuführen.

Tables vs Views in relationalen Datenbanken

January 18, 2023 18:00 - 6 minutes - 5.88 MB

https://larsmuellensiefen.substack.com/ - Tables und Views sind beide wichtige Bestandteile einer relationalen Datenbank, aber sie haben einige wichtige Unterschiede. Eine Tabelle ist das grundlegendste Objekt und wird verwendet, um Daten in einer Datenbank zu speichern. Sie werden mithilfe von SQL definiert und haben eine Reihe von Spalten und einen Datentyp für jede Spalte. Tabellen speichern die Daten physisch und können abgefragt, aktualisiert und verändert werden. Views hingegen sind vir...

Self Service - ohne Daten-Experten oder IT-Abteilungen mit Daten Wert stiften...

January 17, 2023 21:48 - 4 minutes - 3.95 MB

https://larsmuellensiefen.substack.com/ - Self-Service im Data-Bereich ermöglicht es Benutzern, Daten selbstständig zu erfassen, zu analysieren und zu visualisieren, ohne dass sie dazu auf die Unterstützung von Experten oder IT-Abteilungen angewiesen sind. Dies erfordert keine umfangreichen technischen Kenntnisse und erleichtert die Verarbeitung und Auswertung von Daten.

Die Demokratisierung von Daten - Buzzword erklärt

January 17, 2023 21:37 - 5 minutes - 5.18 MB

https://larsmuellensiefen.substack.com/ - Die Demokratisierung von Daten im Data-Bereich bezieht sich auf die Verbreitung von Tools und Technologien, die es den Benutzern ermöglichen, Daten einfach zu erfassen, zu analysieren und zu visualisieren, ohne dass sie über umfangreiche technische Kenntnisse verfügen müssen.

Python als Data Engineer

January 16, 2023 20:00 - 5 minutes - 5.34 MB

https://larsmuellensiefen.substack.com/ - Python ist eine sehr beliebte Wahl für Aufgaben im Bereich des Data Engineering, da es eine große Anzahl von Bibliotheken und Frameworks bietet, die speziell für diesen Zweck entwickelt wurden. https://larsmuellensiefen.substack.com/

CTEs vs Temporäre Tabellen in SQL

January 16, 2023 19:05 - 6 minutes - 5.71 MB

https://larsmuellensiefen.substack.com/ - CTEs werden innerhalb einer Abfrage definiert und sind nur für die Dauer dieser Abfrage verfügbar, während temporäre Tabellen über mehrere Abfragen hinweg verwendet werden können und dauerhaft (bis zum Ende der Session) gespeichert sind. https://larsmuellensiefen.substack.com/

Newsletter fun #NEW

January 15, 2023 19:44 - 1 minute - 1.82 MB

https://larsmuellensiefen.substack.com/ Lass uns gemeinsam unser Data-Game auf das nächste Level heben... durch direkten Austausch, das Teilen von diversen Wissensquellen und die neuesten Branchenentwicklungen: https://larsmuellensiefen.substack.com/

Git als Nr1 Versionsverwaltungssystem

January 14, 2023 20:44 - 5 minutes - 5.05 MB

https://larsmuellensiefen.substack.com/ - Git ist ein Werkzeug, das Entwicklern dabei hilft, ihren Code zu verwalten und zu verfolgen. Es ermöglicht es ihnen, Änderungen an ihrem Code aufzunehmen, zu verfolgen und zu verwalten, was es erleichtert, zusammenzuarbeiten und Fehler zu beheben.

Microservices als Architekturstil für die Entwicklung von Anwendungen - kleinere,unabhängige Dienste

January 14, 2023 20:23 - 7 minutes - 6.98 MB

Microservices ist ein Architekturstil für die Entwicklung von Anwendungen, bei dem eine große Anwendung in kleinere, unabhängige Dienste aufgeteilt wird, die jeweils eine spezifische Funktion ausführen.

Data Mesh - was ist das und wie wird es eingesetzt?

January 14, 2023 20:01 - 3 minutes - 3.67 MB

Beim Data Mesh geht darum, die Verantwortung für die Verwaltung und Nutzung von Daten innerhalb eines Unternehmens auf mehrere Teams aufzuteilen und zu verteilen, anstatt dass ein zentrales Team für die Verwaltung aller Daten verantwortlich ist.

ELT Prozess grober Überblick - (Extract, Load, Transform)

January 13, 2023 23:24 - 6 minutes - 6.46 MB

ELT (Extract, Load, Transform) ist ein Prozess, bei dem Daten direkt aus ihrer Quelle extrahiert, in das Ziel-Datenlager geladen werden und dort transformiert werden. Dies im Gegensatz zu dem klassischen ETL-Prozess (Extract, Transform, Load), bei dem die Datenintegration in eine Zwischenablage durchgeführt wird, bevor sie in das Ziel-Datenlager geladen werden. ELT ermöglicht eine schnellere Verarbeitung und höhere Skalierbarkeit, jedoch erfordert es auch leistungsfähige Ziel-Datenlager und e...

ELT Prozess kurz und knapp - (Extract, Load, Transform) + Abgrenzung zum ETL Prozess

January 13, 2023 23:24 - 6 minutes - 6.46 MB

ELT (Extract, Load, Transform) ist ein Prozess, bei dem Daten direkt aus ihrer Quelle extrahiert, in das Ziel-Datenlager geladen werden und dort transformiert werden. Dies im Gegensatz zu dem klassischen ETL-Prozess (Extract, Transform, Load), bei dem die Datenintegration in eine Zwischenablage durchgeführt wird, bevor sie in das Ziel-Datenlager geladen werden. ELT ermöglicht eine schnellere Verarbeitung und höhere Skalierbarkeit, jedoch erfordert es auch leistungsfähige Ziel-Datenlager und e...

Deskriptive, Diagnostische, Prädiktive und Präskriptive Datenanalyse

January 12, 2023 20:40 - 8 minutes - 7.93 MB

Datenanalyse kann in vier verschiedene Kategorien unterteilt werden: Deskriptive, Diagnostische, Prädiktive und Präskriptive. Deskriptive Datenanalyse beschreibt und ordnet die vorhandenen Daten, um ein besseres Verständnis dafür zu erlangen. Diese Art von Analyse kann verwendet werden, um Verteilungen, Häufigkeiten und Muster in den Daten zu identifizieren. Diagnostische Datenanalyse untersucht die Daten, um mögliche Probleme oder Anomalien zu erkennen. Prädiktive Datenanalyse verwendet hist...

Data Vault Datenmodell im Schnelldurchlauf beschrieben...

January 11, 2023 21:57 - 2 minutes - 2.45 MB

Data Vault ist ein Ansatz zur Modellierung von Daten in einem Unternehmensdatenwarehouse, der sich auf Flexibilität und Skalierbarkeit konzentriert. Es nutzt drei Arten von Tabellen, um Daten zu organisieren: Hubs, Links und Satelliten.

SQL Aggregat Funktionen

January 10, 2023 22:13 - 3 minutes - 3.6 MB

Wie summiere ich Daten in einer Spalte auf? Durch Verwendung von SQL Aggregat-Funktionen.

PostgreSQL - open-source relationales Datenbankmanagementsystem (RDBMS)

January 09, 2023 18:41 - 4 minutes - 4.11 MB

PostgreSQL ist ein open-source relationales Datenbankmanagementsystem (RDBMS), das für seine Robustheit, Leistung und Flexibilität bekannt ist. Es wird häufig in Unternehmensumgebungen eingesetzt und unterstützt eine Vielzahl von Funktionen, darunter ACID-Transaktionen, vollständige Datenintegrität und Unterstützung für eine Vielzahl von Programmiersprachen.

Trennung von Compute und Storage - bedeutet, dass Rechenleistung und Datenspeicher getrennt sind

January 09, 2023 18:29 - 6 minutes - 5.77 MB

Die Trennung von Compute und Storage bezieht sich darauf, dass Rechenleistung und Datenspeicher getrennt sind und individuell skaliert werden können. Dies bedeutet, dass Benutzer die Menge an Ressourcen, die für die Berechnung von Abfragen verwendet werden, unabhängig von der Menge an gespeicherten Daten anpassen können. Dies hat den Vorteil, dass Benutzer die Ressourcen, die sie für ihre Anwendungen benötigen, besser optimieren und die Kosten für ihre Anwendungen besser verstehen und kontrol...

SQL JOINS - Daten aus verschiedenen Tabellen zusammenzuführen und analysieren

January 08, 2023 22:32 - 4 minutes - 3.88 MB

In SQL können JOINs verwendet werden, um Daten aus verschiedenen Tabellen zusammenzuführen und zu analysieren. Es gibt verschiedene Arten von JOINs, die je nachdem, wie die Tabellen miteinander verbunden werden sollen, verwendet werden können. Ein INNER JOIN gibt nur die Zeilen zurück, die in beiden Tabellen vorhanden sind. Ein LEFT JOIN gibt alle Zeilen aus der linken Tabelle und die zugehörigen Zeilen aus der rechten Tabelle zurück (falls vorhanden), während ein RIGHT JOIN alle Zeilen aus d...

SQL Basics - SQL kann verwendet werden, um Daten zu erstellen, zu ändern und zu löschen & Abzufragen

January 08, 2023 22:28 - 3 minutes - 3.32 MB

SQL kann verwendet werden, um Daten zu erstellen, zu ändern und zu löschen, sowie um Abfragen zu erstellen, die Informationen aus einer oder mehreren Datenbanktabellen abrufen. Es bietet auch eine Reihe von Funktionen zum Verarbeiten und Analyse von Daten, wie zum Beispiel Aggregatfunktionen und JOINs.

NoSQL-Datenbanken #Short

January 08, 2023 22:25 - 1 minute - 1.58 MB

NoSQL-Datenbanken sind eine Klasse von Datenbanken, die nicht das relationale Modell verwenden, das in den meisten traditionellen Datenbanken verwendet wird. Stattdessen verwenden sie alternative Datenmodelle, wie zum Beispiel Key-Value-Speicher, Dokumenten-Datenbanken oder Graph-Datenbanken.

Relationale Datenbanken vs Objektorientierte Datenbanken - kurze Gegenüberstellung mit Beispiel

January 07, 2023 22:20 - 4 minutes - 4.24 MB

In objektorientierten Datenbanken (OODBs) werden Daten als Objekte gespeichert und verwaltet, die Eigenschaften und Verhaltensweisen besitzen. In relationalen Datenbanken (RDBs) werden Daten in Tabellen gespeichert und miteinander verknüpft.

Die Data Engineering Reise

Episodes