
Die Data Engineering Reise
647 episodes - German - Latest episode: about 2 months ago -Podcast-Folgen zu diversen Data Engineering Themen.
Begib dich mit mir auf die Reise hin zu einem Experten in Sachen Data Engineering und gehe den Unternehmens-Datenschätzen auf den Grund.
Was steckt eigentlich in "BigData" und den großen Lagacy-Datenbanken der Unternehmen?
Wir finden es gemeinsam heraus.
Tools wie die größte Cloud Plattformen der Welt (AWS, Azure, GCP, ...), sowie Programmiersprachen (Python, ...), Scheduling Tools etc. helfen uns bei der Erschließung und der Bereitstellung spannender Insights.
https://www.linkedin.com/in/lars-m%C3%BCllensiefen-02645817a
Homepage Apple Podcasts Google Podcasts Overcast Castro Pocket Casts RSS feed
Episodes
Data Vault Tabellentypen - Hubs, Links, Satelliten
February 11, 2023 20:58 - 4 minutes - 3.73 MBEine Modellierubgsmethode, um Daten im Data Warehouse zu strukturieren, ist das Data Vault Konzept. Was sind nun aber die Haupttabellentypen?
Gründe für die Normalisierung in Datenbanken
February 09, 2023 21:08 - 4 minutes - 3.92 MBNormalisierung wird in Datenbanken angewendet, um Duplikate und Datenredundanz zu vermeiden, die Integrität und Konsistenz der Daten zu gewährleisten und die Performance der Datenbank zu verbessern.
NoSQL Datenbanken vs Relationale Datenbanken
February 08, 2023 21:44 - 2 minutes - 2.12 MBRelationale Datenbanken nutzen eine tabellarische Struktur, während NoSQL-Datenbanken eine flexible nicht-relationale Struktur verwenden.
Normalisierung in Datenbanken
February 07, 2023 21:52 - 8 minutes - 7.57 MBRedundanzen und Abhängigkeiten vermeiden.
Primärschlüssel und Fremdschlüssel in Datenbanken
February 06, 2023 22:17 - 4 minutes - 4.54 MBEin Primärschlüssel ist ein eindeutiger Wert, der verwendet wird, um einen Datensatz in einer Tabelle zu identifizieren. Ein Fremdschlüssel hingegen ist ein Primärschlüssel einer anderen Tabelle, der in einer anderen Tabelle verwendet wird, um eine Beziehung zwischen den Tabellen herzustellen.
Materialized Views vs Views / SQL Datenbanken und Performance-Verbesserung
February 05, 2023 22:07 - 6 minutes - 6.35 MBEine Materialized View speichert das Ergebnis einer Abfrage und stellt es als eine separate Tabelle bereit, während eine View lediglich eine virtuelle Tabelle darstellt, die auf das Ergebnis einer Abfrage verweist. Materialized Views bieten eine bessere Performance, da das Ergebnis einer Abfrage bereits gespeichert ist, während Views jedes Mal neu berechnet werden müssen, wenn sie abgefragt werden.
SQL Basics
February 04, 2023 22:40 - 4 minutes - 3.91 MBEinige kurze Sätze zum Thema SQL und relationale Datenbanken.
Scrum im Data Engineering
February 03, 2023 21:38 - 7 minutes - 6.63 MBScrum ist ein agiles Projektmanagement-Framework, das einen iterativen Ansatz und eine enge Zusammenarbeit und Kommunikation zwischen Teammitgliedern bei der Produktentwicklung fördert. Es verwendet regelmäßige Überprüfungen, Anpassungen und kurze Iterationen (Sprints), um eine hohe Kundenzufriedenheit zu erreichen.
Einfache SQL Interview Frage
February 03, 2023 21:35 - 4 minutes - 4.04 MBFrage: Wie kann man in SQL die häufigsten Werte in einer Spalte finden?
Data Vault - Daten Modellierung - flexibel und skalierbar
February 02, 2023 21:50 - 8 minutes - 8 MBSchneller Überblick über das Data Vault Konzept. Mit Beispiel für die Hub, Link und Sateliten Tabellen.
Dimensional Modeling vs Entity Relationship Modeling
February 01, 2023 21:19 - 4 minutes - 3.94 MBDie eine Modellierungsvariante ist eher für Data Warehouses und die andere für OLTP Systeme.
ACID Konzept in Datenbankmanagement-Systemen
February 01, 2023 20:33 - 3 minutes - 3.68 MBACID ist ein Konzept für Datenbankmanagement-Systeme, das Atomarität, Konsistenz, Isolation und Dauerhaftigkeit garantiert, um die Integrität und Zuverlässigkeit von Transaktionen in einer Datenbank zu gewährleisten.
Datenmodellierung kurzer Einblick und verschiedene Modelle
January 30, 2023 21:24 - 4 minutes - 4.28 MBDatawarehouse-Modellierung kurzer Einblick. https://larsmuellensiefen.substack.com/
ER- Diagramm - OLTP Datenbank-Modellieren
January 30, 2023 20:27 - 6 minutes - 5.62 MBDatenbankmodellierung mit ER Diagramm. https://larsmuellensiefen.substack.com/
ER- Diagramm - Datenbank-Modellieren
January 30, 2023 20:27 - 6 minutes - 5.62 MBDatenbankmodellierung mit ER Diagramm. https://larsmuellensiefen.substack.com/
FinOps => Cloud Finanzverwaltung und -optimierung
January 29, 2023 19:42 - 7 minutes - 6.76 MBFinOps ist ein Ansatz zur Finanzverwaltung und -optimierung in Unternehmen, die Cloud-Computing-Dienste nutzen. Es beinhaltet die Verwaltung von Kosten, Compliance, Risiken und Governance in Bezug auf Cloud-Dienste, sowie Überwachung und Optimierung der Nutzung von Ressourcen, um sicherzustellen, dass sie effizient und kosteneffektiv genutzt werden... - https://larsmuellensiefen.substack.com/
Data Fabric, was ist das?
January 29, 2023 19:28 - 5 minutes - 5.28 MBEin Data Fabric ist ein Konzept der Datenarchitektur, das es ermöglicht, Daten auf flexible und skalierbare Weise zu organisieren und zu verwalten, über mehrere Systeme und Standorte hinweg und ermöglicht eine einheitliche und integrierte Datenverwaltung. https://larsmuellensiefen.substack.com/
KI Systeme - Einsatz in der Praxis ChatGPT o. ä. als Data Engineer
January 28, 2023 21:40 - 4 minutes - 4.2 MBErsetzten ChatGPT und ähnliche KI basierte Werkzeuge bereits einen Data Engineer?
KI Systeme Einsatz in der Praxis ChatGPT o. ä. als Data Engineer
January 28, 2023 21:40 - 4 minutes - 4.2 MBErsetzten ChatGPT und ähnliche KI basierte Werkzeuge bereits einen Data Engineer?
KI als Werkzeug
January 26, 2023 06:16 - 5 minutes - 5.33 MBInsgesamt ist KI ein leistungsfähiges Werkzeug, das die Effizienz und Genauigkeit von Aufgaben der Datenverarbeitung erheblich verbessern kann und Unternehmen ermöglicht, tiefere Einblicke zu gewinnen und aufgrund ihrer Daten informierte Entscheidungen zu treffen.
KI in der Datenverarbeitung
January 25, 2023 19:13 - 6 minutes - 6.38 MBInsgesamt kann KI viele Aufgaben der Datenverarbeitung automatisieren und neue Möglichkeiten bieten, aber die menschliche Expertise und das Verständnis des Data Engineer für die spezifische Geschäftsdomäne kann entscheidend sein, um effektive Datensysteme zu entwerfen und umzusetzen.
Star Schema vs Snowflake Schema Daten Modellierung im Data Warehouse
January 24, 2023 20:04 - 4 minutes - 4.27 MBStar Schema und Snowflake Schema sind beides Techniken, die in Data Warehouses verwendet werden, um Daten zu organisieren und zu strukturieren, damit sie leicht abgefragt und analysiert werden können.
Python-Packages und Librarys für Data Engineering
January 23, 2023 18:51 - 5 minutes - 5.21 MBhttps://larsmuellensiefen.substack.com/ - Data Engineering ist ein wichtiger Bestandteil des Prozesses der Datenverarbeitung, der sich mit der Gewinnung, Vorbereitung, Verarbeitung und Verwaltung von Daten beschäftigt. Es gibt viele Python-Pakete, die für die Unterstützung von Data-Aufgaben entwickelt wurden und die es ermöglichen, Daten effektiv zu verarbeiten und zu analysieren. Einige dieser wichtigen Pakete sind Pandas, NumPy, Scikit-learn, TensorFlow, PySpark, Airflow, Dask und SQLAlchemy.
Rust Programmiersprache
January 22, 2023 21:45 - 5 minutes - 5.36 MBhttps://larsmuellensiefen.substack.com/ - Rust ist eine moderne Programmiersprache. Sie zielt darauf ab, sicher, schnell und stabil zu sein.
Python Modules vs Packages
January 21, 2023 22:03 - 4 minutes - 3.81 MBZusammenfassend ist ein Paket eine Sammlung von Modulen, die in einer Verzeichnisstruktur organisiert sind, während ein Modul eine einzelne Datei mit Python-Definitionen und Anweisungen ist.
Python Module vs Packages
January 21, 2023 22:03 - 4 minutes - 3.81 MBZusammenfassend ist ein Paket eine Sammlung von Modulen, die in einer Verzeichnisstruktur organisiert sind, während ein Modul eine einzelne Datei mit Python-Definitionen und Anweisungen ist.
Hyperscaler - wofür steht dieser Begriff im Kentext der "Cloud"?
January 21, 2023 19:38 - 4 minutes - 4.02 MBDer Begriff "Hyperscaler" beschreibt Unternehmen, wie AWS, M. Azure und GCP... die extreme Skalierbarkeit und Flexibilität der Cloud-Computing-Infrastrukturen ermöglichen. Sie haben die Fähigkeit, ihre Ressourcen schnell und in großem Umfang bereitzustellen, um die Anforderungen von Unternehmen und Entwicklern zu erfüllen.
Pandas vs SQL eine kurze Gegenüberstellung
January 20, 2023 16:44 - 3 minutes - 3.1 MBBeide Systeme eignen sich für die Arbeit mit Daten. Pandas ist ein Python Package und SQL ist eine Datenbankanfragesprache. https://larsmuellensiefen.substack.com/
5 Python Beispielpackages für Data Engineers
January 19, 2023 21:19 - 8 minutes - 7.6 MBhttps://larsmuellensiefen.substack.com/ - Es ist eine der meistgenutzten Sprachen in der Branche und bietet eine Vielzahl von leistungsstarken Tools und Bibliotheken, um Daten effizient zu sammeln, zu transformieren und zu analysieren. Mit Pandas und NumPy kann man mühelos große Datenmengen manipulieren und analysieren. Kurz gesagt, Python ist ein unverzichtbares Werkzeug für jeden Data Engineer.
Container vs Virtual Machines
January 18, 2023 21:15 - 9 minutes - 8.5 MBhttps://larsmuellensiefen.substack.com/ - Ein Container ist eine Art von Software, die es ermöglicht, Anwendungen und ihre Abhängigkeiten zusammenzufassen und in einer einzigen, tragbaren und ausführbaren Einheit bereitzustellen. Im Gegensatz dazu ist eine virtuelle Maschine eine Software-Emulation eines physischen Computers, die es ermöglicht, mehrere Betriebssysteme und Anwendungen auf einem einzigen physischen Computer auszuführen.
Tables vs Views in relationalen Datenbanken
January 18, 2023 18:00 - 6 minutes - 5.88 MBhttps://larsmuellensiefen.substack.com/ - Tables und Views sind beide wichtige Bestandteile einer relationalen Datenbank, aber sie haben einige wichtige Unterschiede. Eine Tabelle ist das grundlegendste Objekt und wird verwendet, um Daten in einer Datenbank zu speichern. Sie werden mithilfe von SQL definiert und haben eine Reihe von Spalten und einen Datentyp für jede Spalte. Tabellen speichern die Daten physisch und können abgefragt, aktualisiert und verändert werden. Views hingegen sind vir...
Self Service - ohne Daten-Experten oder IT-Abteilungen mit Daten Wert stiften...
January 17, 2023 21:48 - 4 minutes - 3.95 MBhttps://larsmuellensiefen.substack.com/ - Self-Service im Data-Bereich ermöglicht es Benutzern, Daten selbstständig zu erfassen, zu analysieren und zu visualisieren, ohne dass sie dazu auf die Unterstützung von Experten oder IT-Abteilungen angewiesen sind. Dies erfordert keine umfangreichen technischen Kenntnisse und erleichtert die Verarbeitung und Auswertung von Daten.
Die Demokratisierung von Daten - Buzzword erklärt
January 17, 2023 21:37 - 5 minutes - 5.18 MBhttps://larsmuellensiefen.substack.com/ - Die Demokratisierung von Daten im Data-Bereich bezieht sich auf die Verbreitung von Tools und Technologien, die es den Benutzern ermöglichen, Daten einfach zu erfassen, zu analysieren und zu visualisieren, ohne dass sie über umfangreiche technische Kenntnisse verfügen müssen.
Python als Data Engineer
January 16, 2023 20:00 - 5 minutes - 5.34 MBhttps://larsmuellensiefen.substack.com/ - Python ist eine sehr beliebte Wahl für Aufgaben im Bereich des Data Engineering, da es eine große Anzahl von Bibliotheken und Frameworks bietet, die speziell für diesen Zweck entwickelt wurden. https://larsmuellensiefen.substack.com/
CTEs vs Temporäre Tabellen in SQL
January 16, 2023 19:05 - 6 minutes - 5.71 MBhttps://larsmuellensiefen.substack.com/ - CTEs werden innerhalb einer Abfrage definiert und sind nur für die Dauer dieser Abfrage verfügbar, während temporäre Tabellen über mehrere Abfragen hinweg verwendet werden können und dauerhaft (bis zum Ende der Session) gespeichert sind. https://larsmuellensiefen.substack.com/
Newsletter fun #NEW
January 15, 2023 19:44 - 1 minute - 1.82 MBhttps://larsmuellensiefen.substack.com/ Lass uns gemeinsam unser Data-Game auf das nächste Level heben... durch direkten Austausch, das Teilen von diversen Wissensquellen und die neuesten Branchenentwicklungen: https://larsmuellensiefen.substack.com/
Git als Nr1 Versionsverwaltungssystem
January 14, 2023 20:44 - 5 minutes - 5.05 MBhttps://larsmuellensiefen.substack.com/ - Git ist ein Werkzeug, das Entwicklern dabei hilft, ihren Code zu verwalten und zu verfolgen. Es ermöglicht es ihnen, Änderungen an ihrem Code aufzunehmen, zu verfolgen und zu verwalten, was es erleichtert, zusammenzuarbeiten und Fehler zu beheben.
Microservices als Architekturstil für die Entwicklung von Anwendungen - kleinere,unabhängige Dienste
January 14, 2023 20:23 - 7 minutes - 6.98 MBMicroservices ist ein Architekturstil für die Entwicklung von Anwendungen, bei dem eine große Anwendung in kleinere, unabhängige Dienste aufgeteilt wird, die jeweils eine spezifische Funktion ausführen.
Data Mesh - was ist das und wie wird es eingesetzt?
January 14, 2023 20:01 - 3 minutes - 3.67 MBBeim Data Mesh geht darum, die Verantwortung für die Verwaltung und Nutzung von Daten innerhalb eines Unternehmens auf mehrere Teams aufzuteilen und zu verteilen, anstatt dass ein zentrales Team für die Verwaltung aller Daten verantwortlich ist.
ELT Prozess grober Überblick - (Extract, Load, Transform)
January 13, 2023 23:24 - 6 minutes - 6.46 MBELT (Extract, Load, Transform) ist ein Prozess, bei dem Daten direkt aus ihrer Quelle extrahiert, in das Ziel-Datenlager geladen werden und dort transformiert werden. Dies im Gegensatz zu dem klassischen ETL-Prozess (Extract, Transform, Load), bei dem die Datenintegration in eine Zwischenablage durchgeführt wird, bevor sie in das Ziel-Datenlager geladen werden. ELT ermöglicht eine schnellere Verarbeitung und höhere Skalierbarkeit, jedoch erfordert es auch leistungsfähige Ziel-Datenlager und e...
ELT Prozess kurz und knapp - (Extract, Load, Transform) + Abgrenzung zum ETL Prozess
January 13, 2023 23:24 - 6 minutes - 6.46 MBELT (Extract, Load, Transform) ist ein Prozess, bei dem Daten direkt aus ihrer Quelle extrahiert, in das Ziel-Datenlager geladen werden und dort transformiert werden. Dies im Gegensatz zu dem klassischen ETL-Prozess (Extract, Transform, Load), bei dem die Datenintegration in eine Zwischenablage durchgeführt wird, bevor sie in das Ziel-Datenlager geladen werden. ELT ermöglicht eine schnellere Verarbeitung und höhere Skalierbarkeit, jedoch erfordert es auch leistungsfähige Ziel-Datenlager und e...
Deskriptive, Diagnostische, Prädiktive und Präskriptive Datenanalyse
January 12, 2023 20:40 - 8 minutes - 7.93 MBDatenanalyse kann in vier verschiedene Kategorien unterteilt werden: Deskriptive, Diagnostische, Prädiktive und Präskriptive. Deskriptive Datenanalyse beschreibt und ordnet die vorhandenen Daten, um ein besseres Verständnis dafür zu erlangen. Diese Art von Analyse kann verwendet werden, um Verteilungen, Häufigkeiten und Muster in den Daten zu identifizieren. Diagnostische Datenanalyse untersucht die Daten, um mögliche Probleme oder Anomalien zu erkennen. Prädiktive Datenanalyse verwendet hist...
Data Vault Datenmodell im Schnelldurchlauf beschrieben...
January 11, 2023 21:57 - 2 minutes - 2.45 MBData Vault ist ein Ansatz zur Modellierung von Daten in einem Unternehmensdatenwarehouse, der sich auf Flexibilität und Skalierbarkeit konzentriert. Es nutzt drei Arten von Tabellen, um Daten zu organisieren: Hubs, Links und Satelliten.
SQL Aggregat Funktionen
January 10, 2023 22:13 - 3 minutes - 3.6 MBWie summiere ich Daten in einer Spalte auf? Durch Verwendung von SQL Aggregat-Funktionen.
PostgreSQL - open-source relationales Datenbankmanagementsystem (RDBMS)
January 09, 2023 18:41 - 4 minutes - 4.11 MBPostgreSQL ist ein open-source relationales Datenbankmanagementsystem (RDBMS), das für seine Robustheit, Leistung und Flexibilität bekannt ist. Es wird häufig in Unternehmensumgebungen eingesetzt und unterstützt eine Vielzahl von Funktionen, darunter ACID-Transaktionen, vollständige Datenintegrität und Unterstützung für eine Vielzahl von Programmiersprachen.
Trennung von Compute und Storage - bedeutet, dass Rechenleistung und Datenspeicher getrennt sind
January 09, 2023 18:29 - 6 minutes - 5.77 MBDie Trennung von Compute und Storage bezieht sich darauf, dass Rechenleistung und Datenspeicher getrennt sind und individuell skaliert werden können. Dies bedeutet, dass Benutzer die Menge an Ressourcen, die für die Berechnung von Abfragen verwendet werden, unabhängig von der Menge an gespeicherten Daten anpassen können. Dies hat den Vorteil, dass Benutzer die Ressourcen, die sie für ihre Anwendungen benötigen, besser optimieren und die Kosten für ihre Anwendungen besser verstehen und kontrol...
SQL JOINS - Daten aus verschiedenen Tabellen zusammenzuführen und analysieren
January 08, 2023 22:32 - 4 minutes - 3.88 MBIn SQL können JOINs verwendet werden, um Daten aus verschiedenen Tabellen zusammenzuführen und zu analysieren. Es gibt verschiedene Arten von JOINs, die je nachdem, wie die Tabellen miteinander verbunden werden sollen, verwendet werden können. Ein INNER JOIN gibt nur die Zeilen zurück, die in beiden Tabellen vorhanden sind. Ein LEFT JOIN gibt alle Zeilen aus der linken Tabelle und die zugehörigen Zeilen aus der rechten Tabelle zurück (falls vorhanden), während ein RIGHT JOIN alle Zeilen aus d...
SQL Basics - SQL kann verwendet werden, um Daten zu erstellen, zu ändern und zu löschen & Abzufragen
January 08, 2023 22:28 - 3 minutes - 3.32 MBSQL kann verwendet werden, um Daten zu erstellen, zu ändern und zu löschen, sowie um Abfragen zu erstellen, die Informationen aus einer oder mehreren Datenbanktabellen abrufen. Es bietet auch eine Reihe von Funktionen zum Verarbeiten und Analyse von Daten, wie zum Beispiel Aggregatfunktionen und JOINs.
NoSQL-Datenbanken #Short
January 08, 2023 22:25 - 1 minute - 1.58 MBNoSQL-Datenbanken sind eine Klasse von Datenbanken, die nicht das relationale Modell verwenden, das in den meisten traditionellen Datenbanken verwendet wird. Stattdessen verwenden sie alternative Datenmodelle, wie zum Beispiel Key-Value-Speicher, Dokumenten-Datenbanken oder Graph-Datenbanken.
Relationale Datenbanken vs Objektorientierte Datenbanken - kurze Gegenüberstellung mit Beispiel
January 07, 2023 22:20 - 4 minutes - 4.24 MBIn objektorientierten Datenbanken (OODBs) werden Daten als Objekte gespeichert und verwaltet, die Eigenschaften und Verhaltensweisen besitzen. In relationalen Datenbanken (RDBs) werden Daten in Tabellen gespeichert und miteinander verknüpft.