Die Data Engineering Reise
647 episodes - German - Latest episode: about 1 year ago -Podcast-Folgen zu diversen Data Engineering Themen.
Begib dich mit mir auf die Reise hin zu einem Experten in Sachen Data Engineering und gehe den Unternehmens-Datenschätzen auf den Grund.
Was steckt eigentlich in "BigData" und den großen Lagacy-Datenbanken der Unternehmen?
Wir finden es gemeinsam heraus.
Tools wie die größten Cloud Plattformen der Welt (AWS, Azure, GCP, ...), sowie Programmiersprachen (Python, ...), Scheduling Tools etc. helfen uns bei der Erschließung und der Bereitstellung spannender Insights.
Homepage Apple Podcasts Google Podcasts Overcast Castro Pocket Casts RSS feed
Episodes
dbt Einrichtung und Einsatz in der Praxis
January 06, 2023 23:00 - 3 minutes - 3.7 MBDBT (Data Build Tool) ist ein Open-Source-Framework, das Entwicklern hilft, Daten in einem Unternehmen zu transformieren und zu verwalten. Mit DBT können Entwickler SQL-Abfragen schreiben, um Daten zu transformieren und in Zieldatenbanken zu schreiben. DBT bietet auch Funktionen zum Testen von Modellen, zum Verwalten von Abhängigkeiten zwischen Modellen und zum Dokumentieren von Prozessen.
5 coole? Eigenschaften von "dbt"
January 05, 2023 22:31 - 3 minutes - 3.16 MBOpen-Source-Software dbt: Mit dbt können Daten durch eine Reihe von Test- und Transformationsschritte geleitet werden, um sie für Analysezwecke vorzubereiten. Das Werkzeug bietet eine Reihe von Funktionen, die es Datenanalytikern ermöglichen, ihre Arbeitsabläufe zu optimieren und zu automatisieren, wodurch sie Zeit und Mühe sparen können.
Common table expression (CTE) als allgemeiner Tabellenausdruck
January 04, 2023 22:01 - 4 minutes - 3.86 MBCTEs als allgemeiner Tabellenausdruck ist eine benannte Unterabfrage - Beispiel: WITH cte AS ( SELECT * FROM mytable WHERE col1 = 'value_x' ) SELECT * FROM cte WHERE col2 = 'value_y';
10 Programmiersprachen im Schnelldurchlauf
January 03, 2023 22:00 - 3 minutes - 3.39 MBEs gibt viele Programmiersprachen, jede mit ihren eigenen Merkmalen und Zwecken. Einige beliebte Programmiersprachen sind: C, C++, Java, Python... Rust.
SQL Window-Functions
January 02, 2023 21:04 - 3 minutes - 3.22 MBSQL Fensterfunktionen sind Funktionen, die über eine Gruppe von Zeilen laufen und für jede Zeile eines Ergebnissatzes einen Wert zurückgeben. Sie werden häufig verwendet, um aggregierte Werte wie SUM oder AVG zu berechnen, während man trotzdem die Einzelzeilen behält, die zu dieser Aggregation beigetragen haben. Die Fensterfunktionen verfügen über eine OVER-Klausel, die es ermöglicht, das Fenster der Zeilen festzulegen, über die die Funktion laufen soll.
DBT (Data Build Tool) #Short
January 01, 2023 20:26 - 1 minute - 1.05 MBDBT ist ein Open-Source-Werkzeug, das Dateningenieuren hilft, ihre Datenintegrationsprozesse zu optimieren und zu automatisieren. Es ermöglicht die Verwendung von SQL, um Daten von verschiedenen Quellen zu aggregieren, zu transformieren und zu laden und bietet Funktionen zur Qualitätssicherung wie das Testen von Datenmodellen und das Vergleichen von Ergebnissen mit früheren Versionen. DBT ist nützlich in Umgebungen mit mehreren Datenbankbenutzern, da es eine strukturierte Möglichkeit bietet, ...
Signifikanz am Beispiel erläutert - P-Wert, Alpha und die Zusammenhänge
December 29, 2022 15:03 - 8 minutes - 8 MBWas genau bedeutet Signifikanz? In der Statistik wird der Begriff "Signifikanz" verwendet, um zu beschreiben, wie wahrscheinlich es ist, dass ein bestimmtes Ergebnis oder eine Beobachtung aufgrund von Zufall entstanden ist. Es gibt verschiedene Arten von Signifikanztests, die verwendet werden, um festzustellen, ob ein bestimmtes Ergebnis statistisch signifikant ist oder nicht.
Data Lake - zentrale Datenplattform - strukturierten und unstrukturierten Daten
December 25, 2022 23:01 - 8 minutes - 7.7 MBEin Data Lake ist eine zentrale Datenplattform, die dazu dient, große Mengen an strukturierten und unstrukturierten Daten aus verschiedenen Quellen zu sammeln, zu speichern und für weitere Verarbeitungsschritte bereitzustellen.
Podman - Verwaltung von Container-Images und -Containern
December 24, 2022 19:57 - 2 minutes - 2.52 MBPodman ist ein Tool zur Verwaltung von Container-Images und -Containern, das auf Linux-Systemen verwendet werden kann. Podman verwendet das Container-Format und die Container-Engine von Docker, aber es läuft direkt auf dem Host-System und hat keine Abhängigkeit von einem daemon.
Data Vault - Datenmodellierungsansatz - Flexibilität, Integrität und Skalierbarkeit von Daten
December 22, 2022 19:05 - 4 minutes - 3.92 MBData Vault ist ein Datenmodellierungsansatz, der entwickelt wurde, um die Flexibilität, Integrität und Skalierbarkeit von Daten in Unternehmensumgebungen zu verbessern.
Cloud Datenbanken & Abgrenzung zu On-Prem Datenbanken
December 21, 2022 20:21 - 5 minutes - 5.41 MBWelche Arten an Cloud Datenbanken gibt es und wie grenzen sie sich von On-Prem Datenbanken ab?
NoSQL Datenbanken
December 21, 2022 20:19 - 3 minutes - 3.69 MBEin kurzer Überblick über das Thema NoSQL Datenbanken.
API (Application Programming Interface) zu Deutsch: Anwendungsprogrammierschnittstelle
December 20, 2022 18:26 - 2 minutes - 2.2 MBEine API (Application Programming Interface, zu Deutsch: Anwendungsprogrammierschnittstelle) ist eine Schnittstelle, die es ermöglicht, dass verschiedene Anwendungen miteinander kommunizieren und Daten austauschen können. Sie stellt somit eine Verbindung zwischen verschiedenen Systemen her.
Analytics only Datenbanken - Welche Datenspeicher können für die Analyse von Daten verwendet werden?
December 20, 2022 08:36 - 4 minutes - 3.95 MBDBs die ausschließlich für die Analyse verwendet werden. Analytics only Datenbanken - Welche Datenspeicher können für die Analyse von Daten verwendet werden? Beispiele für on-prem Datenbanken und Cloud Datenbanken werden auch genannt.
Datenbank-Modellierung - Struktur der Datenbank definieren - Relationale, NoSQL, in-memory etc.
December 19, 2022 21:11 - 4 minutes - 4.13 MBDie Grundlage von diversen digitalen Prozessen, ist eine Datenbank, welche initial modelliert wurde. Spezifisch für den Einsatzzweck werden Datenbanken modelliert.
Der ETL Prozess - Grob Skizziert und Unterschied zu ELT - Daten Transfer von Operativ zu Analyse
December 18, 2022 21:41 - 6 minutes - 5.59 MBDer "Extract Transform and Load Process" ist ein zentraler Bestandteil bei der Arbeit als Data Engineer. Ich skizziere den groben Prozessablauf und grenze ihn von dem E(t)LT Prozess ab.
Cloud Data Storage Temperatures - kurze Beschreibung - Zugriffsgeschwindigkeit von Daten in Cloud
December 17, 2022 22:08 - 3 minutes - 2.97 MBZugriffsgeschwindigkeit von Daten in der Cloud. Es gibt in der Regel drei Hauptkategorien von Cloud Data Storage Temperaturen z. B. Warm, Kalt, Gefroren
Das Top Thema => Data Orchestration im Data Engineering
December 16, 2022 20:48 - 4 minutes - 4.19 MBWarum ist das Thema Data Orchestration so wichtig und vorallendingen was kann man sich darunter vorstellen? Daten Orchestrierung um unter anderem die Daten Qualität sicher zu stellen.
Indizes in Datenbanken / Direkter Performance-Gewinn durch Indizes in Datenbanken
December 14, 2022 21:56 - 4 minutes - 3.96 MBVor- und Nachteile von Indizes in Datenbanken. Jeder Data Engineer sollte etwas von Indizes gehört haben...
Was sind Daten? #Short
December 14, 2022 21:31 - 1 minute - 1.53 MBIch beschreibe in diesem #Short was Daten sind. Back to the Basics... Daten sind Informationen oder Fakten, die für einen bestimmten Zweck verwendet werden können. Daten können in diversen Formaten vorkommen, zum Beispiel Text, Bilder, Zahlen, Ton...
Apache Spark - Datenverarbeitung und Analyse von BigData - Vs MapReduce
December 13, 2022 23:03 - 5 minutes - 4.69 MBOpen-Source-Plattform, die es ermöglicht große Datenmengen zu prozessieren. Es kann mit verschiedenen Programmiersprachen wie Python, Java, R etc gearbeitet werden. Verwendet wird eine in-Memory-Technologie.
GPT3 - Generative Pre-trained Transformer von Open AI
December 12, 2022 18:44 - 7 minutes - 6.84 MBDer Leistungsstarker Sprachgenerator wurde nun der Öffentlichkeit zugänglich gemacht. GPT3 stammt von Open AI und es handelt sich um ein neuronales Netzwerk, das auf einem Deep-Learning-Modell basiert.
ChatGPT3 - Generative Pre-trained Transformer von Open AI
December 12, 2022 18:44 - 7 minutes - 6.84 MBDer Leistungsstarker Sprachgenerator wurde nun der Öffentlichkeit zugänglich gemacht. GPT3 stammt von Open AI und es handelt sich um ein neuronales Netzwerk, das auf einem Deep-Learning-Modell basiert.
Apache Software Foundation
December 11, 2022 22:14 - 3 minutes - 3.3 MBWas macht die Apache Software Foundation? Kurzer Überblick und Einordnung in die Data Engineering Infrastruktur.
Das Data Lakehouse Konzept. Abgrenzung zu Data Warehouse und Data Lake...
December 10, 2022 20:07 - 3 minutes - 3.16 MBWas ist ein Data Lakehouse? Verbindung der Vorteile eines Data Warehouse mit einem Data Lake = Data Lakehouse
DWH vs OLTP Datenbanken - was ist der Unterschied und wie werden sie eingesetzt?
December 10, 2022 19:33 - 6 minutes - 5.8 MBData Warehouse vs Transaktionale Datenbanken. Wie grenzen sie sich von einander ab und wie werden sie in der Praxis eingesetzt?
dbt "Data Build Tool" Daten transformieren - kurzer Überblick - Software für DE, DA und DS...
December 09, 2022 22:24 - 4 minutes - 4.28 MB"Data Build Tool" Daten transformieren mit dbt. Weit verbreitete Software.
PRICING DWH wie unnötig hohe Kosten verhindert werden können. Effiziente Datenbankabfragen stellen.
December 08, 2022 21:02 - 5 minutes - 5.18 MBEffiziente Datenbankabfragen stellen. Ob bei On-Premises, oder Cloud Datawarehouses - überall entstehen Kosten.
Was ist ein Analytics Engineer? Abgrenzung zu Data Engineer, Data Analyst und Data Scientist.
December 07, 2022 13:11 - 6 minutes - 6.46 MBEin Analytics Engineer ist, so wie der Data Engineer für die Bereitstellung der Daten zuständig. In Abgrenzung zum "Data Engineer" ist dieser aber näher am Kontext der Daten dran und sollte somit auch ein Business-Verständnis mitbringen. Stakeholder sind z. B. Data Analyst und Data Scientist...
Streaming vs Batch Processing - Daten von A nach B Transportieren Vorteile von Streaming von Daten
December 06, 2022 22:32 - 7 minutes - 6.83 MBIn den meisten Fällen ist es vorteilhaft die Daten in nahezu Realtime am gewünschten Ort zu haben. Allerdings kommt das mit teilweise großem Aufwand einher. - Streaming vs Batch Processing - Daten von A nach B Transportieren
3 Vorteile von Cloud Infrastrukturen vs Verwendung On-Premises Infrastrukturen
December 05, 2022 22:31 - 5 minutes - 5.42 MBCloud Infrastrukturen vs Verwendung On-Premises Infrastrukturen
Daten Modellierung - 2 Ansätze Bill Inmon & Ralph Kimball #Short
December 04, 2022 22:12 - 2 minutes - 2.69 MB2 Ansätze Bill Inmon & Ralph Kimball - Daten Modellierung.
DevContainer - Docker / Podman
December 03, 2022 23:04 - 3 minutes - 3.13 MBDeveloping inside a Container. Arbeit mit Docker oder Podman.
ACID (Atomicity, Consistency, Isolation, Durability) erwünschte Eigenschaften von Transaktionen
December 02, 2022 22:01 - 4 minutes - 4.43 MBWas bedeutet ACID (Atomicity, Consistency, Isolation, Durability)? Erwünschte Eigenschaften von Transaktionen. Zu deutsch: AKID-Eigenschaften (Atomarität, Konsistenz, Isolation, Dauerhaftigkeit)
Datawarehouse Anwendungs-Beispiel - DWH Verwendung in der Praxis.
December 02, 2022 21:41 - 4 minutes - 4.17 MBAnwendung eines Datawarehouse (DWH). DWH Verwendung in der Praxis. Beispiele zur Modellierung der Datenstrukturen im Datawarehouse (Star/Snowflake, Data Vault etc.)
Beschreibendere Begriffe für verschiedene Data-Engineering-Tätigkeiten...
December 01, 2022 21:23 - 9 minutes - 8.84 MBWas verstehst du unter dem Begriff Data Engineer? Das Verständnis variiert von Unternehmen zu Unternehmen stark. Ich führe mögliche Begriffe zur differenzierung des Überbegriffs "Data Engineering" auf.
Datenbank, Datawarehouse, Data Lake kurze Begriffsabgrenzung
November 30, 2022 22:04 - 6 minutes - 6.27 MBWas ist der Unterschied zwischen einer Datenbank, Datawarehouse, Data Lake?
Daten Modellierung vs Daten Architektur #Short
November 29, 2022 19:58 - 1 minute - 1.52 MBWas ist der Unterschied zwischen Daten Modellierung und Daten Architektur?
Datensatz, Datei, Datenbank - Unterschied und Aufbau - Datenmodellierung
November 28, 2022 21:56 - 8 minutes - 8.27 MBWas bedeuten die Begriffe: Datensatz, Datei, Datenbank - Unterschied und Aufbau - Datenmodellierung
Was macht ein Data Engineer? Mit kurzer Fabrik Analogie - Data Pipeline
November 27, 2022 22:33 - 2 minutes - 2.67 MBAls Data Engineer seine tägliche Arbeit mit Daten beschreiben.
In-Memory-Datenbanken IMDB als Datenbank-Technologie
November 26, 2022 22:37 - 4 minutes - 4.6 MBWas ist eine In-Memory-Datenbank IMDB? Beispiele: SAP Hana, Raima, Apache Derby...
In-Memory-Datenbank IMDB als Datenbank-Technologie
November 26, 2022 22:37 - 4 minutes - 4.36 MBWas ist eine In-Memory-Datenbank IMDB? Beispiele: SAP Hana, Raima, Apache Derby...
SAP Business Technology Platform als PaaS Produjt der SAP
November 25, 2022 21:11 - 2 minutes - 2.68 MBWie gliedert sich die SAP BTP in die weltweite PaaS Angebote ein und welche Services werden angeboten?
3 Punkte die einen Data Engineer erfolgreich machen
November 24, 2022 21:17 - 5 minutes - 5.29 MBProblemlösung, Kommunikation, Geduld als wichtige Charaktereigenschaften eines Data Engineers
Master Data Management / oder zu deutsch- Stammdatenmanagement...
November 21, 2022 22:31 - 5 minutes - 4.99 MBWarum benötigen Organisationen Stammdatenmanegement? Master Data Management in Unternehmen. Sicherstellung der Datenqualität.
Data Observability in der Daten Infrastruktur #Short
November 20, 2022 22:16 - 1 minute - 932 KBWas ist Data Observability und wie kann es im Unternehmenskontext implementiert werden? Monitoring der Daten Infrastruktur.
Python vs SQL Arbeit mit Daten #Short
November 19, 2022 23:14 - 2 minutes - 2.21 MBWelche Technologie für die Arbeit mit Daten? SQL vs Python
Data Pipelines #Short
November 19, 2022 23:00 - 1 minute - 1.23 MBWas ist eine Daten Strecke? Und welche Prozessarten fallen darunter? Data Pipelines
Snowflake als Plattform As A Service Company
November 18, 2022 22:18 - 8 minutes - 7.97 MBWas kann und macht Snowflake? Und wie wird es in der Praxis verwendet? GCP, AWS, Azure als IaaS als Basis.
Snowflake als Plattform as a Service Company
November 18, 2022 22:18 - 8 minutes - 7.97 MBWas kann und macht Snowflake? Und wie wird es in der Praxis verwendet? GCP, AWS, Azure als IaaS als Basis.