Die Data Engineering Reise artwork

Die Data Engineering Reise

647 episodes - German - Latest episode: about 1 year ago -

Podcast-Folgen zu diversen Data Engineering Themen.

Begib dich mit mir auf die Reise hin zu einem Experten in Sachen Data Engineering und gehe den Unternehmens-Datenschätzen auf den Grund.

Was steckt eigentlich in "BigData" und den großen Lagacy-Datenbanken der Unternehmen?

Wir finden es gemeinsam heraus.

Tools wie die größten Cloud Plattformen der Welt (AWS, Azure, GCP, ...), sowie Programmiersprachen (Python, ...), Scheduling Tools etc. helfen uns bei der Erschließung und der Bereitstellung spannender Insights.

Business
Homepage Apple Podcasts Google Podcasts Overcast Castro Pocket Casts RSS feed

Episodes

dbt Einrichtung und Einsatz in der Praxis

January 06, 2023 23:00 - 3 minutes - 3.7 MB

DBT (Data Build Tool) ist ein Open-Source-Framework, das Entwicklern hilft, Daten in einem Unternehmen zu transformieren und zu verwalten. Mit DBT können Entwickler SQL-Abfragen schreiben, um Daten zu transformieren und in Zieldatenbanken zu schreiben. DBT bietet auch Funktionen zum Testen von Modellen, zum Verwalten von Abhängigkeiten zwischen Modellen und zum Dokumentieren von Prozessen.

5 coole? Eigenschaften von "dbt"

January 05, 2023 22:31 - 3 minutes - 3.16 MB

Open-Source-Software dbt: Mit dbt können Daten durch eine Reihe von Test- und Transformationsschritte geleitet werden, um sie für Analysezwecke vorzubereiten. Das Werkzeug bietet eine Reihe von Funktionen, die es Datenanalytikern ermöglichen, ihre Arbeitsabläufe zu optimieren und zu automatisieren, wodurch sie Zeit und Mühe sparen können.

Common table expression (CTE) als allgemeiner Tabellenausdruck

January 04, 2023 22:01 - 4 minutes - 3.86 MB

CTEs als allgemeiner Tabellenausdruck ist eine benannte Unterabfrage - Beispiel: WITH cte AS ( SELECT * FROM mytable WHERE col1 = 'value_x' ) SELECT * FROM cte WHERE col2 = 'value_y';

10 Programmiersprachen im Schnelldurchlauf

January 03, 2023 22:00 - 3 minutes - 3.39 MB

Es gibt viele Programmiersprachen, jede mit ihren eigenen Merkmalen und Zwecken. Einige beliebte Programmiersprachen sind: C, C++, Java, Python... Rust.

SQL Window-Functions

January 02, 2023 21:04 - 3 minutes - 3.22 MB

SQL Fensterfunktionen sind Funktionen, die über eine Gruppe von Zeilen laufen und für jede Zeile eines Ergebnissatzes einen Wert zurückgeben. Sie werden häufig verwendet, um aggregierte Werte wie SUM oder AVG zu berechnen, während man trotzdem die Einzelzeilen behält, die zu dieser Aggregation beigetragen haben. Die Fensterfunktionen verfügen über eine OVER-Klausel, die es ermöglicht, das Fenster der Zeilen festzulegen, über die die Funktion laufen soll.

DBT (Data Build Tool) #Short

January 01, 2023 20:26 - 1 minute - 1.05 MB

DBT ist ein Open-Source-Werkzeug, das Dateningenieuren hilft, ihre Datenintegrationsprozesse zu optimieren und zu automatisieren. Es ermöglicht die Verwendung von SQL, um Daten von verschiedenen Quellen zu aggregieren, zu transformieren und zu laden und bietet Funktionen zur Qualitätssicherung wie das Testen von Datenmodellen und das Vergleichen von Ergebnissen mit früheren Versionen. DBT ist nützlich in Umgebungen mit mehreren Datenbankbenutzern, da es eine strukturierte Möglichkeit bietet, ...

Signifikanz am Beispiel erläutert - P-Wert, Alpha und die Zusammenhänge

December 29, 2022 15:03 - 8 minutes - 8 MB

Was genau bedeutet Signifikanz? In der Statistik wird der Begriff "Signifikanz" verwendet, um zu beschreiben, wie wahrscheinlich es ist, dass ein bestimmtes Ergebnis oder eine Beobachtung aufgrund von Zufall entstanden ist. Es gibt verschiedene Arten von Signifikanztests, die verwendet werden, um festzustellen, ob ein bestimmtes Ergebnis statistisch signifikant ist oder nicht.

Data Lake - zentrale Datenplattform - strukturierten und unstrukturierten Daten

December 25, 2022 23:01 - 8 minutes - 7.7 MB

Ein Data Lake ist eine zentrale Datenplattform, die dazu dient, große Mengen an strukturierten und unstrukturierten Daten aus verschiedenen Quellen zu sammeln, zu speichern und für weitere Verarbeitungsschritte bereitzustellen.

Podman - Verwaltung von Container-Images und -Containern

December 24, 2022 19:57 - 2 minutes - 2.52 MB

Podman ist ein Tool zur Verwaltung von Container-Images und -Containern, das auf Linux-Systemen verwendet werden kann. Podman verwendet das Container-Format und die Container-Engine von Docker, aber es läuft direkt auf dem Host-System und hat keine Abhängigkeit von einem daemon.

Data Vault - Datenmodellierungsansatz - Flexibilität, Integrität und Skalierbarkeit von Daten

December 22, 2022 19:05 - 4 minutes - 3.92 MB

Data Vault ist ein Datenmodellierungsansatz, der entwickelt wurde, um die Flexibilität, Integrität und Skalierbarkeit von Daten in Unternehmensumgebungen zu verbessern.

Cloud Datenbanken & Abgrenzung zu On-Prem Datenbanken

December 21, 2022 20:21 - 5 minutes - 5.41 MB

Welche Arten an Cloud Datenbanken gibt es und wie grenzen sie sich von On-Prem Datenbanken ab?

NoSQL Datenbanken

December 21, 2022 20:19 - 3 minutes - 3.69 MB

Ein kurzer Überblick über das Thema NoSQL Datenbanken.

API (Application Programming Interface) zu Deutsch: Anwendungsprogrammierschnittstelle

December 20, 2022 18:26 - 2 minutes - 2.2 MB

Eine API (Application Programming Interface, zu Deutsch: Anwendungsprogrammierschnittstelle) ist eine Schnittstelle, die es ermöglicht, dass verschiedene Anwendungen miteinander kommunizieren und Daten austauschen können. Sie stellt somit eine Verbindung zwischen verschiedenen Systemen her.

Analytics only Datenbanken - Welche Datenspeicher können für die Analyse von Daten verwendet werden?

December 20, 2022 08:36 - 4 minutes - 3.95 MB

DBs die ausschließlich für die Analyse verwendet werden. Analytics only Datenbanken - Welche Datenspeicher können für die Analyse von Daten verwendet werden? Beispiele für on-prem Datenbanken und Cloud Datenbanken werden auch genannt.

Datenbank-Modellierung - Struktur der Datenbank definieren - Relationale, NoSQL, in-memory etc.

December 19, 2022 21:11 - 4 minutes - 4.13 MB

Die Grundlage von diversen digitalen Prozessen, ist eine Datenbank, welche initial modelliert wurde. Spezifisch für den Einsatzzweck werden Datenbanken modelliert.

Der ETL Prozess - Grob Skizziert und Unterschied zu ELT - Daten Transfer von Operativ zu Analyse

December 18, 2022 21:41 - 6 minutes - 5.59 MB

Der "Extract Transform and Load Process" ist ein zentraler Bestandteil bei der Arbeit als Data Engineer. Ich skizziere den groben Prozessablauf und grenze ihn von dem E(t)LT Prozess ab.

Cloud Data Storage Temperatures - kurze Beschreibung - Zugriffsgeschwindigkeit von Daten in Cloud

December 17, 2022 22:08 - 3 minutes - 2.97 MB

Zugriffsgeschwindigkeit von Daten in der Cloud. Es gibt in der Regel drei Hauptkategorien von Cloud Data Storage Temperaturen z. B. Warm, Kalt, Gefroren

Das Top Thema => Data Orchestration im Data Engineering

December 16, 2022 20:48 - 4 minutes - 4.19 MB

Warum ist das Thema Data Orchestration so wichtig und vorallendingen was kann man sich darunter vorstellen? Daten Orchestrierung um unter anderem die Daten Qualität sicher zu stellen.

Indizes in Datenbanken / Direkter Performance-Gewinn durch Indizes in Datenbanken

December 14, 2022 21:56 - 4 minutes - 3.96 MB

Vor- und Nachteile von Indizes in Datenbanken. Jeder Data Engineer sollte etwas von Indizes gehört haben...

Was sind Daten? #Short

December 14, 2022 21:31 - 1 minute - 1.53 MB

Ich beschreibe in diesem #Short was Daten sind. Back to the Basics... Daten sind Informationen oder Fakten, die für einen bestimmten Zweck verwendet werden können. Daten können in diversen Formaten vorkommen, zum Beispiel Text, Bilder, Zahlen, Ton...

Apache Spark - Datenverarbeitung und Analyse von BigData - Vs MapReduce

December 13, 2022 23:03 - 5 minutes - 4.69 MB

Open-Source-Plattform, die es ermöglicht große Datenmengen zu prozessieren. Es kann mit verschiedenen Programmiersprachen wie Python, Java, R etc gearbeitet werden. Verwendet wird eine in-Memory-Technologie.

GPT3 - Generative Pre-trained Transformer von Open AI

December 12, 2022 18:44 - 7 minutes - 6.84 MB

Der Leistungsstarker Sprachgenerator wurde nun der Öffentlichkeit zugänglich gemacht. GPT3 stammt von Open AI und es handelt sich um ein neuronales Netzwerk, das auf einem Deep-Learning-Modell basiert.

ChatGPT3 - Generative Pre-trained Transformer von Open AI

December 12, 2022 18:44 - 7 minutes - 6.84 MB

Der Leistungsstarker Sprachgenerator wurde nun der Öffentlichkeit zugänglich gemacht. GPT3 stammt von Open AI und es handelt sich um ein neuronales Netzwerk, das auf einem Deep-Learning-Modell basiert.

Apache Software Foundation

December 11, 2022 22:14 - 3 minutes - 3.3 MB

Was macht die Apache Software Foundation? Kurzer Überblick und Einordnung in die Data Engineering Infrastruktur.

Das Data Lakehouse Konzept. Abgrenzung zu Data Warehouse und Data Lake...

December 10, 2022 20:07 - 3 minutes - 3.16 MB

Was ist ein Data Lakehouse? Verbindung der Vorteile eines Data Warehouse mit einem Data Lake = Data Lakehouse

DWH vs OLTP Datenbanken - was ist der Unterschied und wie werden sie eingesetzt?

December 10, 2022 19:33 - 6 minutes - 5.8 MB

Data Warehouse vs Transaktionale Datenbanken. Wie grenzen sie sich von einander ab und wie werden sie in der Praxis eingesetzt?

dbt "Data Build Tool" Daten transformieren - kurzer Überblick - Software für DE, DA und DS...

December 09, 2022 22:24 - 4 minutes - 4.28 MB

"Data Build Tool" Daten transformieren mit dbt. Weit verbreitete Software.

PRICING DWH wie unnötig hohe Kosten verhindert werden können. Effiziente Datenbankabfragen stellen.

December 08, 2022 21:02 - 5 minutes - 5.18 MB

Effiziente Datenbankabfragen stellen. Ob bei On-Premises, oder Cloud Datawarehouses - überall entstehen Kosten.

Was ist ein Analytics Engineer? Abgrenzung zu Data Engineer, Data Analyst und Data Scientist.

December 07, 2022 13:11 - 6 minutes - 6.46 MB

Ein Analytics Engineer ist, so wie der Data Engineer für die Bereitstellung der Daten zuständig. In Abgrenzung zum "Data Engineer" ist dieser aber näher am Kontext der Daten dran und sollte somit auch ein Business-Verständnis mitbringen. Stakeholder sind z. B. Data Analyst und Data Scientist...

Streaming vs Batch Processing - Daten von A nach B Transportieren Vorteile von Streaming von Daten

December 06, 2022 22:32 - 7 minutes - 6.83 MB

In den meisten Fällen ist es vorteilhaft die Daten in nahezu Realtime am gewünschten Ort zu haben. Allerdings kommt das mit teilweise großem Aufwand einher. - Streaming vs Batch Processing - Daten von A nach B Transportieren

3 Vorteile von Cloud Infrastrukturen vs Verwendung On-Premises Infrastrukturen

December 05, 2022 22:31 - 5 minutes - 5.42 MB

Cloud Infrastrukturen vs Verwendung On-Premises Infrastrukturen

Daten Modellierung - 2 Ansätze Bill Inmon & Ralph Kimball #Short

December 04, 2022 22:12 - 2 minutes - 2.69 MB

2 Ansätze Bill Inmon & Ralph Kimball - Daten Modellierung.

DevContainer - Docker / Podman

December 03, 2022 23:04 - 3 minutes - 3.13 MB

Developing inside a Container. Arbeit mit Docker oder Podman.

ACID (Atomicity, Consistency, Isolation, Durability) erwünschte Eigenschaften von Transaktionen

December 02, 2022 22:01 - 4 minutes - 4.43 MB

Was bedeutet ACID (Atomicity, Consistency, Isolation, Durability)? Erwünschte Eigenschaften von Transaktionen. Zu deutsch: AKID-Eigenschaften (Atomarität, Konsistenz, Isolation, Dauerhaftigkeit)

Datawarehouse Anwendungs-Beispiel - DWH Verwendung in der Praxis.

December 02, 2022 21:41 - 4 minutes - 4.17 MB

Anwendung eines Datawarehouse (DWH). DWH Verwendung in der Praxis. Beispiele zur Modellierung der Datenstrukturen im Datawarehouse (Star/Snowflake, Data Vault etc.)

Beschreibendere Begriffe für verschiedene Data-Engineering-Tätigkeiten...

December 01, 2022 21:23 - 9 minutes - 8.84 MB

Was verstehst du unter dem Begriff Data Engineer? Das Verständnis variiert von Unternehmen zu Unternehmen stark. Ich führe mögliche Begriffe zur differenzierung des Überbegriffs "Data Engineering" auf.

Datenbank, Datawarehouse, Data Lake kurze Begriffsabgrenzung

November 30, 2022 22:04 - 6 minutes - 6.27 MB

Was ist der Unterschied zwischen einer Datenbank, Datawarehouse, Data Lake?

Daten Modellierung vs Daten Architektur #Short

November 29, 2022 19:58 - 1 minute - 1.52 MB

Was ist der Unterschied zwischen Daten Modellierung und Daten Architektur?

Datensatz, Datei, Datenbank - Unterschied und Aufbau - Datenmodellierung

November 28, 2022 21:56 - 8 minutes - 8.27 MB

Was bedeuten die Begriffe: Datensatz, Datei, Datenbank - Unterschied und Aufbau - Datenmodellierung

Was macht ein Data Engineer? Mit kurzer Fabrik Analogie - Data Pipeline

November 27, 2022 22:33 - 2 minutes - 2.67 MB

Als Data Engineer seine tägliche Arbeit mit Daten beschreiben.

In-Memory-Datenbanken IMDB als Datenbank-Technologie

November 26, 2022 22:37 - 4 minutes - 4.6 MB

Was ist eine In-Memory-Datenbank IMDB? Beispiele: SAP Hana, Raima, Apache Derby...

In-Memory-Datenbank IMDB als Datenbank-Technologie

November 26, 2022 22:37 - 4 minutes - 4.36 MB

Was ist eine In-Memory-Datenbank IMDB? Beispiele: SAP Hana, Raima, Apache Derby...

SAP Business Technology Platform als PaaS Produjt der SAP

November 25, 2022 21:11 - 2 minutes - 2.68 MB

Wie gliedert sich die SAP BTP in die weltweite PaaS Angebote ein und welche Services werden angeboten?

3 Punkte die einen Data Engineer erfolgreich machen

November 24, 2022 21:17 - 5 minutes - 5.29 MB

Problemlösung, Kommunikation, Geduld als wichtige Charaktereigenschaften eines Data Engineers

Master Data Management / oder zu deutsch- Stammdatenmanagement...

November 21, 2022 22:31 - 5 minutes - 4.99 MB

Warum benötigen Organisationen Stammdatenmanegement? Master Data Management in Unternehmen. Sicherstellung der Datenqualität.

Data Observability in der Daten Infrastruktur #Short

November 20, 2022 22:16 - 1 minute - 932 KB

Was ist Data Observability und wie kann es im Unternehmenskontext implementiert werden? Monitoring der Daten Infrastruktur.

Python vs SQL Arbeit mit Daten #Short

November 19, 2022 23:14 - 2 minutes - 2.21 MB

Welche Technologie für die Arbeit mit Daten? SQL vs Python

Data Pipelines #Short

November 19, 2022 23:00 - 1 minute - 1.23 MB

Was ist eine Daten Strecke? Und welche Prozessarten fallen darunter? Data Pipelines

Snowflake als Plattform As A Service Company

November 18, 2022 22:18 - 8 minutes - 7.97 MB

Was kann und macht Snowflake? Und wie wird es in der Praxis verwendet? GCP, AWS, Azure als IaaS als Basis.

Snowflake als Plattform as a Service Company

November 18, 2022 22:18 - 8 minutes - 7.97 MB

Was kann und macht Snowflake? Und wie wird es in der Praxis verwendet? GCP, AWS, Azure als IaaS als Basis.