Databricks vs. Microsoft Fabric

Blog-Beitrag
Smart Data Services
Paula Guerra Toni
Jan Ole Munstermann
18
.
06
.
2024

Moderne Datenplattformen im Praxistest

Databricks und Microsoft Fabric gehören aktuell zu den wichtigsten Akteuren in der Datentechnologie-Landschaft. Besonders Microsoft Fabric hat mit seinen neuen Ansätzen für Aufsehen gesorgt. In diesem Blogbeitrag werfen wir einen Blick hinter die Kulissen und stellen die Kernfunktionalitäten beide beider Tools kurz gegenüber.  

Unter den Datenplattformen hat sich Databricks schon seit über 10 Jahren einen Namen gemacht. Viele Unternehmen nutzen es als einheitliche Analyseplattform, die sich besonders für Big-Data-Aufgaben und die reibungslose Integration mit Apache Spark eignet. Databricks ist dabei für seine Cloud-Anpassungsfähigkeit und Skalierbarkeit sowie die Vereinfachung der Zusammenarbeit bekannt und hat hohe Standards gesetzt.  

Doch die dynamische Technologie-Welt entwickelt sich ständig weiter - und so kam es 2023 zur nächsten großen Veränderung: Microsoft stellte mit Microsoft Fabric eine Lösung vor, die die Verarbeitung von Daten für Unternehmen stark vereinfachen soll. Dieses neue Tool kombiniert Funktionen bekannter Dienste wie Power BI, Azure Synapse und Azure Data Factory in einer einheitlichen Plattform. Damit hat es selbstbewusst die Bühne der Datenplattformen betreten und sich schnell eine starke Position unter seinen Mitbewerbern gesichert. Es lohnt sich daher zu betrachten, wie es sich im Vergleich zu Databricks schlägt. Dazu haben wir uns die Kernfunktionalitäten beider Tools näher angeschaut:

Integration:

  • Databricks wurde entwickelt, um nahtlos mit führenden Cloud-Anbietern wie AWS, Microsoft Azure und Google Cloud zusammenzuarbeiten. Es bietet Verbindungen zu einer Vielzahl von Datenquellen und BI-Tools.  
  • Microsoft Fabric kann aktuell mit 135 verschiedenen Quellen verbunden werden und zeichnet sich durch seine nahtlose Integration mit den nativen Diensten von Microsoft aus. Im Kern dient OneLake als zentrales Daten-Repository, das Daten aus verschiedenen Quellen zusammenführt.  

Berechnung:

  • Databricks verwendet Spark-Cluster mit dynamischer Skalierung.
  • Microsoft Fabric hat das Konzept der Spark-Computation auf Abruf über die "Spark Compute Platform" eingeführt und bietet auch TSQL und KQL als Berechnungsmethode an.

Sicherheit:

  • Databricks räumt der Sicherheit auf jeder Ebene seiner Plattform höchste Priorität ein und bietet Datenverschlüsselung auch im Ruhezustand und bei der Übertragung, rollenbasierte Zugriffskontrolle und VPC an.
  • Microsoft Fabric verfolgt die Strategie "Define-once, enforce-everywhere" für Konsistenz über alle Compute-Engines hinweg. Zudem setzt es auf eine Data-Lake-integrierte Sicherheit mit hierarchischen Berechtigungen.

Kosten:

  • In Databricks erfolgt die Abrechnung über "Databricks Units" (DBU) nach dem Pay-per-Use-Prinzip. Hinzu kommen die Kosten des jeweiligen Cloud-Anbieters sowie Kosten für die Speicherung.
  • Microsoft Fabric berechnet die Kosten auf Basis von „Capacity Units (CU)“ nach dem Pay-as-you-go-Modell. Dabei handelt es sich quasi um die Reservierung bestimmter CUs für einen gewissen Zeitraum. Hinzu kommen die Kosten für die Speicherung in OneLake.

Continuous Integration & Continuous Deployment (CI/CD):

  • Databricks ermöglicht eine robuste und nahtlose Integration verschiedener Git-Anbieter und unterstützt Notebooks.  
  • Microsoft Fabric verfügt aktuell nur über eine Git-Integration mit Azure DevOps Services, wodurch Ressourcen wie Notebooks, Reports und Datensätze versioniert werden können.
Details zu den einzelnen Punkten finden Sie in unserem aktuellen Whitepaper.

Fazit:

Sowohl Databricks als auch Microsoft Fabric entwickeln sich zu führenden Unified-Data-Plattformen, die die gesamte Data Journey effizient unterstützen. Microsoft Fabric hebt sich dabei durch das Angebot zusätzlicher Compute Engines wie TSQL und KQL hervor, auch wenn Spark-Cluster in Microsoft Fabric vergleichsweise weniger konfigurierbar sind.  

Microsoft Fabric rationalisiert die Nutzung von Notebooks und minimiert die Wartezeiten für die Bereitstellung von Rechenressourcen. Databricks ist hingegen führend bei den Datenvisualisierungsfunktionen innerhalb seiner Notebooks. Das herausragendste Merkmal von Microsoft Fabric ist die nahtlose Integration mit Power BI direkt auf OneLake, wodurch die Datenanalysefähigkeiten verbessert werden. Microsoft Fabric zeichnet sich auch durch die Förderung der Zusammenarbeit aus und bietet mehrere Möglichkeiten, damit zu arbeiten, wie die Verwendung von Dataflow Gen2 und/oder Data Pipelines.

Databricks verfolgt einen eher codezentrierten Ansatz und richtet sich in erster Linie an Datenexperten, während Microsoft Fabric mit seiner benutzerfreundlichen Oberfläche auch für Personen geeignet ist, die sich den Herausforderungen einer modernen Datenlandschaft stellen wollen.

Für die Wahl der passenden Plattform empfehlen wir Ihnen unser Whitepaper mit ausführlichen Details zu den aufgezählten Kernfunktionalitäten sowie weiteren Infos zu  den verschiedenen Data-Expert-Rollen und einem realen Data Engineering Use Case.

,
celver-Konferenz zu mehr neue Wege zur Nutzung von Daten
Webinar on demand

Welche Chancen bietet MS Fabric?

Neue Wege zur Nutzung von Daten

Webinar on demand
Julian Schütt
Markus Link
Länge:
32
Minuten

Verfasser des Blog-Beitrags

Paula Guerra Toni
Paula Guerra Toni
Data Engineer
celver AG

Paula ist Data Engineer bei celver und beschäftigt sich neben den klassischen Aufgaben eines Data Engineers insbesondere mit Datenanalysen sowie der Architektur und Bereitstellung von Cloud-Umgebungen. In diesen Bereichen eignet sie sich kontinuierlich neues Wissen an und setzt dieses aktiv in ihrer Arbeit um. Paula verfügt über umfassende Projekterfahrung mit verschiedenen Tools und Technologien - insbesondere innerhalb von Databricks.

Jan Ole Munstermann
Jan Ole Munstermann
Data Engineer
celver AG

Jan Ole ist als Data Engineer bei celver tätig und fokussiert sich dabei hauptsächlich auf Cloud-Umgebungen in Databricks und Azure Synapse. Seine Verantwortung liegt darin, Quelldaten der Kunden zu extrahieren und mithilfe von Datenpipelines in verschiedenen Data Marts innerhalb der genannten Tools zur Verfügung zu stellen. In diesem Zusammenhang ist er kontinuierlich auf der Suche nach innovativen Technologien, die es ihm ermöglichen, seinen Arbeitsalltag noch produktiver zu gestalten.

Case Study zum Thema

Mit unseren News erhalten Sie aktuelle Insights zu Smart Planning, Smart Analytics, Smart Data und Smart Cloud.

Jetzt anmelden