Was ist OneLake?

Microsoft OneLake ist ein einheitlicher Datensee für Ihre gesamte Organisation. Jeder Microsoft Fabric-Mandant enthält automatisch OneLake, und OneLake ist der zentrale Ort für alle Ihre Analysedaten. Es ist ein zentrales Repository, in dem Sie alle Ihre Daten für Analyse- und KI-Workloads in der gesamten Organisation speichern, verwalten und steuern können.

OneLake basiert auf Azure Data Lake Storage und speichert Tabellen im Delta-Parquet- oder Iceberg-Format, zwei offene Standards, die von jedem Tool gelesen werden können. Dieser Ansatz bedeutet, dass Ihre Daten nicht in proprietäre Formate gesperrt sind.

OneLake bietet Folgendes:

  • Einheitliche Datenspeicherung für die gesamte Organisation mit integrierter Governance und Sicherheit
  • Eine Kopie der Daten , die mit mehreren Analysemodulen ohne Duplizierung verwendet werden soll
  • Flexible Konnektivität über Datei-Explorer, ADLS Gen2-APIs und Azure Dienstintegrationen
  • Datenschutz und Überwachung mit integrierter Redundanz, Notfallwiederherstellung und Zugriffsdiagnose

Einheitlicher Datenspeicher

Vor OneLake haben Organisationen häufig mehrere Seen für verschiedene Geschäftsgruppen erstellt, was zu zusätzlichem Aufwand für die Verwaltung mehrerer Ressourcen führte. Dieser isolierte Ansatz machte es schwierig, in teamsübergreifend zusammenzuarbeiten, Datenprojekte zu verlangsamen und das Risiko der Duplizierung zu erhöhen.

OneLake löst diese Herausforderungen, indem Sie einen zentralen Datenzugriffspunkt für die gesamte Organisation erhalten. Jeder Fabric Mandant verfügt über eine einzelne OneLake-Instanz. Sie können OneLake nicht löschen oder mehrere OneLakes erstellen, und es gibt keine Infrastruktur, die bereitgestellt oder verwaltet werden soll. Abteilungen, Teams und Projekte können ihre Daten in diesem einheitlichen See speichern oder verbinden und mithilfe von Fabric Domänen, Unterdomänen und Arbeitsbereichen organisieren – jeweils mit ihrem eigenen Administrator. Dieses Modell verwaltet den Besitz von Daten und ermöglicht die Verbundgovernance, während autorisierte Benutzer Daten ohne Reibung ermitteln und verwenden können.

Zentral verwaltet mit verteiltem Besitz

Fabric Daten sind in der folgenden Hierarchie für Organisation und Governance vorhanden:

  • Mandant: Richtlinien auf Mandantenebene schützen automatisch alle Daten, die in OneLake gespeichert werden, im Hinblick auf Sicherheit, Compliance und Datenverwaltung.
  • Arbeitsbereich: Sie können eine beliebige Anzahl von Arbeitsbereichen in Ihrem Mandanten erstellen, um Ihre Daten zu organisieren. Arbeitsbereiche ermöglichen es verschiedenen Teilen der Organisation, Besitz- und Zugriffsrichtlinien zu verteilen. Jeder Arbeitsbereich ist Teil einer Kapazität, die an eine bestimmte Region gebunden ist und separat abgerechnet wird.
  • Datenelemente: Arbeitsbereiche enthalten Datenelemente wie Seehäuser, Lagerhäuser, Eventhouses und KQL-Datenbanken. Jeder Elementtyp ist für bestimmte Workloads wie Spark-basierte Analysen, T-SQL-Abfragen, Echtzeitstreaming und vieles mehr vorgesehen.

Schaubild der Funktion und Struktur von OneLake.

Weitere Informationen finden Sie unter Arbeitsbereiche.

Entdecken und Verwalten mit dem OneLake-Katalog

Der OneLake-Katalog ist der einzige Ort, an dem Datenprofis und Geschäftsbenutzer die daten ermitteln, verwalten und steuern können, die sie besitzen und über OneLake zugreifen können.

Benutzer können nach Domäne, Arbeitsbereich, Elementtyp, Bestätigungen und mehr filtern, um genau das zu finden, was sie benötigen, wobei jedes Datenelement durch Metadaten erweitert wird, z. B. Beschreibungen, Besitzer, Schema, Lineage und Nutzungsmetriken.

Datenbesitzer können Erkenntnisse und empfohlene Maßnahmen erhalten, um die Datenqualität und Compliance zu verbessern, einschließlich Transparenz hinsichtlich der Abdeckung mit Vertraulichkeitsbezeichnungen, Kennzeichnung, Befürwortungen und Datenstandort.

Weitere Informationen finden Sie im OneLake-Katalog.

Sicherheit

Mit dem Sicherheitsmodell von OneLake können Sie Daten allgemein freigeben, ohne vertrauliche Informationen offen zu setzen. Mithilfe von OneLake-Sicherheitsrollen können Sie differenzierte Berechtigungen für Datenelemente definieren, bis hin zu bestimmten Ordnern, Tabellen oder sogar Zeilen und Spalten. Sie können z. B. ein Vertriebsdatensatz für ein Team freigeben, den Zugriff auf die Cost Spalte jedoch einschränken, oder Sie können einem Partner erlauben, nur Zeilen anzuzeigen, in denen Region = "US". OneLake speichert diese Rollen und erzwingt sie automatisch für alle Analyseerfahrungen. Wenn ein Benutzer also nur auf einen Teil eines Datasets zugreifen kann, gilt diese Regel, ob sie über SQL abfragen, ein Spark-Notizbuch ausführen oder einen Power BI Bericht anzeigen. OneLake stellt sicher, dass sie nur sehen, was sie sehen dürfen.

Dieser einheitliche Ansatz für die Sicherheit bedeutet, dass Benutzer keine separaten Berechtigungen über verschiedene Module hinweg verwalten müssen. Dies bedeutet auch, dass die ursprünglichen Datenbesitzer immer die Kontrolle darüber behalten, wer auf die Datenquelle zugreifen kann, auch wenn die Daten an ein Seehaus oder einen Arbeitsbereich übergeben werden, der sich im Besitz einer anderen Person befindet.

Sie können Vertraulichkeitsbezeichnungen auf OneLake-Elemente wie auf ein Dokument anwenden, und diese Bezeichnungen erzwingen Verschlüsselungs- oder Zugriffsbeschränkungen, auch wenn die Daten in Excel oder ein anderes Tool exportiert werden. Ebenso können Dlp-Richtlinien (Data Loss Prevention, Verhinderung von Datenverlust) vertrauliche Datenuploads oder Downloads von OneLake erkennen und potenzielle Datenlecks verhindern oder darauf aufmerksam machen.

Weitere Informationen finden Sie unter "Erste Schritte beim Sichern Ihrer Daten in OneLake".

Eine Kopie der Daten

Alle Fabric Analysemodule arbeiten direkt in OneLake mit Daten. Sie müssen keine Daten kopieren, um sie mit einem anderen Modul zu verwenden oder Daten aus mehreren Quellen zu analysieren.

Abkürzungen

Eine Verknüpfung ist ein Verweis auf Daten, die an anderen Dateispeicherorten gespeichert sind. Diese Dateispeicherorte können sich innerhalb desselben Arbeitsbereichs, eines anderen Arbeitsbereichs in OneLake oder außerhalb von OneLake befinden. Sie können Tastenkombinationen für OneLake, Azure Data Lake Storage, Azure Blob Storage, Amazon S3 und S3 kompatible Quellen, Iceberg-kompatible Quellen, Microsoft Dataverse, lokale Quellen und vieles mehr verwenden. Unabhängig vom Speicherort führen Verknüpfungen dazu, dass Dateien und Ordner so aussehen, als wären sie lokal gespeichert.

Mit Tastenkombinationen können Ihre Organisation Daten über Clouds und Domänen hinweg vereinheitlichen, ohne sie zu kopieren. Teams können unabhängig in separaten Arbeitsbereichen arbeiten und Verknüpfungen verwenden, um Daten untereinander zu teilen, anstatt sie zu duplizieren. Beispielsweise könnte ein Team eine Verknüpfung zu einem Dataset im Arbeitsbereich eines anderen Teams oder zu einem externen S3-Bucket erstellen und diese Daten dann mit ihren eigenen in OneLake kombinieren. Die Verknüpfung verweist auf die Quelle, sodass diese Änderungen sofort über OneLake sichtbar sind, wenn die Quelldaten aktualisiert werden. Auf diese Weise können Sie virtuelle Produkte oder Ansichten erstellen, die Daten aus mehreren Geschäftsgruppen zusammenziehen, um einem bestimmten Bedarf gerecht zu werden, ohne die Daten zu verschieben oder zu duplizieren. Mithilfe von Verknüpfungstransformationen können Sie sogar automatische Änderungen auf die Daten anwenden, z. B. das Konvertieren des Datenformats oder das Entfernen von personenbezogenen Informationen (PII).

Diagramm, das zeigt, wie Kurzbefehle Daten über Arbeitsbereiche und Elemente hinweg verbinden.

Weitere Informationen zur Verwendung von Verknüpfungen finden Sie unter OneLake-Verknüpfungen.

Mirroring

Die Spiegelung in Fabric ist eine kostengünstige Lösung mit geringer Latenz, die kontinuierlich Daten aus verschiedenen Systemen in OneLake repliziert. Sie können sicher eine Verbindung mit einer externen Datenquelle herstellen und ausgewählte Datenbanken oder Tabellen automatisch in das geöffnete OneLake-Format spiegeln (kopieren) und in nahezu Echtzeit synchronisieren. Die gespiegelten Daten werden als Delta Parquet in OneLake gespeichert, sodass sie sofort mit jeder Fabric-Engine analysiert werden können.

Spiegelung unterstützt Quellen wie Azure SQL-Datenbank, Azure Cosmos DB, Azure Database for PostgreSQL, Azure Databricks (Unity-Katalog), Schneeflake und vieles mehr. Änderungen in der Quelle werden kontinuierlich übernommen, sodass Ihre OneLake-Kopie ohne manuelle ETL-Jobs aktuell bleibt. Sie können Analysen, KI oder Power BI Berichte zu neuen Daten ausführen, ohne die Produktionsquelle direkt abzufragen.

Weitere Informationen finden Sie unter Was ist die Spiegelung in Fabric?

Zusammenarbeit in mehreren Analyse-Engines

Die analytischen Fabric-Engines (T-SQL, Apache Spark, Analysis Services und andere) speichern alle Daten in OneLake im offenen Delta-Parquet-Format. Mit dieser Standardisierung können Sie dieselben Daten über mehrere Module hinweg verwenden. Sie müssen Daten nicht kopieren, um sie mit einer anderen Engine zu verwenden oder sich gezwungen fühlen, eine bestimmte Engine zu verwenden, weil Ihre Daten dort gespeichert sind.

Beispielsweise erstellt ein Team von SQL-Technikern ein vollständiges Transaktionsdatenlager. Sie verwenden das T-SQL-Modul, um Tabellen zu erstellen, Daten zu transformieren und die Daten in Tabellen zu laden. Wenn ein Datenwissenschaftler diese Daten nutzen möchte, kann er ein Spark-Notizbuch an OneLake anfügen und diese Tabellen direkt lesen. Da OneLake die Tabellen im Delta-Format speichert, kann Spark sie ohne spezielle Connectors oder Datenexporte laden. Sowohl die SQL-Abfragen als auch die Spark-Aufträge werden mit einer Kopie der Daten in OneLake ausgeführt.

Darüber hinaus können Unternehmensbenutzer Power BI Berichte über OneLake erstellen, indem sie den Direct Lake-Modus im Analysis Services-Modul verwenden. Der Direct Lake-Modus ist ein Datenzugriffsmodus, der große Datenmengen schnell lädt und aktualisiert, ohne eine Kopie zu erstellen. Weitere Informationen finden Sie in der Übersicht über den Direct Lake.

Beispieldiagramm zum Laden von Daten mithilfe von Spark, Abfragen mit T-SQL und Anzeigen der Daten in einem Power BI-Bericht.

Interoperabilität des Open-Tabellenformats

OneLake unterstützt sowohl Delta Lake- als auch Apache Iceberg-Tabellenformate durch Metadatenvirtualisierung. Dieses Feature generiert automatisch virtuelle Metadaten, sodass Iceberg-Tabellen als Delta Lake-Tabellen über Fabric Workloads gelesen werden können, und Delta Lake-Tabellen können von externen Iceberg-Lesern gelesen werden. Sie können Iceberg-Tabellen direkt in OneLake schreiben oder Verknüpfungen zu iceberg-Tabellen erstellen, die extern gespeichert sind, und OneLake stellt sie für alle Fabric Engines ohne manuelle Konvertierung zur Verfügung. Ebenso kann auf jede Delta Lake-Tabelle in OneLake von Iceberg-kompatiblen Diensten wie Snowflake zugegriffen werden.

Weitere Informationen finden Sie unter Verwenden von Iceberg-Tabellen in OneLake.

Herstellen einer Verbindung mit OneLake

Sie können auf OneLake-Daten über das Fabric-Portal, Windows, vorhandene Azure-Tools oder eine beliebige Anwendung zugreifen, die ADLS Gen2-APIs unterstützt.

OneLake-Datei-Explorer für Windows

Sie können OneLake-Daten aus Windows untersuchen, indem Sie den OneLake-Datei-Explorer für Windows verwenden. Sie können in allen Arbeitsbereichen und Datenelementen navigieren, Dateien ganz einfach hochladen, herunterladen oder ändern, genau wie in Office. Der OneLake-Datei-Explorer vereinfacht das Arbeiten mit Datenseen, sodass auch nicht technische Geschäftsbenutzer sie verwenden können.

Weitere Informationen finden Sie unter OneLake-Datei-Explorer.

ADLS Gen2-APIs und SDKs

OneLake unterstützt Azure Data Lake Storage (ADLS) Gen2-APIs und SDKs, sodass Sie vorhandene ADLS Gen2-Anwendungen verwenden können. Jeder Arbeitsbereich wird als Container angezeigt, und Datenelemente werden als Ordner in diesen Containern angezeigt. Weitere Informationen finden Sie unter OneLake-Zugriff und APIs.

Schaubild, auf dem gezeigt wird, wie Sie auf OneLake-Daten mit APIs und SDKs zugreifen können.

Da OneLake mit ADLS Gen2-Anwendungen kompatibel ist, können Sie über Azure Dienste eine Verbindung mit OneLake herstellen. Beispiel:

Datenschutz und Überwachung

OneLake umfasst integrierte Funktionen, um Ihre Daten sicher zu halten und Ihnen Einblicke in die Verwendung zu geben.

Notfallwiederherstellung und Datenschutz

OneLake schützt Ihre Daten automatisch mit integrierter Redundanz. In Regionen, die Verfügbarkeitszonen unterstützen, verwendet OneLake zonenredundanten Speicher (ZRS), um Daten in mehreren Rechenzentren zu replizieren. In anderen Regionen wird lokal redundanter Speicher (LRS) verwendet. Zum zusätzlichen Schutz vor regionalen Ausfällen können Sie Business Continuity and Disaster Recovery (BCDR) für eine Kapazität aktivieren, um Ihre Daten per Georeplikation in eine gekoppelte Azure-Region zu replizieren. OneLake unterstützt auch das vorläufige Löschen, das gelöschte Dateien sieben Tage lang aufbewahrt, sodass Sie versehentliche Löschungen wiederherstellen können.

Weitere Informationen finden Sie unter Notfallwiederherstellung und Datenschutz für OneLake.

Diagnostik

Die OneLake-Diagnose bietet Einblicke in den Zugriff auf Daten und die Verwendung in Ihrer Fabric Umgebung. Wenn Sie die Diagnosefunktionen auf Arbeitsbereichsebene aktivieren, werden Datenzugriffsereignisse als Protokolle in ein Lakehouse gestreamt. Sie können nachverfolgen, wer auf welche Daten zugegriffen hat, wann und wie. Diese Protokollierung umfasst Benutzeraktionen in der Fabric UI, programmgesteuerten Zugriff über APIs und Analysemodule und arbeitsbereichübergreifenden Zugriff über Verknüpfungen.

Weitere Informationen finden Sie unter OneLake-Diagnose.