Aufbereiten von Daten für verteiltes Training

In diesem Artikel werden Methoden zum Vorbereiten von Daten für verteilte Schulungen beschrieben.

Verwenden Sie für sehr große Datasets, die nicht in den Arbeitsspeicher passen, Streamingansätze:

PyTorch IterableDataset für benutzerdefinierte Streaminglogik.
Hugging Face-Datasets mit Streaming für Datasets, die auf dem Hub oder in Volumen gehostet werden.
Ray Data für verteilte Batch-Datenverarbeitung.

TFRecord

Sie können auch das TFRecord-Format als Datenquelle für verteiltes Deep Learning verwenden. Das TFRecord-Format ist ein einfaches datensatzorientiertes Binärformat, das von vielen TensorFlow-Anwendungen zum Trainieren von Daten verwendet wird.

tf.data.TFRecordDataset ist das TensorFlow-Dataset, das aus Datensätzen aus TFRecords-Dateien besteht. Weitere Informationen zur Verwendung von TFRecord-Daten finden Sie im TensorFlow-Handbuch Verwenden von TFRecord-Daten.

In den folgenden Artikeln werden die empfohlenen Methoden zum Speichern Ihrer Daten in TFRecord-Dateien und Laden von TFRecord-Dateien beschrieben und veranschaulicht:

Speichern von Apache Spark-DataFrames in TFRecord-Dateien

Feedback

War diese Seite hilfreich?

Last updated on 2026-06-23

Aufbereiten von Daten für verteiltes Training

TFRecord

Feedback

Zusätzliche Ressourcen