Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
In diesem Artikel werden Methoden zum Vorbereiten von Daten für verteilte Schulungen beschrieben.
Verwenden Sie für sehr große Datasets, die nicht in den Arbeitsspeicher passen, Streamingansätze:
- PyTorch IterableDataset für benutzerdefinierte Streaminglogik.
- Hugging Face-Datasets mit Streaming für Datasets, die auf dem Hub oder in Volumen gehostet werden.
- Ray Data für verteilte Batch-Datenverarbeitung.
TFRecord
Sie können auch das TFRecord-Format als Datenquelle für verteiltes Deep Learning verwenden. Das TFRecord-Format ist ein einfaches datensatzorientiertes Binärformat, das von vielen TensorFlow-Anwendungen zum Trainieren von Daten verwendet wird.
tf.data.TFRecordDataset ist das TensorFlow-Dataset, das aus Datensätzen aus TFRecords-Dateien besteht. Weitere Informationen zur Verwendung von TFRecord-Daten finden Sie im TensorFlow-Handbuch Verwenden von TFRecord-Daten.
In den folgenden Artikeln werden die empfohlenen Methoden zum Speichern Ihrer Daten in TFRecord-Dateien und Laden von TFRecord-Dateien beschrieben und veranschaulicht: