Dabei werden alle Dateien im Ordner
input-files
importiert. Der Dateityp
der hochzuladenen Daten ist mit
aggregates
angegeben. Das sind XML Daten.
Mehr Infos zu den Kommandozeilen-Optionen befinden sich auf der
entsprechenden Dokuseite ↗
von MarkLogic.
Mit der Option
-aggregate_record_element
wird definiert, dass die Eingabe bzgl. des Elements
<chapter>
aufgesplittet werden soll.
D.h. eine Datei mit folgendem Inhalt:
Auf der Konsole kann man sich das Ergebnis der
mlcp
Sitzung anschauen. Es wurden - wie gewünscht - drei XML Fragmente separat in die Collection gespeichert.
figure: 20 Ergebnis einer MarkLogic Content Pump Sitzung
Um in MarkLogic keine Speicherpobleme zu erzeugen empfielt es sich große Dokumente, die man nur "speichern" will mit der Option
-document_type binary
zu importieren. In diesem Zusammenhang ist ebenfalls die Option
-streaming true
interessant.
Ein weiterer wichtiger Punkt, der mir bei der Arbeit mit
mlcp
aufgefallen ist:
Kommt es zu Inkonsistenzen in der Datenhaltung, mag das daran liegen, dass in verschiedenen
mlcp
Sitzungen von der gleichen Datei (gleicher Dateiname im Filesystem) importiert wurde.
Es ist darauf zu achten, dass die Dateinamen eindeutig sind. Das kann zum Beispiel durch die Vergabe einer eindeutige ID im Dateinamen geschehen. Auf der Dokuseite zu den
mlcp
Optionen steht dazu folgendes:
"If your aggregate URI id's are not unique, you can overwrite one document in your input set with another. Importing documents with non-unique URI id's from multiple threads can also cause deadlocks."
"The generated URIs are unique across a single import operation, but they are not globally unique. For example, if you repeatedly import data from some file /tmp/data.csv, the generated URIs will be the same each time (modulo differences in the number of documents inserted by the job)"