4.3.3.5.2  XML Eingabe

Damit das Experiment etwas aufregender wird, arbeiten wir mittels XML Streaming auf einem Wikipedia Dump mit 5.3 GB Filesize. Das XML dazu sieht folgendermassen aus:

<mediawiki xmlns="http://www.mediawiki.org/xml/export-0.10/" 
             xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
             xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.10/ 
                                 http://www.mediawiki.org/xml/export-0.10.xsd" 
             version="0.10" 
             xml:lang="en">
    
   <siteinfo>
     <sitename>Wikipedia</sitename>
     <dbname>enwiki</dbname>
     <base>https://en.wikipedia.org/wiki/Main_Page</base>
     <generator>MediaWiki 1.29.0-wmf.12</generator>
     <case>first-letter</case>
     <namespaces>
       [...]
     </namespaces>
   </siteinfo>
   <page>
     <title>AccessibleComputing</title>
     <ns>0</ns>
     <id>10</id>
     <redirect title="Computer accessibility" />
     <revision>
       <id>631144794</id>
       <parentid>381202555</parentid>
       <timestamp>2014-10-26T04:50:23Z</timestamp>
       <contributor>
         <username>Paine Ellsworth</username>
         <id>9092818</id>
       </contributor>
[...]
Plain Text

Wir wollen alle Titel in einer Datenbank speichern, deshalb wird auf das <title> Element gematcht.