*Ein Wort der Warnung: Sie werden mit großen Dateigrößen zu tun haben. Die Downloadzeiten können also langsam sein. Wikipedia ist ein erstaunlicher Datensatz, um alle Arten von Forschung zu tun, die weit über Text-Mining gehen wird. Das Beste an Wikipedia ist, dass es unter kreativer gemeinsamer Lizenz lizenziert ist. So dürfen Sie Wikipedia herunterladen und in jeder gewünschten Weise verwenden. Die Artikel haben fast keine Rechtschreibfehler und eine große Struktur mit aussagekräftigen Überschriften und Unterüberschriften. Damit wird Wikipedia zu einem häufig verwendeten Datensatz in der Informatik. Kein Wunder, dass ich beschlossen habe, Wikipedia herunterzuladen und zu untersuchen. Ich wollte zuerst Erfahrungen in der Verarbeitung natürlicher Sprache sammeln. Außerdem wollte ich einige Graph-Mining-Algorithmen testen und einige Statistiken über meine Mutter Tong Deutsch erhalten.

Obwohl es sehr gut dokumentiert ist, wie man diesen großartigen Datensatz herunterlädt, gibt es einige kleine Hindernisse, die mich ab und zu kämpfen ließen. Für den erfahrenen Data Miner werden diese Herausforderungen wahrscheinlich leicht zu meistern sein, aber ich denke immer noch, dass es sich lohnt, über sie zu bloggen. Crawlen Sie Wikipedia bitte nicht! Nachdem ich Vor etwa 2 Jahren Toby Segarans Buch “Programming collective intelligence” gelesen hatte, wollte ich meinen ersten einfachen Web-Crawler bauen und Wikipedia herunterladen, indem ich Wikipedia durchforsten. Nach der Installation von Python und der Bibliothek schöne Suppe, die von Toby empfohlen wird, erkannte ich, dass mein Skript nicht Wikipedia-Seiten herunterladen konnte. Ich habe auch keine aussagekräftige Fehlermeldung erhalten, die ich in Google hätte eingeben können. Nach einem Moment des Denkens erkannte ich, dass Wikipedia vielleicht nicht glücklich mit vielen unerwünschten Crawlern, da beschissene Crawler eine Menge Last auf dem Web-Server produzieren können. Also hatte ich einen kurzen Blick auf de.wikipedia.org/robots.txt und erkannte schnell, dass Wikipedia nicht zu glücklich ist mit Fremden, die kriechen und es herunterladen. Ich habe einmal gehört, dass Datenbank-Dumps von Wikipedia zum Download zur Verfügung stehen. Warum also nicht ein Datenbank-Dump herunterladen, einen Webserver auf meinem Notebook installieren und meine lokale Version von Wikipedia durchforsten? Das sollte sowieso viel schneller sein. Bevor ich zum Schritt des Herunterladens eines Datenbank-Dumps überging, habe ich versucht, mein Skript zu ändern, um “bessere” http-Header an Wikipedia zu senden, während ich Seiten zum Herunterladen anforderte. Das lag nicht daran, dass ich trotzdem weiter wikipedia kriechen wollte, ich wollte nur Wetter sehen, das ich austricksen konnte.