Jeu de données téléchargeable : Stack Overflow Creative Commons Data Dump (avec des endpoints OData en prime)
Ceux qui cherchent régulièrement des jeux de données plus ou moins massifs mais surtout basés sur du contenu réel seront peut être intéressés par ce que je viens de découvrir (même si ça fait une bonne année que c'est disponible).
Les données des sites Stack Overflow, Server Fault, Super User et Meta Stack Overflow sont téléchargeables (via torrent) sous forme de dump XML actuellement sous license Creative Commons Attribution - Share Alike (voir aussi ici).
Dans le cas du jeu de données pour le site Stack Overflow en lui même, ça représente à ce jour quelque chose comme 700000 posts, 2 millions de réponses, 2.5 millions de commentaires, près de 30000 tags de classement et diverses autres données liées.
Le lien vers le dump avec les données au 31/05/2010 (estampillé "Jun 10") est disponible sur cette page (de manière générale, utiliser cette page pour trouver le dernier en date).
A noter aussi l'apparition aujourd'hui même d'un moyen de consulter ces données directement en ligne sans manipuler le dump : Stack Exchange Data Explorer
Les endpoints OData sont même accessibles ici : http://odata.stackexchange.com/about (si vous cherchez de quoi visualiser facilement leur contenu, vous trouverez de quoi faire ici, dont des outils en Silverlight : http://www.odata.org/consumers)
Dans le même ordre d'idée on peut aussi citer :
GeoNames
Il s'agit d'une base de données géographique avec une variété de données pour une bonne liste de pays, accessible sous forme de webservices ou de dumps téléchargeables.
Les dumps sont fournis actuellement sous license Creative Commons — Attribution 3.0 Unported :
"This work is licensed under a Creative Commons Attribution 3.0 License, see http://creativecommons.org/licenses/by/3.0/"
Ils sont au format TSV (valeurs séparées par des tabulations) en UTF-8.
Wikimedia (Wikipedia, Wiktionary, ...)
Vous savez déjà de quoi il s'agit.
Les dumps sont fournis actuellement sous license Creative Commons Attribution-ShareAlike 3.0 License.
Ils se présentent sous forme XML ou SQL et dans différents profils de contenu.
Les fichiers "all-titles-in-ns0.gz" par exemple représentent des listings avec un grand nombre d'entrées (plusieurs millions dans le cas d'enwiki) et pour le coup une belle variété de caractères :
Pour obtenir cette vue et les listes complètes, utilisez la fonction d'analyse "Document Analysis" de BabelPad sur un de ces fichiers.
Attention tout de même aux volumes : un dump Wikipedia US des révisions courante des pages (pages-articles.xml.bz2, sans l'historique etc donc) peut par exemple représenter un volume de 25,4 Go (pour un volume compressé de 5,69Go lors du téléchargement en bz2).
Les dumps de type history sont à priori largement plus volumineux... (et à mes yeux n'ont pas vraiment d'intérêt).
Pour une base de données de type GeoIP, vous pouvez regarder ce récent post de Christian.
Ce post vous a plu ? Ajoutez le dans vos favoris pour ne pas perdre de temps à le retrouver le jour où vous en aurez besoin :