Bienvenue à Blogs CodeS-SourceS Identification | Inscription | Aide

CoqBlog

.NET is good :-)
{ Blog de Gaël Covain }

Actualités

Jeu de données téléchargeable : Stack Overflow Creative Commons Data Dump (avec des endpoints OData en prime)

Ceux qui cherchent régulièrement des jeux de données plus ou moins massifs mais surtout basés sur du contenu réel seront peut être intéressés par ce que je viens de découvrir (même si ça fait une bonne année que c'est disponible).

Les données des sites Stack Overflow, Server Fault, Super User et Meta Stack Overflow sont téléchargeables (via torrent) sous forme de dump XML actuellement sous license Creative Commons Attribution - Share Alike (voir aussi ici).

Dans le cas du jeu de données pour le site Stack Overflow en lui même, ça représente à ce jour quelque chose comme 700000 posts, 2 millions de réponses, 2.5 millions de commentaires, près de 30000 tags de classement et diverses autres données liées.

Le lien vers le dump avec les données au 31/05/2010 (estampillé "Jun 10") est disponible sur cette page (de manière générale, utiliser cette page pour trouver le dernier en date).

A noter aussi l'apparition aujourd'hui même d'un moyen de consulter ces données directement en ligne sans manipuler le dump : Stack Exchange Data Explorer
Les endpoints OData sont même accessibles ici : http://odata.stackexchange.com/about (si vous cherchez de quoi visualiser facilement leur contenu, vous trouverez de quoi faire ici, dont des outils en Silverlight : http://www.odata.org/consumers)

 

 

Dans le même ordre d'idée on peut aussi citer :

GeoNames

Il s'agit d'une base de données géographique avec une variété de données pour une bonne liste de pays, accessible sous forme de webservices ou de dumps téléchargeables.

Les dumps sont fournis actuellement sous license Creative Commons — Attribution 3.0 Unported :

"This work is licensed under a Creative Commons Attribution 3.0 License, see http://creativecommons.org/licenses/by/3.0/"

Ils sont au format TSV (valeurs séparées par des tabulations) en UTF-8.

 

Wikimedia (Wikipedia, Wiktionary, ...)

Vous savez déjà de quoi il s'agit.

Les dumps sont fournis actuellement sous license Creative Commons Attribution-ShareAlike 3.0 License.

Ils se présentent sous forme XML ou SQL et dans différents profils de contenu.
Les fichiers "all-titles-in-ns0.gz" par exemple représentent des listings avec un grand nombre d'entrées (plusieurs millions dans le cas d'enwiki) et pour le coup une belle variété de caractères :

BabelPad : fenêtre de résultat d'analyse de document sur un fichier "all-titles-in-ns0.gz"  
Pour obtenir cette vue et les listes complètes, utilisez la fonction d'analyse "Document Analysis" de BabelPad sur un de ces fichiers.

Attention tout de même aux volumes : un dump Wikipedia US des révisions courante des pages (pages-articles.xml.bz2, sans l'historique etc donc) peut par exemple représenter un volume de 25,4 Go (pour un volume compressé de 5,69Go lors du téléchargement en bz2).
Les dumps de type history sont à priori largement plus volumineux... (et à mes yeux n'ont pas vraiment d'intérêt).

 

Pour une base de données de type GeoIP, vous pouvez regarder ce récent post de Christian.

Ce post vous a plu ? Ajoutez le dans vos favoris pour ne pas perdre de temps à le retrouver le jour où vous en aurez besoin :
Posted: dimanche 13 juin 2010 21:03 par coq

Commentaires

Pas de commentaires

Les commentaires anonymes sont désactivés

Les 10 derniers blogs postés

- TechDays Paris 2012 : Comment SharePoint a sauvé mes TechDays par Blog Technique de Romelard Fabrice le il y a 10 heures et 26 minutes

- Perspective 3.0 pour Silverlight 5.0 par Perspective le il y a 11 heures et 47 minutes

- TechDays Paris 2012 : Top 10 des Best Practices pour SQL Server par Blog Technique de Romelard Fabrice le il y a 17 heures et 23 minutes

- TechDays Paris 2012 : Kinect + Office 365 un bon geste pour votre SI par Blog Technique de Romelard Fabrice le il y a 17 heures et 46 minutes

- TechDays Paris 2012 : Pleinière du premier jour par Blog Technique de Romelard Fabrice le il y a 18 heures et 2 minutes

- [SharePoint 2010] Erreur d’analyse de contenu “L’élément SharePoint en cours d’analyse a renvoyé une erreur lors de la demande de données auprès du se... par Julien Chable le il y a 22 heures et 35 minutes

- [TechDays2012] Oui j’y serai! par Blog de Jérémy Jeanson le 02-06-2012, 22:13

- TFS Integration Tools – Suivi des synchronisations avec Reporting Services par Vivien Fabing le 02-05-2012, 17:46

- CSS Content State Selectors (Personnal Draft) par Le blog de FremyCompany le 02-04-2012, 15:38

- MBA : Pourquoi faire et comment le choisir ? par Blog Technique de Romelard Fabrice le 02-03-2012, 14:22