Bienvenue à Blogs CodeS-SourceS Identification | Inscription | Aide

CoqBlog

.NET is good :-)
{ Blog de coq }

Actualités

Jeu de données téléchargeable : Stack Overflow Creative Commons Data Dump (avec des endpoints OData en prime)

Ceux qui cherchent régulièrement des jeux de données plus ou moins massifs mais surtout basés sur du contenu réel seront peut être intéressés par ce que je viens de découvrir (même si ça fait une bonne année que c'est disponible).

Les données des sites Stack Overflow, Server Fault, Super User et Meta Stack Overflow sont téléchargeables (via torrent) sous forme de dump XML actuellement sous license Creative Commons Attribution - Share Alike (voir aussi ici).

Dans le cas du jeu de données pour le site Stack Overflow en lui même, ça représente à ce jour quelque chose comme 700000 posts, 2 millions de réponses, 2.5 millions de commentaires, près de 30000 tags de classement et diverses autres données liées.

Le lien vers le dump avec les données au 31/05/2010 (estampillé "Jun 10") est disponible sur cette page (de manière générale, utiliser cette page pour trouver le dernier en date).

A noter aussi l'apparition aujourd'hui même d'un moyen de consulter ces données directement en ligne sans manipuler le dump : Stack Exchange Data Explorer
Les endpoints OData sont même accessibles ici : http://odata.stackexchange.com/about (si vous cherchez de quoi visualiser facilement leur contenu, vous trouverez de quoi faire ici, dont des outils en Silverlight : http://www.odata.org/consumers)

 

 

Dans le même ordre d'idée on peut aussi citer :

GeoNames

Il s'agit d'une base de données géographique avec une variété de données pour une bonne liste de pays, accessible sous forme de webservices ou de dumps téléchargeables.

Les dumps sont fournis actuellement sous license Creative Commons — Attribution 3.0 Unported :

"This work is licensed under a Creative Commons Attribution 3.0 License, see http://creativecommons.org/licenses/by/3.0/"

Ils sont au format TSV (valeurs séparées par des tabulations) en UTF-8.

 

Wikimedia (Wikipedia, Wiktionary, ...)

Vous savez déjà de quoi il s'agit.

Les dumps sont fournis actuellement sous license Creative Commons Attribution-ShareAlike 3.0 License.

Ils se présentent sous forme XML ou SQL et dans différents profils de contenu.
Les fichiers "all-titles-in-ns0.gz" par exemple représentent des listings avec un grand nombre d'entrées (plusieurs millions dans le cas d'enwiki) et pour le coup une belle variété de caractères :

BabelPad : fenêtre de résultat d'analyse de document sur un fichier "all-titles-in-ns0.gz"  
Pour obtenir cette vue et les listes complètes, utilisez la fonction d'analyse "Document Analysis" de BabelPad sur un de ces fichiers.

Attention tout de même aux volumes : un dump Wikipedia US des révisions courante des pages (pages-articles.xml.bz2, sans l'historique etc donc) peut par exemple représenter un volume de 25,4 Go (pour un volume compressé de 5,69Go lors du téléchargement en bz2).
Les dumps de type history sont à priori largement plus volumineux... (et à mes yeux n'ont pas vraiment d'intérêt).

 

Pour une base de données de type GeoIP, vous pouvez regarder ce récent post de Christian.

Ce post vous a plu ? Ajoutez le dans vos favoris pour ne pas perdre de temps à le retrouver le jour où vous en aurez besoin :
Posted: dimanche 13 juin 2010 21:03 par coq

Commentaires

Pas de commentaires

Les commentaires anonymes sont désactivés

Les 10 derniers blogs postés

- Merci par Blog de Jérémy Jeanson le 10-01-2019, 20:47

- Office 365: Script PowerShell pour auditer l’usage des Office Groups de votre tenant par Blog Technique de Romelard Fabrice le 04-26-2019, 11:02

- Office 365: Script PowerShell pour auditer l’usage de Microsoft Teams de votre tenant par Blog Technique de Romelard Fabrice le 04-26-2019, 10:39

- Office 365: Script PowerShell pour auditer l’usage de OneDrive for Business de votre tenant par Blog Technique de Romelard Fabrice le 04-25-2019, 15:13

- Office 365: Script PowerShell pour auditer l’usage de SharePoint Online de votre tenant par Blog Technique de Romelard Fabrice le 02-27-2019, 13:39

- Office 365: Script PowerShell pour auditer l’usage d’Exchange Online de votre tenant par Blog Technique de Romelard Fabrice le 02-25-2019, 15:07

- Office 365: Script PowerShell pour auditer le contenu de son Office 365 Stream Portal par Blog Technique de Romelard Fabrice le 02-21-2019, 17:56

- Office 365: Script PowerShell pour auditer le contenu de son Office 365 Video Portal par Blog Technique de Romelard Fabrice le 02-18-2019, 18:56

- Office 365: Script PowerShell pour extraire les Audit Log basés sur des filtres fournis par Blog Technique de Romelard Fabrice le 01-28-2019, 16:13

- SharePoint Online: Script PowerShell pour désactiver l’Option IRM des sites SPO non autorisés par Blog Technique de Romelard Fabrice le 12-14-2018, 13:01