Bienvenue à Blogs CodeS-SourceS Identification | Inscription | Aide

Actualités

  • Blog de Cyril DURAND, passionné de JavaScript, Ajax, ASP.net et tout ce qui touche au developpement Web Client-Side.

    View Cyril Durand's profile on LinkedIn

    hit counters

DOCX2HTML : conversion d'un fichier Word 2007 en HTML

Comme vous l’a annoncé Neodante, mercredi dernier s’est déroulé un mercredi du développement sur OpenXML, j'ai eu le privilége de présenter un de mes projets : DOCX2HTML.

Ce projet est né d’une idée de Nix lorsqu’il a découvert le nouveau format de Word 2007 : un zip qui contient pleins d'infos.

Depuis toujours la publication d’article sur internet est une tâche compliqué et fastidieuse. Lorsque nous avons conçue TechnoS-SourceS : un site orienté professionnels de l’informatique où vous pouvez retrouver des articles techniques pointus écrit par tous les membres de la communauté, nous avions besoin de mettre en place un système de publication de contenu.

Jusqu'à récemment nous utilisons un système « classique » : la FreeTextBox avec une galerie d’image mais cela pose plusieurs problèmes :

  • Envoie des images une à une 
  • Rédaction dans un navigateur
    • Fenêtre de petite taille
    • Pas de sauvegarde
    • Pas « d’aperçu avant impression »
  • Pas de mis en forme commune
  • etc... (ceux qui ont déjà écrit des articles via la FTB savent de quoi je parle ;-))

OpenXML résoud ces problèmes en effet un document enregistré sous le format « Word 2007 » n’est qu’un zip qui contient le contenu et les styles dans un format XML et les images. En plus on peut enregistrer un document docx avec Word 2007 mais aussi avec Word 2003 grâce à un add-in ou encore avec OpenOffice.

Parmi les avantages de ce format on retrouve :

  • La facilité de publier un article (on envoie seulement le zip)
    • Plus besoin d'envoyer les images une à une
    • Correcteur orthographique
    • Utilisations d'un vrai éditeur de texte
  • Une mis-en-forme commune : Le format OpenXML sépare le contenu de la présentation, il nous suffit alors de conserver seulement les titres etc... Cela nécessite évidement que l'utilisateur utilises les styles "standard" de Word 2007.

Je me suis donc lancé sur la création d'un convertisseur docx vers HTML, après quelques cours sur le fonctionnement du format OpenXML (merci Neodante) j'ai commencé un proto et j'ai eu quelques choses de fonctionnels très rapidement (un week end (de geeks...)) puis une semaine (les soirs) pour avoir quelques choses de correct, travailler avec OpenXML avec .net 3 est vraiment très simple et rapide.

Depuis une semaine ce nouveau système est en production sur TechnoS-SourceS en plus de la classique FreeTextBox. Attention il s'agit d'un service beta (Web 2.0 ? ;-)) donc il est possible qu'il y ait quelques problèmes ...

Voici une démo du projet :

Vous trouverez en pièce jointe de ce post les slides de ma présentation et bientôt en WebCast.


Petit update : je viens de voir le post de Doug Mahugh le product manager d'OpenXML qui était présent avec nous lors de cette démo : Vive la Révolution Open XML

Posted: lundi 11 décembre 2006 00:35 par cyril
Attachment(s): Docx2HTML.pptx
Ce post vous a plu ? Ajoutez le dans vos favoris pour ne pas perdre de temps à le retrouver le jour où vous en aurez besoin :

Commentaires

coq a dit :

Ah ba voilà :-)

Bravo, j'attend le webcast du coup.

# décembre 11, 2006 07:59

Bidou a dit :

Quand ça fonctionnera bien, faudra voir pour l'importer sous CodeS-SourceS ;-)

Bon boulot!

# décembre 11, 2006 10:13

Benjiiim a dit :

Est-ce que ce projet passera un jour open source ?

Tu nous a fais envi là ! :-)

# décembre 11, 2006 13:49

cyril a dit :

Pour l'instant le projet n'est pas Open-Source car trop "beta" plus tard ce projet sera surement disponible mais je ne sais pas encore la licence que je vais utiliser.

# décembre 11, 2006 14:10

malek a dit :

Tu as adopte finalement toi aussi la "beta" experiences ;O)

# décembre 12, 2006 21:02

cyril a dit :

Non je fais des application "Web 2.0", quid de beta ?

# décembre 12, 2006 21:36

malek a dit :

c'etait une boutade :b ...

# décembre 13, 2006 08:12
Les commentaires anonymes sont désactivés

Les 10 derniers blogs postés

- La suite ...Proposition de collaboration rédactionnelle entre les communautés de développeurs et Microsoft France par LucasR le il y a 9 heures et 54 minutes

- [Fun] Votre simulateur de vol avec Microsoft ESP par Julien Chable le il y a 15 heures et 37 minutes

- [Best Practices] Customisation du My Site : Comment le modifier en amont et en aval par The Mit's Blog le il y a 16 heures et 51 minutes

- Patrick Tisseghem s'en est allé ... par The Mit's Blog le il y a 17 heures et 35 minutes

- MS AutoCollage par alex# le il y a 18 heures et 21 minutes

- Un grand SharePointeur nous a quitte : Patrick Tisseghem manquera à la communauté ! par RedoBlog - The .NET Gentleman !!! le il y a 18 heures et 46 minutes

- [WPF] Comment charger dynamiquement un fichier XAML qui définit des eventhandler ? par Thomas Lebrun le 09-04-2008, 10:56

- Article sur le filtrage des modèles de site SharePoint par The Grib's Lair [Sébastien PICAMELOT - MVP SharePoint] le 09-04-2008, 00:11

- Adopter votre Redo en 3D - Clone Virtuel - avec photosynth par RedoBlog - The .NET Gentleman !!! le 09-04-2008, 00:07

- [Expression Web] Astuce de la Semaine : Mettre en bouton ses macros dans une barre d'outils. par Expression Web & Me le 09-03-2008, 20:48