Document: quelle est le format le plus compact ?
Test
Prenons un document DOCX, sans image, utilisant juste quelques styles prédéfinis comme Normal, Titre, Titre 1, Titre 2, Préformaté HTML.
Enregistrons ce fichier sous tous les formats de documents existants :
- DOCX (Word 2007)
- DOC (Word 2003)
- WPS (Works 9.0)
- ODF (Open office)
- PDF (Adobe Reader)
- XPS (Windows Vista)
- HTML (Navigateurs internet)
ATTENTION : les documents sont tous des conversions (plus ou moins identiques) d'un document DOCX originel.
Les documents ODT sont obtenus selon deux méthodes
- Exportation avec l'add-in de Microsoft (créateur de DOC)
- Importation avec l'add-in de Sun (créateur d'ODF)
Quelles sont mes résultats (qui valent ce qu'ils valent, bien sûr) :
ODT (1) : 7Ko (MS, Perte de qualité constatée)
HTML : 12Ko (Perte de qualité constatée)
DOCX : 15Ko (Document de base)
WPS : 19Ko (OK)
ODT (2) : 21Ko (Sun, OK)
DOC : 34Ko (OK)
PDF : 64 Ko (OK)
XPS : 209Ko (OK)
Même test, mais avec un document contenant juste une image (53Ko)
HTML : 56Ko (53+3)
PDF : 80Ko
ODT (1) : 177Ko (MS)
DOCX : 185Ko
DOC : 198Ko
ODF (2) :222Ko
XPS : 226Ko
WPS : Echec
Mes conclusions :
Contrairement à ce qu'on pourrait croire, HTML est un format très dense, car il se retrouve dans le haut du podium, sans pour autant aller au bout des ses capacités (le code généré contient des tabulations inutiles pour être plus lisible pour un développeur).
DOCX fait mieux que DOC (plus ou moins 50% moins en règle générale)
ODF peut faire mieux que DOCX, mais une perte de qualité est dans ce cas inévitable.
Si on évite cette perte de qualité, on se retrouve un peu avant le niveau du DOC.
PDF est très bon pour les images (moins de metadata ou compression ?), lamentable pour le texte (il ne gère pas les styles à répétition et a sans doute un format trop prolixe).
XPS est toujours lamentable pour ce qui est de la taille du fichier. A éviter si le but recherché est la diffusion en ligne.
Fremy
Ce post vous a plu ? Ajoutez le dans vos favoris pour ne pas perdre de temps à le retrouver le jour où vous en aurez besoin :
François REMY est un jeune développeur belge plein d'entrain qui traite surtout des technologies du web et de DotNet dans ses articles.