Document: quelle est le format le plus compact ?

Test

Prenons un document DOCX, sans image, utilisant juste quelques styles prédéfinis comme Normal, Titre, Titre 1, Titre 2, Préformaté HTML.

Enregistrons ce fichier sous tous les formats de documents existants :

- DOCX (Word 2007)
- DOC (Word 2003)
- WPS (Works 9.0)
- ODF (Open office)
- PDF (Adobe Reader)
- XPS (Windows Vista)
- HTML (Navigateurs internet)

ATTENTION : les documents sont tous des conversions (plus ou moins identiques) d'un document DOCX originel.

Les documents ODT sont obtenus selon deux méthodes
- Exportation avec l'add-in de Microsoft (créateur de DOC)
- Importation avec l'add-in de Sun (créateur d'ODF)

Quelles sont mes résultats (qui valent ce qu'ils valent, bien sûr) :

ODT (1) : 7Ko (MS, Perte de qualité constatée)
HTML : 12Ko (Perte de qualité constatée)
DOCX : 15Ko (Document de base)
WPS : 19Ko (OK)
ODT (2) : 21Ko (Sun, OK)
DOC : 34Ko (OK)
PDF : 64 Ko (OK)
XPS : 209Ko (OK)

Même test, mais avec un document contenant juste une image (53Ko)

HTML : 56Ko (53+3)
PDF : 80Ko
ODT (1) : 177Ko (MS)
DOCX : 185Ko
DOC : 198Ko
ODF (2) :222Ko
XPS : 226Ko
WPS : Echec

Mes conclusions :

Contrairement à ce qu'on pourrait croire, HTML est un format très dense, car il se retrouve dans le haut du podium, sans pour autant aller au bout des ses capacités (le code généré contient des tabulations inutiles pour être plus lisible pour un développeur).

DOCX fait mieux que DOC (plus ou moins 50% moins en règle générale)

ODF peut faire mieux que DOCX, mais une perte de qualité est dans ce cas inévitable.
Si on évite cette perte de qualité, on se retrouve un peu avant le niveau du DOC.

PDF est très bon pour les images (moins de metadata ou compression ?), lamentable pour le texte (il ne gère pas les styles à répétition et a sans doute un format trop prolixe).

XPS est toujours lamentable pour ce qui est de la taille du fichier. A éviter si le but recherché est la diffusion en ligne.

Fremy

Ce post vous a plu ? Ajoutez le dans vos favoris pour ne pas perdre de temps à le retrouver le jour où vous en aurez besoin :
Publié 16 avril 08 06:03 par FREMYCOMPANY
Classé sous : ,

Commentaires

# neodante said on avril 16, 2008 18:41:

Je ne pense pas que le titre reflète le post, en effet je parlerais plus de formats compacts que compressés.

Open XML, ODF, XPS, etc sont des formats compressés ZIP. Leur taille dépend du niveau de compression de l'implémentation évidemment (ratio performance ouveture/enregistrement versus taille). En revanche les autres formats dont le HTML ne sont pas compressés, il est donc difficile de les comparer d'autant que leurs objectifs de conception sont différents. Par conséquence, un titre 'queL est le format le plus compact ?' (note le 'quel') aurait été plus approprié non ?

Sinon comparatif intéressant.

A+

# ebartsoft said on avril 16, 2008 19:41:

Le test n'est pas significatif un ausi petit fichier ne revele rien ! Quand on parle de compression il faut au moins partir d'un fichier de 1Mo. quoi qu'il en soit on ne fait jamais de comparaison sur 1 seul exemple sans quoi on favorise tel ou tel format en fonction du contenu.

Bref a revoir :p

# Nix said on avril 16, 2008 19:58:

renomme ton .docx en .zip tu comprendras pourquoi il est plus petit que les autres Big Smile

Zip les autres formats et tu pourras comparer

# FREMYCOMPANY said on avril 16, 2008 20:22:

@ebarsoft : On ne peut jamais comparer sur un fichier, non, je suis bien d'accord, mais cela donne une idée.

De plus, j'ai fais un fichier "sans image" et un autre "avec image" pour ne pas mélanger les deux. Mais bon c'est clair que c'est juste un petit coups de sonde. Je n'avais ni l'envie ni le temps de commencer à faire une batterie de test. Je voulais juste me faire une idée globale. Mes résultats "valent ce qu'ils valent, bien sûr" Smile

@neodante : Quand à compact/compressé, ben oui, c'est vrai que compact aurait mieux été, mais c'est ténu la différence vu que (quasi) tous ces formats sont compressés. Je fais l'update d'ici 5min.

@Nix : DOCX n'est pas le plus légér dans certains cas. Etre au format ZIP n'est pas toujours "LA" solution. Il existe d'autres formats de compressions parfois plus efficaces (7-ZIP; RAR; ...) Wink

# Nix said on avril 16, 2008 20:34:

Oui je sais bien, mais c'était pour préciser qu'un docx est en fait un zip car ça change pas mal de choses sur la vision du test

# Julien237 said on avril 16, 2008 20:56:

Ce post me fait penser à une expérience récente...

J'ai du pour mon cours de mécaflotte, représenter une conduite d'eau dans Excel et les écoulement qui la parcourait. J'avais environ 300 * 300 cellules * 5 feuilles.

J'enregistre dans le nouveau format... Environ une minute de plantage (même pas d'attente, de plantage, rien ne répondait...).

J'enregistre dans l'ancien format, en une seconde c'est fait...

Me posant quelques questions, je vais dézipper le nouveau format : 150 Mo. Donc quand j'enregistre mon fichier excel, j'écris et zippe un fichier de 150 Mo, pas étonnant que ça prenne du temps...

Je n'ai pas un pc dernier cri, mais la différence doit rester flagrante même sur une bête de course...

Heureusement j'ai découvert le format "xlsb" qui m'a sauvé la vie...

Tout ça pour dire qu'il faut voir ce qu'il se cache derrière les tailles des fichiers, perso je préfère un gros fichier avec des accès rapides quitte à le compresser quand je dois l'archiver ou l'envoyer...

Comme dit Nix, ça change pas mal de choses sur la vision du test...

# brunews said on avril 16, 2008 21:10:

DOC n'esp pas compressé, simple format binaire. Les autres je ne connais pas.

Tout à fait d'accord avec Julien237, travailler sur du xml compress/decompress est une abherration, faudrait vraiment n'avoir rien à faire pour s'amuser avec cette connerie. Le format binaire est le seul qui puisse garantir les performances.

# neodante said on avril 16, 2008 22:25:

Effectivement pour les gros fichiers Excel, utiliser le format binaire (différent du format binaire de 2003) de Excel 2007 pour les performance n'est pas une option superflue !

Mais ne confondons pas les différents types de formats (Open XML, ODF, doc, xlsb, etc) et types de document (traitement de texte, tableur, etc) qui ont des objectifs finaux et donc une conception bien différente. Certains ont besoin de rester en binaire, d'autre en XML et Zip. Tout est question de performance sauvegarde/ouverture et d'exploitation des données en fonction des environnements et des problématiques métiers. D'où la nécessité de laisser un format binaire dans Excel pour la problématique des fichiers volumineux (surtout que la limite des 65000 lignes a été débridé ... certains pensent à Excel comme à une base de données).

Je rejoins aussi le point d'un document plus volumineux pour réellement voir les différences. Par exemple, un fichier Open XML créé par Word fera toujours environ 10Ko, rajouter des styles (souvent hérité d'un autre) et un peu de contenu ne changera pas grand chose. La taille changera propotionnellement au contenu textuelle que sur des documents extrêmement volumineux (hors images).

Le problème de ce genre de comparaison c'est que l'on a tendance à croire qu'un format en vaut un autre, aka pour faire exactement la même chose. Maintenant si on compare la taille d'un document et que l'on associe celle-ci aux fonctionnalités délivrées par le format, c'est une autre paire de manches, mais cela peutsera beaucoup plus significatif au final. La conclusion serait donc : choisissez votre formats (comme pour les images) en fonction de vos besoins. L'utopie d'un format de document universelle est quelque chose qui n'arrêtera pas la recherche et les efforts dans ce domaine, cependant aujourd'hui, les besoins et les contraintes des machines et de chacun fait que nous avons plusieurs formats de documents pour plusieurs usages.

# coucou747 said on avril 17, 2008 20:14:

tu peux reziper un .doc, tu gagneras un peu, alors que si tu rezip un .zip, tu ne gagnes rien... c'est un critere important pour comparer ton DOCX au reste...

quand tu dis que le ODF gagne mais perds en qualite, c'est pas vraiment un comparatif de compression de document alors... ca veut juste dire que ton loiciel d'exporation est foireux. Parce-que si tu avais fait ton comparatif en partant d'un .html ou d'un .odf, t'aurais pas eu les memes constats pour "qui n'obtient pas le resultat original ?" comme t'as pu le mettre dans tes posts precedents, tout les logiciels ne lisent pas le html de la meme facon.

# FREMYCOMPANY said on avril 17, 2008 20:57:

@coucou : Oui, le convertisseur DOC -> ODF de MS est foireux. Il génère des documents plus petits mais de piètre qualité (respect document original).

Celui de Sun est plus lourd mais respecte mieux le document original. C'est pour cela que j'ai donné les deux ;)

# coucou747 said on avril 18, 2008 23:59:

mais ... ton test, on peut lui faire dire ce qu'on veut...

imagine, je prends un .tex, je te le donne en versions rtf, html, odf, pdf, dvi.

si le .tex contient une equation, aucun de ses format ne peut concurencer le .tex (et meme si il ne contient pas d'equation, j'ai un gros gros doute sur les perfs des autres formats...) pourtant le .tex n'est pas compresse.

comme le disait brunews, pour afficher un .tex, on prend son temps :) par contre, pour modifier le document, c'est une autre histoire...

ca depend non seulement du contenu du document (image, texte, etc...), mais aussi du format de depart...

# FREMYCOMPANY said on avril 19, 2008 09:45:

@coucou : DOC(X), ODT, PDF, XPS et les autres sont tous des formats succeptibles de contenir du texte.

Je n'utilise pas de fonctions "propres" à l'un ou l'autre système.

Les commentaires anonymes sont désactivés

About FREMYCOMPANY

François REMY est un jeune développeur belge plein d'entrain qui traite surtout des technologies du web et de DotNet dans ses articles.


Les 10 derniers blogs postés

- Merci par Blog de Jérémy Jeanson le 10-01-2019, 20:47

- Office 365: Script PowerShell pour auditer l’usage des Office Groups de votre tenant par Blog Technique de Romelard Fabrice le 04-26-2019, 11:02

- Office 365: Script PowerShell pour auditer l’usage de Microsoft Teams de votre tenant par Blog Technique de Romelard Fabrice le 04-26-2019, 10:39

- Office 365: Script PowerShell pour auditer l’usage de OneDrive for Business de votre tenant par Blog Technique de Romelard Fabrice le 04-25-2019, 15:13

- Office 365: Script PowerShell pour auditer l’usage de SharePoint Online de votre tenant par Blog Technique de Romelard Fabrice le 02-27-2019, 13:39

- Office 365: Script PowerShell pour auditer l’usage d’Exchange Online de votre tenant par Blog Technique de Romelard Fabrice le 02-25-2019, 15:07

- Office 365: Script PowerShell pour auditer le contenu de son Office 365 Stream Portal par Blog Technique de Romelard Fabrice le 02-21-2019, 17:56

- Office 365: Script PowerShell pour auditer le contenu de son Office 365 Video Portal par Blog Technique de Romelard Fabrice le 02-18-2019, 18:56

- Office 365: Script PowerShell pour extraire les Audit Log basés sur des filtres fournis par Blog Technique de Romelard Fabrice le 01-28-2019, 16:13

- SharePoint Online: Script PowerShell pour désactiver l’Option IRM des sites SPO non autorisés par Blog Technique de Romelard Fabrice le 12-14-2018, 13:01




Search

Go

Ce blog

Abonnements