Bienvenue à Blogs CodeS-SourceS Identification | Inscription | Aide

Blog Technique de Romelard Fabrice

Les dernières Actualités de Romelard Fabrice (Alias fabrice69 ou F___) principalement autour des technologies Microsoft

Actualités

  • Toutes les actualités et informations sur les technologies Microsoft principalement autour de .NET et SQL Server

Archives

C# - Détection du type d'encodage d'un fichier Texte

Comme vous l'avez vu par mon précédent message :

 

Je me bas en ce moment avec les formats d'encodage des fichiers texte. En effet, je dois charger une foule de fichiers texte, mais dont le format d'encodage varie (UTF8 ou ANSI). De ce fait, j'ai recherché une solution simple pour effectuer ce test en pensant que ca allait être évident.

Et bien, j'ai été bien surpris, ce n'est pas du tout simple à faire.

Quelle est la raison de cette recherche, vous aller me dire ? C'est très simple, charger un fichier, qui a été créé avec un encodage ANSI, dans un streamreader avec l'encodage UTF8 fait disparaître tous les caractères accentués. L'inverse fait remplacer ces mêmes caractères par des composition du type ür (pour ü) par exemple.

 

Ainsi, après une longue recherche et de très nombreux tests (merci au passage à Tkfe, CrazyHT et Renaud), la solution est de tester les 4 premier octets (bytes en US) et de tester ces valeurs.

La fonction d'origine vient de Heath Stewart :

 

J'ai donc adapté celle-ci en contrôlant plus finement les types d'encodage :

 

N'hésitez pas à remonter des commentaires si vous avez d'autres idées ou des retours sur cette fonction.

 


UPDATE :

J'ai du utiliser une autre solution dans mon cas, dont je vous fourni l'astuce ici :


Romelard Fabrice

 

Ce post vous a plu ? Ajoutez le dans vos favoris pour ne pas perdre de temps à le retrouver le jour où vous en aurez besoin :
Posted: vendredi 20 janvier 2006 01:15 par ROMELARD Fabrice
Classé sous :

Commentaires

yudao a dit :

Bonjour,

Je voulais poser 2 questions.

La première : pourquoi regarder chaque ligne ? ne suffirait-il pas de lire le nombre de caractères entre le fichier avec son encodage et le même en UTF8 ?

La deuxième : Comment fait-on si certains fichiers n'ont pas de caractère spéciaux (é, à, ô, ï, ...) avec leur encodage, la ligne sera toujours de la même taille donc l'encodage UTF8 renverra le même nombre de caractères ?

Merci beaucoup pour m'éclaircir ces quelques points car je suis en plein développement de systèmes où je dois vérifier les encodages.

Yudao.

# juillet 4, 2007 10:55
Les commentaires anonymes sont désactivés

Les 10 derniers blogs postés

- Merci par Blog de Jérémy Jeanson le 10-01-2019, 20:47

- Office 365: Script PowerShell pour auditer l’usage des Office Groups de votre tenant par Blog Technique de Romelard Fabrice le 04-26-2019, 11:02

- Office 365: Script PowerShell pour auditer l’usage de Microsoft Teams de votre tenant par Blog Technique de Romelard Fabrice le 04-26-2019, 10:39

- Office 365: Script PowerShell pour auditer l’usage de OneDrive for Business de votre tenant par Blog Technique de Romelard Fabrice le 04-25-2019, 15:13

- Office 365: Script PowerShell pour auditer l’usage de SharePoint Online de votre tenant par Blog Technique de Romelard Fabrice le 02-27-2019, 13:39

- Office 365: Script PowerShell pour auditer l’usage d’Exchange Online de votre tenant par Blog Technique de Romelard Fabrice le 02-25-2019, 15:07

- Office 365: Script PowerShell pour auditer le contenu de son Office 365 Stream Portal par Blog Technique de Romelard Fabrice le 02-21-2019, 17:56

- Office 365: Script PowerShell pour auditer le contenu de son Office 365 Video Portal par Blog Technique de Romelard Fabrice le 02-18-2019, 18:56

- Office 365: Script PowerShell pour extraire les Audit Log basés sur des filtres fournis par Blog Technique de Romelard Fabrice le 01-28-2019, 16:13

- SharePoint Online: Script PowerShell pour désactiver l’Option IRM des sites SPO non autorisés par Blog Technique de Romelard Fabrice le 12-14-2018, 13:01