Skip to main content

Utilisation du format mbox pour stocker le courrier sur votre disque dur

Merge Multiple MBOX Files into One MBOX file - Solution (Avril 2025)

Merge Multiple MBOX Files into One MBOX file - Solution (Avril 2025)
Anonim

Le format le plus courant pour le stockage des messages électroniques est le format mbox. MBOX signifie MailBOX. Une mbox est un fichier contenant zéro ou plusieurs messages.

Le format mbox

Si nous utilisons le format mbox pour stocker les emails, nous les mettons tous dans un seul fichier. Cela crée un fichier texte plus ou moins long (la messagerie Internet n'existe toujours que sous forme de texte ASCII 7 bits, tout le reste - les pièces jointes, par exemple - est codée) contenant un message après l'autre. Comment savons-nous où l'un se termine et l'autre commence?

Heureusement, chaque e-mail a au moins une ligne De départ au tout début. Chaque message commence par "De" (De suivi d'un caractère d'espacement, également appelé ligne "From_"). Si cette séquence ("De") au début d'une ligne est précédée d'une ligne vide ou se trouve en haut du fichier, nous avons trouvé le début d'un message.

Ainsi, ce que nous recherchons lors de l'analyse d'un fichier mbox est essentiellement une ligne vide suivie de "De".

En tant qu’expression régulière, nous pouvons l’écrire sous la forme " n nDepuis. * N". Seul le tout premier message est différent. Il commence simplement par "De" au début d'une ligne ("^ De. * N").

"De" dans le corps

Que se passe-t-il si exactement la séquence ci-dessus apparaît dans le corps d'un message électronique? Et si ce qui suit fait partie d'un email?

  • … Je vous envoie le rapport le plus récent.
  • A partir de ce rapport, vous n'avez pas besoin de …

Ici, nous avons une ligne vide suivie de "De" au début de la ligne. Si cela apparaît dans un fichier mbox, nous avons incontestablement le début d'un nouveau message. Au moins, c’est ce que pense l’analyseur et pourquoi le client de messagerie et nous-mêmes serions déroutés par un message électronique qui ne contient ni expéditeur ni destinataire, mais commence par «De ce rapport».

Pour éviter de telles conditions désastreuses, nous devons nous assurer que "De" n'apparaît jamais au début d'une ligne suivant une ligne vide dans le corps d'un email.

Chaque fois que nous ajoutons un nouveau message à un fichier mbox, nous recherchons ces séquences dans le corps et remplaçons simplement "De" par "> De". Cela rend les erreurs d'interprétation impossibles. L'exemple ci-dessus ressemble maintenant à ceci et aucun autre déclencheur ne déclenche l'analyseur:

  • … Je vous envoie le rapport le plus récent.
  • > À partir de ce rapport, vous n'avez pas besoin de …

C'est pourquoi vous pouvez parfois trouver "> De" dans un email où vous vous attendriez à un simple "De".