Skip to main content

Qu'est-ce que la reconnaissance optique de caractères (OCR)?

Frédéric NIETZSCHE - Par delà le bien et le mal - Livre audio SOUS-TITRES, Sualtam (Avril 2024)

Frédéric NIETZSCHE - Par delà le bien et le mal - Livre audio SOUS-TITRES, Sualtam (Avril 2024)
Anonim

La reconnaissance optique de caractères (OCR) désigne un logiciel qui crée une version numérique d'un document imprimé, dactylographié ou manuscrit, que les ordinateurs peuvent lire sans qu'il soit nécessaire de saisir ou de saisir manuellement le texte. L'OCR est généralement utilisé sur des documents numérisés au format PDF, mais peut également créer une version de texte lisible par ordinateur au sein d'un fichier image.

Qu'est-ce que l'OCR?

OCR, également appelée reconnaissance de texte, est une technologie logicielle qui transforme des caractères tels que des chiffres, des lettres et des signes de ponctuation (également appelés glyphes) de documents imprimés ou écrits en un format électronique plus facilement reconnu et lu par des ordinateurs et d’autres logiciels. Certains programmes OCR effectuent cela lorsqu'un document est numérisé ou photographié avec un appareil photo numérique, tandis que d'autres peuvent appliquer ce processus à des documents déjà numérisés ou photographiés sans OCR. OCR permet aux utilisateurs de rechercher dans des documents PDF, d’éditer du texte et de reformater des documents.

A quoi sert l'OCR?

Pour des besoins de numérisation rapides et quotidiens, l'OCR peut ne pas être une grosse affaire. Si vous effectuez beaucoup de numérisation, le fait de pouvoir rechercher dans les fichiers PDF le fichier exact dont vous avez besoin peut vous faire gagner beaucoup de temps et renforcer l’importance de la fonctionnalité OCR de votre programme de numérisation. Voici quelques autres choses que OCR aide avec:

  • Traitement et saisie de données automatisés (Exemple: systèmes de suivi des demandeurs d’emploi pour les CV)
  • Rendre les livres numérisés consultables
  • Conversion de numérisations manuscrites en texte lisible par ordinateur
  • Rendre les documents plus utilisables par les programmes de lecture qui aident les utilisateurs malvoyants
  • Préserver les documents historiques et les journaux, tout en les rendant consultables
  • Extraction de données et transfert vers des programmes de comptabilité (exemple: reçus et factures)
  • Indexation des documents à utiliser par les moteurs de recherche
  • Reconnaissance des plaques d'immatriculation du conducteur par les logiciels radars et radars
  • Les synthétiseurs vocaux pour les personnes qui ne savent pas parler - le physicien théoricien, Stephen Hawking, est peut-être l'utilisateur le plus connu d'un programme de synthétiseur vocal

Pourquoi utiliser OCR?

Pourquoi ne pas simplement prendre une photo, non? Parce que vous ne pourriez rien éditer ni chercher dans le texte, car ce ne serait qu'une image. La numérisation du document et l'exécution du logiciel OCR peuvent transformer ce fichier en quelque chose que vous pouvez modifier et pouvoir rechercher.

Histoire de l'OCR

Alors que la première utilisation de la reconnaissance de texte remonte à 1914, le développement et l'utilisation généralisés des technologies liées à la ROC ont commencé sérieusement dans les années 50, notamment avec la création de polices très simplifiées faciles à convertir en texte lisible numériquement. La première de ces polices simplifiées a été créée par David Shepard et est connue sous le nom de OCR-7B. OCR-7B est encore utilisé aujourd'hui dans le secteur financier pour la police de caractères standard utilisée sur les cartes de crédit et les cartes de débit. Dans les années 1960, les services postaux de plusieurs pays ont commencé à utiliser la technologie OCR pour accélérer le tri du courrier, notamment aux États-Unis, en Grande-Bretagne, au Canada et en Allemagne. La reconnaissance optique de caractères reste la technologie de base utilisée pour trier le courrier destiné aux services postaux dans le monde entier. En 2000, des connaissances clés sur les limites et les capacités de la technologie OCR ont été utilisées pour développer les programmes CAPTCHA utilisés pour arrêter les robots et les spammeurs.

Au fil des décennies, la reconnaissance optique de caractères est devenue plus précise et sophistiquée grâce aux avancées technologiques dans des domaines technologiques connexes tels que l'intelligence artificielle, l'apprentissage automatique et la vision par ordinateur. Aujourd'hui, le logiciel OCR utilise la reconnaissance des formes, la détection de caractéristiques et l'exploration de texte pour transformer les documents plus rapidement et avec une précision inégalée.