Lorsque j’étais en école d’ingénieurs en France, j’étais un grand fan de la théorie du signal. Si je vous le raconte, c’est pour la raison que c’est précisément cette discipline essentiellement mathématique qui est à l’origine de la reconnaissance optique de caractère. L’écriture imprimée ou manuscrite est un signal bidimensionnel. Pour simplifier, considérons d’abord le cas d’un signal à une dimension. L’opération mathématique qui permet de mesurer le degré de ressemblance entre deux fonctions est la convolution. Sans rentrer dans les détails mathématiques, il faut savoir que l’opération de convolution peut être étendue au cas de la dimension deux. Je me souviens ainsi d’un TP dans lequel nous réalisions des convolutions par différentes lettres sur une image contenant un texte imprimé. Le résultat de la convolution permettait de localiser chaque lettre dans l’image. C’est le principe même de la reconnaissance optique de caractères. D’accord, je peux admettre que ceci peut être un peu abstrait pour une personne non initiée à la théorie du signal, mais au moins ceci a le mérite de vous transmettre l’idée pour la culture. Et je suis sûr que certains d’entre vous le comprendront au moins de manière qualitative. Mais le comprendre intuitivement ne vous aidera pas à le faire si vous en avez besoin. Comme je suis sympathique, je vais vous donner le nom du logiciel qui vous permettra de vous sortir d’affaire si vous avez besoin de numériser un texte imprimé. C’est sûr que ceci sera utile à un grand nombre de professionnels qui pour une raison ou une autre auront besoin de passer par la case OCR. Ce petit bijou logiciel qui tourne sous windows XP (je ne me suis pas renseigné pour les autres systèmes d’exploitation de Microsoft, mais il marche sous XP puisque c’est sur cette plate-forme que je l’ai testé) s’appelle Readiris 11 Corporate. Privilégiez la version Middle East plus complète. L’image de la page imprimée peut être numérisée soit directement avec un scanner via le logiciel de numérisation de Readiris, soit via le logiciel de numérisation de votre propre scanner. Je peux vous donner un très bon conseil pour que l’opération d’OCR se passe bien. Pensez à réaliser un seuillage de votre image numérisée pour augmenter le contraste entre le fond du texte et les caractères imprimés. Cela permettra par la suite d’améliorer la performance de votre opération d’OCR. La plupart des logiciels de numérisation qui gère les scanners le permettent. En utilisant l’image numérisée comme fichier source, vous pourrez produire un document Word grâce à l’assistant OCR qui contiendra une saisie comme par magie de votre texte numérisé. Et cerise sur le gâteau, cela fonctionne bien entendu très bien pour le français, mais également pour l’arabe. J’ai été très content de voir que ma page numérisée d’une coupure de presse d’un journal arabophone marocain a été reconnu optiquement sans la moindre faute. C’était une lumière dans ma journée et je la partage avec vous. Bonne OCR.