troisi\u00e8me partie<\/a> nous avons approfondi le sujet en indiquant les caract\u00e9ristiques \u00e0 rechercher dans une solution CDA. (Pour information : une fonction OCR seule ne suffit pas.) Enfin, dans la quatri\u00e8me partie, nous nous sommes efforc\u00e9s de r\u00e9pondre \u00e0 la question suivante : comment \u00e9valuer la r\u00e9ussite de la CDA ?<\/p>\n\n\n\nDans la cinqui\u00e8me partie, nous nous penchons sur les d\u00e9fis auxquels les clients de la RPA sont confront\u00e9s lors de la mise en \u0153uvre des solutions CDA et de l\u2019optimisation de la productivit\u00e9 des utilisateurs. (Pour rappel, le calcul de la productivit\u00e9 des utilisateurs est bas\u00e9 sur la pr\u00e9cision et l\u2019efficacit\u00e9 : consultez la quatri\u00e8me partie de la s\u00e9rie si vous avez besoin de vous rafra\u00eechir la m\u00e9moire.)<\/p>\n\n\n\n
Malgr\u00e9 tous les avantages que vous pouvez tirer des solutions CDA, vous n\u2019\u00eates pas \u00e0 l\u2019abri de rencontrer des \u00e9cueils et de vous confronter aux limites de certaines d\u2019entre elles. Voici les difficult\u00e9s les plus fr\u00e9quemment rencontr\u00e9es et nos conseils pour les surmonter avant de vous lancer. Nous vous recommandons de vous assurer que la solution CDA que vous choisissez r\u00e9pond bien \u00e0 chacun des d\u00e9fis ci-dessous.<\/p>\n\n\n\n
13 conseils pour relever les d\u00e9fis pos\u00e9s par la CDA en mati\u00e8re de productivit\u00e9 :<\/p>\n\n\n\n
- Source des images<\/strong>La source a une incidence sur la qualit\u00e9 de l\u2019image, et donc sur le degr\u00e9 de pr\u00e9cision des \u00e9tapes de classification et d\u2019extraction. \u00c0 titre d\u2019exemple, un fax propose par nature une qualit\u00e9 d\u2019image plus faible qu\u2019un fichier PDF au format d\u2019origine \u00e9lectronique envoy\u00e9 par e-mail. Les scanners offrent un niveau de qualit\u00e9 variable en fonction du fournisseur et du mod\u00e8le.<\/li>
- Type de fichier image et r\u00e9solution<\/strong>Certains types de fichier image ont une qualit\u00e9 intrins\u00e8que sup\u00e9rieure aux autres. Les fichiers GIF \u00e0 300 ppp sont les plus courants, mais les entreprises n\u2019ont souvent aucun contr\u00f4le sur les types de fichier provenant de sources externes. Les images ayant une moins bonne r\u00e9solution afficheront des taux de pr\u00e9cision inf\u00e9rieurs en termes de classification et d\u2019extraction (300 ppp est la r\u00e9solution id\u00e9ale).<\/li>
- Qualit\u00e9 d\u2019image<\/strong>Les solutions CDA n\u2019\u00e9chappent pas \u00e0 la r\u00e8gle : si la qualit\u00e9 d\u2019entr\u00e9e est mauvaise, la qualit\u00e9 de sortie le sera \u00e9galement. Les images transmises par fax \u00e0 plusieurs reprises, les images provenant des t\u00e9l\u00e9phones mobiles qui pr\u00e9sentent un probl\u00e8me d\u2019orientation, d\u2019inclinaison, de nettet\u00e9, de contraste avec l\u2019arri\u00e8re-plan ou d\u2019\u00e9clairage, les documents monochromes num\u00e9ris\u00e9s ou encore les documents portant des cachets, des annotations ind\u00e9chiffrables et des taches… nuisent \u00e9videmment \u00e0 la pr\u00e9cision de classification et d\u2019extraction. Les images acquises par les solutions CDA doivent faire l\u2019objet d\u2019un traitement et d\u2019un perfectionnement avant<\/em> d\u2019\u00eatre soumises au processus automatis\u00e9 de classification et d\u2019extraction, de fa\u00e7on \u00e0 garantir la meilleure pr\u00e9cision possible.<\/li>
- Collecte de documents<\/strong>Le nombre d\u2019exemples et le degr\u00e9 de similitude avec les documents r\u00e9els ont \u00e9galement une incidence sur la pr\u00e9cision. En r\u00e8gle g\u00e9n\u00e9rale, il vaut mieux alimenter la solution CDA avec un maximum d\u2019exemples lors de la phase d\u2019apprentissage automatique. Selon le type de document, plusieurs centaines de sp\u00e9cimens peuvent s\u2019av\u00e9rer n\u00e9cessaires et ces derniers doivent refl\u00e9ter au mieux la \u00ab r\u00e9alit\u00e9 \u00bb observ\u00e9e en environnement de production.<\/li>
- Formulaires structur\u00e9s<\/strong>Les formulaires structur\u00e9s affichent g\u00e9n\u00e9ralement le meilleur taux de pr\u00e9cision lors des \u00e9tapes de classification et d\u2019extraction et l\u2019apprentissage requiert un nombre minimal d\u2019exemples. Toutefois, la conception du formulaire a une incidence majeure sur la pr\u00e9cision : espacement entre les champs, nature des cases, ombrage (le cas \u00e9ch\u00e9ant). Si vous \u00eates l\u2019auteur du formulaire, vous pouvez optimiser son agencement pour favoriser son traitement automatis\u00e9.<\/li>
- Documents semi-structur\u00e9s<\/strong>Les documents semi-structur\u00e9s (factures, bons de commande, connaissements) affichent g\u00e9n\u00e9ralement un taux de pr\u00e9cision inf\u00e9rieur. Les solutions CDA peuvent adopter diff\u00e9rentes approches, plus ou moins fiables, pour localiser les donn\u00e9es pertinentes et les extraire avec succ\u00e8s. En outre, ces documents comportent souvent des tableaux int\u00e9gr\u00e9s (postes de facturation, par exemple), des tableaux multiples ou des tableaux multiniveaux qui se pr\u00eatent moins facilement \u00e0 l\u2019extraction que les champs classiques.<\/li>
- Documents non structur\u00e9s<\/strong>Les documents non structur\u00e9s comme les e-mails (le corps du texte), la correspondance et les contrats sont les plus complexes \u00e0 classer et \u00e0 extraire automatiquement. Ces derni\u00e8res ann\u00e9es, les technologies IA comme le traitement du langage naturel ont am\u00e9lior\u00e9 la pr\u00e9cision d\u2019extraction de ce type de contenu.<\/li>
- Type d\u2019\u00e9criture<\/strong>Le type d\u2019\u00e9criture joue aussi sur la pr\u00e9cision d\u2019extraction. En g\u00e9n\u00e9ral, le texte imprim\u00e9 offre les meilleurs taux de pr\u00e9cision, devant les inscriptions manuscrites en majuscules et les \u00e9critures cursives. Dans le cas du texte imprim\u00e9, la pr\u00e9cision peut varier en fonction du type de police et de l\u2019espacement des caract\u00e8res. La langue du document est \u00e9galement \u00e0 prendre en compte. Les moteurs de reconnaissance optique des caract\u00e8res utilis\u00e9s par les solutions CDA atteignent g\u00e9n\u00e9ralement les meilleurs taux d\u2019efficacit\u00e9 avec les langues latines.<\/li>
- Codes \u00e0 barres et cases \u00e0 cocher<\/strong>Les codes \u00e0 barres et les cases \u00e0 cocher sont g\u00e9n\u00e9ralement le contenu pr\u00e9sentant la meilleure pr\u00e9cision d\u2019extraction au sein d\u2019un document. Pour ce type de contenu, il n\u2019est pas rare que les solutions CDA d\u00e9passent largement 90 % de pr\u00e9cision. Toutefois, les formats de codes \u00e0 barres sont nombreux (1D, 2D et maintenant 3D, c\u2019est-\u00e0-dire 2D couleur) : veillez \u00e0 ce que la solution CDA prenne en charge les cas les plus fr\u00e9quents.<\/li>
- Signatures<\/strong>L\u2019obligation de signature est l\u2019une des principales raisons pour lesquelles bon nombre d\u2019entreprises ont encore recours au papier. Dans ce cas de figure, la signature physique doit alors \u00eatre captur\u00e9e, class\u00e9e et extraite. Le passage \u00e0 la signature \u00e9lectronique supprime l\u2019\u00e9tape de num\u00e9risation et optimise ainsi la capacit\u00e9 et la productivit\u00e9 des utilisateurs CDA. D\u00e9terminez si la solution doit simplement d\u00e9tecter la pr\u00e9sence d\u2019une signature ou si vous avez \u00e9galement besoin de fonctions de v\u00e9rification de signature et de d\u00e9tection des fraudes.<\/li>
- Bases de donn\u00e9es<\/strong>L\u2019utilisation de bases de donn\u00e9es permet d\u2019am\u00e9liorer consid\u00e9rablement la pr\u00e9cision de classification et d\u2019extraction d\u2019une solution CDA. La mise en correspondance avec le contenu similaire compil\u00e9 dans des bases de donn\u00e9es permet d\u2019ignorer les erreurs mineures de reconnaissance optique des caract\u00e8res. R\u00e9sultat ? Moins d\u2019interventions humaines requises pour valider\/corriger les r\u00e9sultats dont la fiabilit\u00e9 est mise en doute. Ces bases de donn\u00e9es peuvent contenir le nom des clients, les num\u00e9ros de compte, les donn\u00e9es du syst\u00e8me ERP comme le num\u00e9ro de bon de commande ou le nom du fournisseur, un lexique propre \u00e0 chaque secteur ou un dictionnaire par langue, etc.<\/li>
- R\u00e8gles<\/strong>Les r\u00e8gles offrent \u00e9galement un moyen d\u2019am\u00e9liorer la pr\u00e9cision d\u2019extraction d\u2019un champ. Par exemple, une r\u00e8gle consistant \u00e0 v\u00e9rifier que le total est \u00e9gal \u00e0 la somme du sous-total et des taxes met facilement en \u00e9vidence les erreurs, m\u00eame apr\u00e8s la correction manuelle d\u2019une des valeurs des champs concern\u00e9s. D\u00e9finir des r\u00e8gles de formatage est aussi une mani\u00e8re simple de garantir un taux \u00e9lev\u00e9 de pr\u00e9cision (par exemple, le num\u00e9ro de s\u00e9curit\u00e9 sociale doit toujours respecter le format x xx xx xx xxx xxx xx, o\u00f9 x est un chiffre compris entre 0 et 9). Enfin, la v\u00e9rification des totaux de contr\u00f4le am\u00e9liore elle aussi la pr\u00e9cision d\u2019extraction des champs.<\/li>
- Syst\u00e8mes de destination<\/strong><\/li><\/ol>\n\n\n\n
Pour que la boucle soit boucl\u00e9e, les solutions CDA doivent pr\u00e9voir un moyen facile de transmission des documents et des donn\u00e9es vers les syst\u00e8mes, les processus et les intervenants qui en ont besoin. La productivit\u00e9 des utilisateurs chute drastiquement si ces derniers doivent d\u00e9placer manuellement les documents au format image et transf\u00e9rer les donn\u00e9es d\u2019un syst\u00e8me \u00e0 l\u2019autre. N\u2019oubliez pas qu\u2019un agent\/robot logiciel RPA peut automatiser le processus de transfert et d\u2019agr\u00e9gation des donn\u00e9es entre les syst\u00e8mes en l\u2019absence de connecteur d\u2019int\u00e9gration pr\u00eat \u00e0 l\u2019emploi avec le syst\u00e8me de destination.<\/p>\n\n\n\n
Pour en savoir plus sur les caract\u00e9ristiques \u00e0 prendre en compte lors de l\u2019\u00e9valuation des fonctions CDA, t\u00e9l\u00e9chargez le livre blanc \u00ab D\u00e9mat\u00e9rialisation cognitive des documents :<\/a>au-del\u00e0 de la reconnaissance optique des caract\u00e8res<\/a> \u00bb.<\/p>\n