Enjeux stratégiques

Assurer la qualité des données grâce à l’intelligence artificielle

Créé le

13.09.2019

La qualité des données devient un enjeu stratégique, à la fois pour des raisons de conformité réglementaire et pour résister à la disruption des nouveaux entrants. L’intelligence artificielle et le machine learning permettent de mettre en œuvre un dispositif efficace de contrôle et de maintien de la qualité.

Assurer la qualité des données grâce à l’intelligence artificielle

Guillaume Dablin

Directeur , Data Analytics & IA Deloitte
Deloitte & Associés Senior Manager, Audit & Assurance Financial Service Industry, Audit Analytics & Artificial Intelligence

Maud Monin

Associée Deloitte
Membre ADICEF
Associée Audit & Assurance, Financial Service Industry Deloitte & Associés

La qualité des données un enjeu central, un challenge intensif. Aujourd’hui celle-ci devient primordiale et la contrainte n’est plus simplement réglementaire mais elle est imposée peu à peu par le marché.

La réponse aux exigences de la réglementation occupe néanmoins toujours une place centrale. Ainsi, du point de vue réglementaire (BCBS 239, GDPR, Sapin 2, outils de filtrage des transactions, etc.), les exigences sont croissantes en matière de reporting auprès des régulateurs nationaux ou transnationaux. Celles-ci s’étendent aux données qui les alimentent et qui doivent être contrôlées et vérifiées pour en assurer la qualité. Ces contraintes de contrôle et de vérification s’étendent par capillarité à l’ensemble des chaînes de risque, de gestion et de production des banques. Ces contrôles doivent permettre de piloter la qualité d’un univers de données quantitatif et qualitatif en perpétuelle expansion où les données produites industriellement cohabitent avec les données produites par des experts et des modèles.

Cependant, la qualité des données devient également un enjeu stratégique pour des raisons qui dépassent désormais la simple nécessité de conformité réglementaire. Il s’agit à la fois de résister à la disruption des nouveaux entrants et dans le même temps de répondre aux nouvelles attentes. La directive DSP 2 est en effet passée par là. Tout en favorisant la disruption et l’émergence de nouveaux acteurs, elle offre de nouvelles opportunités à l’industrie bancaire et aux services que cette dernière peut proposer à ses clients. En outre, de nouveaux modes de consommation s’imposent : facilité, gratuité ou quasi-gratuité, immédiateté d’accès à des services ont été généralisés par les géants du web. Il devient donc incontournable d’offrir en concurrence aux clients des services nombreux, réactifs et pour l’essentiel gratuits.

Les nouveaux usages présupposent en effet des données maîtrisées de même qu'une vision précise et exhaustive des données existantes et disponibles. Cette exigence appelle un effort préalable dense et en profondeur pour reconstruire le panorama des données dont dispose l’établissement et se donner les moyens de s’approprier ce patrimoine.

La qualité des données devient donc un challenge pluriel et multi-objectifs. Elle doit, entre autres, reposer sur une capacité d’analyse régulière et efficiente de la qualité des données faisant partie du périmètre mis sous contrôle. Dans cette perspective, l’Intelligence artificielle (IA) offre de nombreuses opportunités.

Les apports de l’intelligence artificielle et du machine learning

L’IA est un ensemble de théories et de techniques qui visent à copier les capacités du cerveau humain. Parmi toutes ces capacités (raisonnement, apprentissage…), l’apprentissage, le machine learning (ML), est la capacité qui est aujourd’hui la plus développée. Il peut s’appliquer sur différents types de données « structurées » (organisées en base de données) ou « non structurées » (comme des images, des sons ou bien encore du texte).

Cette capacité d’apprentissage offre un nouveau paradigme riche d’opportunités et d’accélérateur dès lors, en particulier, qu’on l’applique à la qualité

des données. La mise en place de contrôle de qualité des données passe en effet bien souvent par différentes modélisations selon les axes de qualité que l’on cherche à contrôler (intégrité, cohérence, exactitude…) et qui doublonnent en matière de conception avec la mise en œuvre originale des traitements de production des données considérées. Le ML permet de s’affranchir de ce besoin de modélisation – les algorithmes dits supervisés sont en effet conçus pour déduire et apprendre les « liens » qui existent entre des données en entrée et des données en sortie qui lui sont soumises lors la phase dites d’apprentissage – ce qui permet de se focaliser non pas sur la modélisation d’un contrôle en lui-même puis sur l’analyse des résultats produits, mais bien directement sur l’analyse des données aberrantes observées (le cas échéant) parmi les données produites.

Au-delà d’ailleurs de l’implémentation initiale d’un dispositif de contrôle efficient, il existe un autre domaine pour lequel le ML offre à nouveau son concours à la fois simplificateur et accélérateur : la maintenance des contrôles dans le temps et au gré des évolutions des règles métiers (comme par exemple l’évolution de conditions tarifaires). Ces évolutions peuvent en effet se montrer complexes et exigeantes en ressources de maintenance du dispositif. Le ML permet dans ce cas d’accompagner les évolutions métiers en allégeant la pression de maintenance. Dans certains cas, par exemple lorsque les structures de calcul des commissions et les assiettes de calcul restent figées, l’apprentissage continu peut être envisagé réduisant encore la charge de maintenance et la transformant principalement en charge de pilotage de la correcte évolution de l’apprentissage.

Il est également un autre domaine où le ML peut venir accélérer l’évaluation de la qualité des données, il s’agit du domaine de l’automatisation. Le passage à l’échelle d’une stratégie d’évaluation de la qualité des données basée sur du ML peut ainsi être largement automatisé. Une fois les cas d’usage modélisés et normalisés, il est en effet raisonnablement envisageable de transformer l’ensemble des étapes de mise en œuvre d’algorithme d’IA en méta algorithme. Par ce processus, c’est le méta algorithme qui décidera de l’algorithme à utiliser en fonction du cas d’usage, de la préparation des données, de l’optimisation de ses paramètres de fonctionnement, de son entraînement, de son application et enfin de la préparation des analyses de qualité des données.

Un préalable à la généralisation de l’IA

Le fait de disposer d’un dispositif de gestion de la qualité des données efficient permet de répondre aux exigences des régulateurs, ce qui en est l’ambition originale. Toutefois si on veut capitaliser sur l’effort de mise en œuvre d’un tel dispositif et dépasser cet objectif initial, la qualité des données peut être appréhendée comme étant en elle-même un accélérateur pour une intensification et une généralisation de l’utilisation de l’IA à d’autres fins. Pour cela toutefois, il faut encore que les données utilisées fassent partie du périmètre placé sous contrôle. En effet, le champ des travaux de mise en qualité orienté par les exigences réglementaires conduit les établissements bancaires à couvrir un périmètre de données cantonné souvent à la comptabilité, la finance et les risques. Au regard de la charge de travail que cela constitue, les autres données comme par exemple les données commerciales ne sont pas nécessairement couvertes, alors même qu’elles revêtent un potentiel important de génération de PNB pour l’établissement. Elles doivent donc tout à la fois être identifiées et priorisées dans la perspective d’être intégrées au dispositif.

À cet effet, les équipes de Data Scientists – qui en interne utilisent ou développent des algorithmes de ML – travaillent sur des données situées en dehors du périmètre visé par la réglementation. Ces utilisateurs tirent des enseignements précieux de leurs travaux en ce qui concerne en particulier la qualité de ces données et peuvent ainsi jouer un rôle essentiel de contribution, en participant à l’identification proactive de données n’entrant pas dans le champ des données réglementaires. Ces données méritent toutefois d’être intégrées au dispositif de mise et de maintien en qualité – ainsi qu’aux corrections à y apporter, le cas échéant. Ce principe de mise en qualité peut et doit d’ailleurs être étendu à toutes les équipes qui utilisent les données pour leurs besoins, qu’ils soient métiers ou bien plus liés au fonctionnement de l’organisation.

Cette démarche vertueuse peut donc permettre de faire vivre et d’étendre progressivement la maturité et le champ d’application du dispositif de gestion de la qualité des données et de transformer la contrainte réglementaire en une opportunité.

Limites, zones de risque et ouverture

Les algorithmes de ML constituent des accélérateurs indéniables pour la mise en œuvre de dispositifs effectifs de contrôles de la qualité des données. La capitalisation, par ailleurs, sur les activités fortement consommatrices de données autres que celles concernées par la réponse aux exigences réglementaires permet d’évoluer vers un modèle plus mature.

Il y a toutefois un certain nombre d’écueils inhérents au déploiement de ce type d’approche, qu’il faut identifier et adresser clairement, au risque de transformer cette expérience en échec.

En effet, les données qui sont utilisées pour « entraîner » les algorithmes peuvent être porteuses de biais. En particulier, si une donnée que l’on veut mettre sous contrôle n’est, justement, pas de qualité. Ce défaut de qualité peut contaminer l’apprentissage. La phase de préparation des données doit donc être orientée et construite dans la perspective d’écarter ces cas de figure du périmètre des données retenues pour l’apprentissage. La détection de tels cas de figure, le cas échéant, doit par ailleurs également être le point de départ d’un processus de remédiation à la non-qualité identifiée.

Toutefois, si les techniques de ML offrent des opportunités réelles, elles ne restent que des moyens de mise en œuvre. Les algorithmes ne jouent un rôle que dans la mise en œuvre d’un dispositif qui doit être conçu et défini au préalable. Ils ne permettent pas par exemple de faire l’économie d’un dictionnaire des données, qui constitue la colonne vertébrale d’un dispositif de qualité des données et permet non seulement de définir le périmètre sur lequel s’étend le dispositif, mais également de tracer les liens et cheminements qui existent entre les données, de leur entrée dans le système d’information à leur utilisation finale.

Les algorithmes d’IA permettent une traduction efficiente des contrôles dans les faits. Ils permettent de faciliter le passage de la théorie à la pratique qui se confronte à la réalité d’un dispositif à mettre en œuvre et à la complexité de le maintenir dans le temps.

L’usage de l’IA offre toutefois corollairement la possibilité d’étendre le champ d’assurance obtenu en analysant les données et faire ressortir des enseignements qui dépassent la simple évaluation de la qualité des données.

Ainsi la mise sous surveillance des données par le biais de l’IA peut servir de tremplin à une réappropriation plus large de ses données par l’établissement bancaire pour généraliser les cas d’usage. Cette évolution de paradigme – le passage d’une situation subie à une attitude proactive qui deviendra stratégique et génératrice de valeur – est une étape nécessaire sur le chemin de la réponse aux nouvelles attentes. Elle ne peut cependant se faire qu’au prix d’une vision profonde, engagée et partagée par tous.