From 766721b680ece266ea9dbe7ee4f7e2ee0d955d01 Mon Sep 17 00:00:00 2001 From: Nacim Date: Mon, 16 Jun 2025 02:09:28 +0200 Subject: [PATCH] Update default.yaml --- conf/default.yaml | 27 +++++++++++++-------------- 1 file changed, 13 insertions(+), 14 deletions(-) diff --git a/conf/default.yaml b/conf/default.yaml index 0742e37..36e5f37 100644 --- a/conf/default.yaml +++ b/conf/default.yaml @@ -1,4 +1,6 @@ -# Notre configuration maître finale. +# ===================================================================== +# FICHIER DE CONFIGURATION MAÎTRE FINAL ET GARANTI +# ===================================================================== # 1. Configuration du moteur de langage (NLP) nlp_engine_name: spacy @@ -9,28 +11,25 @@ models: - lang_code: fr model_name: fr_core_news_sm -# ===================================================================== -# ÉTAPE 1 : IGNORER LES ÉTIQUETTES NON PERTINENTES -# On dit à Presidio d'ignorer complètement l'étiquette "MISC" de spaCy. -# Cela va nettoyer les logs ET empêcher l'anonymisation des mots non pertinents. -# ===================================================================== +# 2. Configuration du comportement du moteur NLP +# On ignore l'étiquette "MISC" pour éviter les faux positifs. ner_model_configuration: labels_to_ignore: - MISC -# 2. Configuration des détecteurs +# 3. Configuration des détecteurs (Recognizers) +# LA PARTIE LA PLUS IMPORTANTE - CORRIGÉE +# C'est une liste. On dit à Presidio de charger : +# - D'ABORD, la collection de tous ses détecteurs par défaut. +# - ENSUITE, d'ajouter les nôtres depuis notre fichier Python. recognizer_registry: - # On charge nos règles personnalisées + - default - presidio_config.custom_recognizers.custom_recognizers -# ===================================================================== -# ÉTAPE 2 : LA LISTE BLANCHE (DOUBLE SÉCURITÉ) -# On donne une liste de mots à ne jamais anonymiser, peu importe le contexte. -# ===================================================================== -default_explanation: "Identified as {{entity_type}} by {{recognizer_name}} with score of {{score}}" +# 4. Configuration de la post-analyse (Allow List) +# Notre filet de sécurité pour les mots à ne jamais anonymiser. analysis_explanations: allow_list: - # Mots courants dans les documents légaux/financiers - Contrat - contrat - Contrats