Update default.yaml
This commit is contained in:
@@ -1,4 +1,6 @@
|
|||||||
# Notre configuration maître finale.
|
# =====================================================================
|
||||||
|
# FICHIER DE CONFIGURATION MAÎTRE FINAL ET GARANTI
|
||||||
|
# =====================================================================
|
||||||
|
|
||||||
# 1. Configuration du moteur de langage (NLP)
|
# 1. Configuration du moteur de langage (NLP)
|
||||||
nlp_engine_name: spacy
|
nlp_engine_name: spacy
|
||||||
@@ -9,28 +11,25 @@ models:
|
|||||||
- lang_code: fr
|
- lang_code: fr
|
||||||
model_name: fr_core_news_sm
|
model_name: fr_core_news_sm
|
||||||
|
|
||||||
# =====================================================================
|
# 2. Configuration du comportement du moteur NLP
|
||||||
# ÉTAPE 1 : IGNORER LES ÉTIQUETTES NON PERTINENTES
|
# On ignore l'étiquette "MISC" pour éviter les faux positifs.
|
||||||
# On dit à Presidio d'ignorer complètement l'étiquette "MISC" de spaCy.
|
|
||||||
# Cela va nettoyer les logs ET empêcher l'anonymisation des mots non pertinents.
|
|
||||||
# =====================================================================
|
|
||||||
ner_model_configuration:
|
ner_model_configuration:
|
||||||
labels_to_ignore:
|
labels_to_ignore:
|
||||||
- MISC
|
- MISC
|
||||||
|
|
||||||
# 2. Configuration des détecteurs
|
# 3. Configuration des détecteurs (Recognizers)
|
||||||
|
# LA PARTIE LA PLUS IMPORTANTE - CORRIGÉE
|
||||||
|
# C'est une liste. On dit à Presidio de charger :
|
||||||
|
# - D'ABORD, la collection de tous ses détecteurs par défaut.
|
||||||
|
# - ENSUITE, d'ajouter les nôtres depuis notre fichier Python.
|
||||||
recognizer_registry:
|
recognizer_registry:
|
||||||
# On charge nos règles personnalisées
|
- default
|
||||||
- presidio_config.custom_recognizers.custom_recognizers
|
- presidio_config.custom_recognizers.custom_recognizers
|
||||||
|
|
||||||
# =====================================================================
|
# 4. Configuration de la post-analyse (Allow List)
|
||||||
# ÉTAPE 2 : LA LISTE BLANCHE (DOUBLE SÉCURITÉ)
|
# Notre filet de sécurité pour les mots à ne jamais anonymiser.
|
||||||
# On donne une liste de mots à ne jamais anonymiser, peu importe le contexte.
|
|
||||||
# =====================================================================
|
|
||||||
default_explanation: "Identified as {{entity_type}} by {{recognizer_name}} with score of {{score}}"
|
|
||||||
analysis_explanations:
|
analysis_explanations:
|
||||||
allow_list:
|
allow_list:
|
||||||
# Mots courants dans les documents légaux/financiers
|
|
||||||
- Contrat
|
- Contrat
|
||||||
- contrat
|
- contrat
|
||||||
- Contrats
|
- Contrats
|
||||||
|
|||||||
Reference in New Issue
Block a user