# Notre configuration maître finale. # 1. Configuration du moteur de langage (NLP) nlp_engine_name: spacy supported_languages: [en, fr] models: - lang_code: en model_name: en_core_web_lg - lang_code: fr model_name: fr_core_news_sm # ===================================================================== # ÉTAPE 1 : IGNORER LES ÉTIQUETTES NON PERTINENTES # On dit à Presidio d'ignorer complètement l'étiquette "MISC" de spaCy. # Cela va nettoyer les logs ET empêcher l'anonymisation des mots non pertinents. # ===================================================================== ner_model_configuration: labels_to_ignore: - MISC # 2. Configuration des détecteurs recognizer_registry: # On charge nos règles personnalisées - presidio_config.custom_recognizers.custom_recognizers # ===================================================================== # ÉTAPE 2 : LA LISTE BLANCHE (DOUBLE SÉCURITÉ) # On donne une liste de mots à ne jamais anonymiser, peu importe le contexte. # ===================================================================== default_explanation: "Identified as {{entity_type}} by {{recognizer_name}} with score of {{score}}" analysis_explanations: allow_list: # Mots courants dans les documents légaux/financiers - Contrat - contrat - Contrats - Document - document - Société - Investisseur - Montant - Intérêt - Intérêts - Partie - Parties - Annexe - Remboursement - Conversion - Financement - Sortie - Juste Valeur Marchande - Échéance - Clause - Clauses - Principe - Coûts - Notifications - Article - Paragraphe - Directeur - Gérant - Président