diff --git a/default.yaml b/default.yaml new file mode 100644 index 0000000..b35e02b --- /dev/null +++ b/default.yaml @@ -0,0 +1,118 @@ +# ===================================================================== +# CONFIGURATION PRESIDIO POUR DOCUMENTS FRANÇAIS/BELGES +# ===================================================================== + +# Configuration du moteur de langage (NLP) +nlp_engine_name: spacy +supported_languages: [en, fr] +models: + - lang_code: en + model_name: en_core_web_lg + - lang_code: fr + model_name: fr_core_news_sm + +# Configuration du comportement du moteur NLP +ner_model_configuration: + labels_to_ignore: + - MISC + - ORG # Éviter les faux positifs sur les noms d'organisations + + # Seuils de confiance par entité + confidence_threshold: + default: 0.35 + EMAIL_ADDRESS: 0.5 + PHONE_NUMBER: 0.6 + PERSON: 0.7 + +# Configuration des détecteurs (Recognizers) +recognizer_registry: + # Charger d'abord les détecteurs par défaut + - default + # Puis ajouter nos détecteurs personnalisés + - presidio_config.custom_recognizers.custom_recognizers + +# Liste des mots à ignorer (faux positifs courants) +allow_list: + # Termes contractuels génériques + - Contrat + - contrat + - Contrats + - Document + - document + - Société + - Investisseur + - Montant + - Prêt + - Intérêt + - Intérêts + - Partie + - Parties + - Annexe + - Remboursement + - Conversion + - Financement + - Sortie + - "Juste Valeur Marchande" + - Échéance + - Clause + - Clauses + - Principe + - Coûts + - Notifications + - Article + - Paragraphe + - Directeur + - Gérant + - Président + # Termes financiers courants + - Euro + - EUR + - Euros + - Pourcentage + - Taux + - Valeur + - Prix + - Montant + # Termes juridiques + - Loi + - Code + - Règlement + - Décret + - Arrêté + # Mois et dates génériques + - Janvier + - Février + - Mars + - Avril + - Mai + - Juin + - Juillet + - Août + - Septembre + - Octobre + - Novembre + - Décembre + +# Configuration des transformations d'anonymisation +anonymizer_config: + # Remplacements par défaut + default_anonymizers: + PERSON: replace + EMAIL_ADDRESS: replace + PHONE_NUMBER: replace + BE_NATIONAL_REGISTER_NUMBER: replace + BE_ENTERPRISE_NUMBER: replace + FR_SOCIAL_SECURITY_NUMBER: replace + IBAN: replace + BE_BANK_ACCOUNT: replace + + # Valeurs de remplacement personnalisées + replacements: + PERSON: "" + EMAIL_ADDRESS: "" + PHONE_NUMBER: "" + BE_NATIONAL_REGISTER_NUMBER: "" + BE_ENTERPRISE_NUMBER: "" + FR_SOCIAL_SECURITY_NUMBER: "" + IBAN: "" + BE_BANK_ACCOUNT: ""