Files
Presidio/default.yaml
2025-06-23 10:41:10 +02:00

119 lines
2.5 KiB
YAML

# =====================================================================
# CONFIGURATION PRESIDIO POUR DOCUMENTS FRANÇAIS/BELGES
# =====================================================================
# Configuration du moteur de langage (NLP)
nlp_engine_name: spacy
supported_languages: [en, fr]
models:
- lang_code: en
model_name: en_core_web_lg
- lang_code: fr
model_name: fr_core_news_sm
# Configuration du comportement du moteur NLP
ner_model_configuration:
labels_to_ignore:
- MISC
- ORG # Éviter les faux positifs sur les noms d'organisations
# Seuils de confiance par entité
confidence_threshold:
default: 0.35
EMAIL_ADDRESS: 0.5
PHONE_NUMBER: 0.6
PERSON: 0.7
# Configuration des détecteurs (Recognizers)
recognizer_registry:
# Charger d'abord les détecteurs par défaut
- default
# Puis ajouter nos détecteurs personnalisés
- presidio_config.custom_recognizers.custom_recognizers
# Liste des mots à ignorer (faux positifs courants)
allow_list:
# Termes contractuels génériques
- Contrat
- contrat
- Contrats
- Document
- document
- Société
- Investisseur
- Montant
- Prêt
- Intérêt
- Intérêts
- Partie
- Parties
- Annexe
- Remboursement
- Conversion
- Financement
- Sortie
- "Juste Valeur Marchande"
- Échéance
- Clause
- Clauses
- Principe
- Coûts
- Notifications
- Article
- Paragraphe
- Directeur
- Gérant
- Président
# Termes financiers courants
- Euro
- EUR
- Euros
- Pourcentage
- Taux
- Valeur
- Prix
- Montant
# Termes juridiques
- Loi
- Code
- Règlement
- Décret
- Arrêté
# Mois et dates génériques
- Janvier
- Février
- Mars
- Avril
- Mai
- Juin
- Juillet
- Août
- Septembre
- Octobre
- Novembre
- Décembre
# Configuration des transformations d'anonymisation
anonymizer_config:
# Remplacements par défaut
default_anonymizers:
PERSON: replace
EMAIL_ADDRESS: replace
PHONE_NUMBER: replace
BE_NATIONAL_REGISTER_NUMBER: replace
BE_ENTERPRISE_NUMBER: replace
FR_SOCIAL_SECURITY_NUMBER: replace
IBAN: replace
BE_BANK_ACCOUNT: replace
# Valeurs de remplacement personnalisées
replacements:
PERSON: "<PERSONNE>"
EMAIL_ADDRESS: "<EMAIL>"
PHONE_NUMBER: "<TELEPHONE>"
BE_NATIONAL_REGISTER_NUMBER: "<NRN_BELGE>"
BE_ENTERPRISE_NUMBER: "<NUM_ENTREPRISE_BE>"
FR_SOCIAL_SECURITY_NUMBER: "<NUM_SECU_FR>"
IBAN: "<IBAN>"
BE_BANK_ACCOUNT: "<COMPTE_BANCAIRE_BE>"