119 lines
2.5 KiB
YAML
119 lines
2.5 KiB
YAML
# =====================================================================
|
|
# CONFIGURATION PRESIDIO POUR DOCUMENTS FRANÇAIS/BELGES
|
|
# =====================================================================
|
|
|
|
# Configuration du moteur de langage (NLP)
|
|
nlp_engine_name: spacy
|
|
supported_languages: [en, fr]
|
|
models:
|
|
- lang_code: en
|
|
model_name: en_core_web_lg
|
|
- lang_code: fr
|
|
model_name: fr_core_news_sm
|
|
|
|
# Configuration du comportement du moteur NLP
|
|
ner_model_configuration:
|
|
labels_to_ignore:
|
|
- MISC
|
|
- ORG # Éviter les faux positifs sur les noms d'organisations
|
|
|
|
# Seuils de confiance par entité
|
|
confidence_threshold:
|
|
default: 0.35
|
|
EMAIL_ADDRESS: 0.5
|
|
PHONE_NUMBER: 0.6
|
|
PERSON: 0.7
|
|
|
|
# Configuration des détecteurs (Recognizers)
|
|
recognizer_registry:
|
|
# Charger d'abord les détecteurs par défaut
|
|
- default
|
|
# Puis ajouter nos détecteurs personnalisés
|
|
- presidio_config.custom_recognizers.custom_recognizers
|
|
|
|
# Liste des mots à ignorer (faux positifs courants)
|
|
allow_list:
|
|
# Termes contractuels génériques
|
|
- Contrat
|
|
- contrat
|
|
- Contrats
|
|
- Document
|
|
- document
|
|
- Société
|
|
- Investisseur
|
|
- Montant
|
|
- Prêt
|
|
- Intérêt
|
|
- Intérêts
|
|
- Partie
|
|
- Parties
|
|
- Annexe
|
|
- Remboursement
|
|
- Conversion
|
|
- Financement
|
|
- Sortie
|
|
- "Juste Valeur Marchande"
|
|
- Échéance
|
|
- Clause
|
|
- Clauses
|
|
- Principe
|
|
- Coûts
|
|
- Notifications
|
|
- Article
|
|
- Paragraphe
|
|
- Directeur
|
|
- Gérant
|
|
- Président
|
|
# Termes financiers courants
|
|
- Euro
|
|
- EUR
|
|
- Euros
|
|
- Pourcentage
|
|
- Taux
|
|
- Valeur
|
|
- Prix
|
|
- Montant
|
|
# Termes juridiques
|
|
- Loi
|
|
- Code
|
|
- Règlement
|
|
- Décret
|
|
- Arrêté
|
|
# Mois et dates génériques
|
|
- Janvier
|
|
- Février
|
|
- Mars
|
|
- Avril
|
|
- Mai
|
|
- Juin
|
|
- Juillet
|
|
- Août
|
|
- Septembre
|
|
- Octobre
|
|
- Novembre
|
|
- Décembre
|
|
|
|
# Configuration des transformations d'anonymisation
|
|
anonymizer_config:
|
|
# Remplacements par défaut
|
|
default_anonymizers:
|
|
PERSON: replace
|
|
EMAIL_ADDRESS: replace
|
|
PHONE_NUMBER: replace
|
|
BE_NATIONAL_REGISTER_NUMBER: replace
|
|
BE_ENTERPRISE_NUMBER: replace
|
|
FR_SOCIAL_SECURITY_NUMBER: replace
|
|
IBAN: replace
|
|
BE_BANK_ACCOUNT: replace
|
|
|
|
# Valeurs de remplacement personnalisées
|
|
replacements:
|
|
PERSON: "<PERSONNE>"
|
|
EMAIL_ADDRESS: "<EMAIL>"
|
|
PHONE_NUMBER: "<TELEPHONE>"
|
|
BE_NATIONAL_REGISTER_NUMBER: "<NRN_BELGE>"
|
|
BE_ENTERPRISE_NUMBER: "<NUM_ENTREPRISE_BE>"
|
|
FR_SOCIAL_SECURITY_NUMBER: "<NUM_SECU_FR>"
|
|
IBAN: "<IBAN>"
|
|
BE_BANK_ACCOUNT: "<COMPTE_BANCAIRE_BE>"
|