Create default.yaml
This commit is contained in:
118
default.yaml
Normal file
118
default.yaml
Normal file
@@ -0,0 +1,118 @@
|
||||
# =====================================================================
|
||||
# CONFIGURATION PRESIDIO POUR DOCUMENTS FRANÇAIS/BELGES
|
||||
# =====================================================================
|
||||
|
||||
# Configuration du moteur de langage (NLP)
|
||||
nlp_engine_name: spacy
|
||||
supported_languages: [en, fr]
|
||||
models:
|
||||
- lang_code: en
|
||||
model_name: en_core_web_lg
|
||||
- lang_code: fr
|
||||
model_name: fr_core_news_sm
|
||||
|
||||
# Configuration du comportement du moteur NLP
|
||||
ner_model_configuration:
|
||||
labels_to_ignore:
|
||||
- MISC
|
||||
- ORG # Éviter les faux positifs sur les noms d'organisations
|
||||
|
||||
# Seuils de confiance par entité
|
||||
confidence_threshold:
|
||||
default: 0.35
|
||||
EMAIL_ADDRESS: 0.5
|
||||
PHONE_NUMBER: 0.6
|
||||
PERSON: 0.7
|
||||
|
||||
# Configuration des détecteurs (Recognizers)
|
||||
recognizer_registry:
|
||||
# Charger d'abord les détecteurs par défaut
|
||||
- default
|
||||
# Puis ajouter nos détecteurs personnalisés
|
||||
- presidio_config.custom_recognizers.custom_recognizers
|
||||
|
||||
# Liste des mots à ignorer (faux positifs courants)
|
||||
allow_list:
|
||||
# Termes contractuels génériques
|
||||
- Contrat
|
||||
- contrat
|
||||
- Contrats
|
||||
- Document
|
||||
- document
|
||||
- Société
|
||||
- Investisseur
|
||||
- Montant
|
||||
- Prêt
|
||||
- Intérêt
|
||||
- Intérêts
|
||||
- Partie
|
||||
- Parties
|
||||
- Annexe
|
||||
- Remboursement
|
||||
- Conversion
|
||||
- Financement
|
||||
- Sortie
|
||||
- "Juste Valeur Marchande"
|
||||
- Échéance
|
||||
- Clause
|
||||
- Clauses
|
||||
- Principe
|
||||
- Coûts
|
||||
- Notifications
|
||||
- Article
|
||||
- Paragraphe
|
||||
- Directeur
|
||||
- Gérant
|
||||
- Président
|
||||
# Termes financiers courants
|
||||
- Euro
|
||||
- EUR
|
||||
- Euros
|
||||
- Pourcentage
|
||||
- Taux
|
||||
- Valeur
|
||||
- Prix
|
||||
- Montant
|
||||
# Termes juridiques
|
||||
- Loi
|
||||
- Code
|
||||
- Règlement
|
||||
- Décret
|
||||
- Arrêté
|
||||
# Mois et dates génériques
|
||||
- Janvier
|
||||
- Février
|
||||
- Mars
|
||||
- Avril
|
||||
- Mai
|
||||
- Juin
|
||||
- Juillet
|
||||
- Août
|
||||
- Septembre
|
||||
- Octobre
|
||||
- Novembre
|
||||
- Décembre
|
||||
|
||||
# Configuration des transformations d'anonymisation
|
||||
anonymizer_config:
|
||||
# Remplacements par défaut
|
||||
default_anonymizers:
|
||||
PERSON: replace
|
||||
EMAIL_ADDRESS: replace
|
||||
PHONE_NUMBER: replace
|
||||
BE_NATIONAL_REGISTER_NUMBER: replace
|
||||
BE_ENTERPRISE_NUMBER: replace
|
||||
FR_SOCIAL_SECURITY_NUMBER: replace
|
||||
IBAN: replace
|
||||
BE_BANK_ACCOUNT: replace
|
||||
|
||||
# Valeurs de remplacement personnalisées
|
||||
replacements:
|
||||
PERSON: "<PERSONNE>"
|
||||
EMAIL_ADDRESS: "<EMAIL>"
|
||||
PHONE_NUMBER: "<TELEPHONE>"
|
||||
BE_NATIONAL_REGISTER_NUMBER: "<NRN_BELGE>"
|
||||
BE_ENTERPRISE_NUMBER: "<NUM_ENTREPRISE_BE>"
|
||||
FR_SOCIAL_SECURITY_NUMBER: "<NUM_SECU_FR>"
|
||||
IBAN: "<IBAN>"
|
||||
BE_BANK_ACCOUNT: "<COMPTE_BANCAIRE_BE>"
|
||||
Reference in New Issue
Block a user