Create default.yaml
This commit is contained in:
118
default.yaml
Normal file
118
default.yaml
Normal file
@@ -0,0 +1,118 @@
|
|||||||
|
# =====================================================================
|
||||||
|
# CONFIGURATION PRESIDIO POUR DOCUMENTS FRANÇAIS/BELGES
|
||||||
|
# =====================================================================
|
||||||
|
|
||||||
|
# Configuration du moteur de langage (NLP)
|
||||||
|
nlp_engine_name: spacy
|
||||||
|
supported_languages: [en, fr]
|
||||||
|
models:
|
||||||
|
- lang_code: en
|
||||||
|
model_name: en_core_web_lg
|
||||||
|
- lang_code: fr
|
||||||
|
model_name: fr_core_news_sm
|
||||||
|
|
||||||
|
# Configuration du comportement du moteur NLP
|
||||||
|
ner_model_configuration:
|
||||||
|
labels_to_ignore:
|
||||||
|
- MISC
|
||||||
|
- ORG # Éviter les faux positifs sur les noms d'organisations
|
||||||
|
|
||||||
|
# Seuils de confiance par entité
|
||||||
|
confidence_threshold:
|
||||||
|
default: 0.35
|
||||||
|
EMAIL_ADDRESS: 0.5
|
||||||
|
PHONE_NUMBER: 0.6
|
||||||
|
PERSON: 0.7
|
||||||
|
|
||||||
|
# Configuration des détecteurs (Recognizers)
|
||||||
|
recognizer_registry:
|
||||||
|
# Charger d'abord les détecteurs par défaut
|
||||||
|
- default
|
||||||
|
# Puis ajouter nos détecteurs personnalisés
|
||||||
|
- presidio_config.custom_recognizers.custom_recognizers
|
||||||
|
|
||||||
|
# Liste des mots à ignorer (faux positifs courants)
|
||||||
|
allow_list:
|
||||||
|
# Termes contractuels génériques
|
||||||
|
- Contrat
|
||||||
|
- contrat
|
||||||
|
- Contrats
|
||||||
|
- Document
|
||||||
|
- document
|
||||||
|
- Société
|
||||||
|
- Investisseur
|
||||||
|
- Montant
|
||||||
|
- Prêt
|
||||||
|
- Intérêt
|
||||||
|
- Intérêts
|
||||||
|
- Partie
|
||||||
|
- Parties
|
||||||
|
- Annexe
|
||||||
|
- Remboursement
|
||||||
|
- Conversion
|
||||||
|
- Financement
|
||||||
|
- Sortie
|
||||||
|
- "Juste Valeur Marchande"
|
||||||
|
- Échéance
|
||||||
|
- Clause
|
||||||
|
- Clauses
|
||||||
|
- Principe
|
||||||
|
- Coûts
|
||||||
|
- Notifications
|
||||||
|
- Article
|
||||||
|
- Paragraphe
|
||||||
|
- Directeur
|
||||||
|
- Gérant
|
||||||
|
- Président
|
||||||
|
# Termes financiers courants
|
||||||
|
- Euro
|
||||||
|
- EUR
|
||||||
|
- Euros
|
||||||
|
- Pourcentage
|
||||||
|
- Taux
|
||||||
|
- Valeur
|
||||||
|
- Prix
|
||||||
|
- Montant
|
||||||
|
# Termes juridiques
|
||||||
|
- Loi
|
||||||
|
- Code
|
||||||
|
- Règlement
|
||||||
|
- Décret
|
||||||
|
- Arrêté
|
||||||
|
# Mois et dates génériques
|
||||||
|
- Janvier
|
||||||
|
- Février
|
||||||
|
- Mars
|
||||||
|
- Avril
|
||||||
|
- Mai
|
||||||
|
- Juin
|
||||||
|
- Juillet
|
||||||
|
- Août
|
||||||
|
- Septembre
|
||||||
|
- Octobre
|
||||||
|
- Novembre
|
||||||
|
- Décembre
|
||||||
|
|
||||||
|
# Configuration des transformations d'anonymisation
|
||||||
|
anonymizer_config:
|
||||||
|
# Remplacements par défaut
|
||||||
|
default_anonymizers:
|
||||||
|
PERSON: replace
|
||||||
|
EMAIL_ADDRESS: replace
|
||||||
|
PHONE_NUMBER: replace
|
||||||
|
BE_NATIONAL_REGISTER_NUMBER: replace
|
||||||
|
BE_ENTERPRISE_NUMBER: replace
|
||||||
|
FR_SOCIAL_SECURITY_NUMBER: replace
|
||||||
|
IBAN: replace
|
||||||
|
BE_BANK_ACCOUNT: replace
|
||||||
|
|
||||||
|
# Valeurs de remplacement personnalisées
|
||||||
|
replacements:
|
||||||
|
PERSON: "<PERSONNE>"
|
||||||
|
EMAIL_ADDRESS: "<EMAIL>"
|
||||||
|
PHONE_NUMBER: "<TELEPHONE>"
|
||||||
|
BE_NATIONAL_REGISTER_NUMBER: "<NRN_BELGE>"
|
||||||
|
BE_ENTERPRISE_NUMBER: "<NUM_ENTREPRISE_BE>"
|
||||||
|
FR_SOCIAL_SECURITY_NUMBER: "<NUM_SECU_FR>"
|
||||||
|
IBAN: "<IBAN>"
|
||||||
|
BE_BANK_ACCOUNT: "<COMPTE_BANCAIRE_BE>"
|
||||||
Reference in New Issue
Block a user