Files
Presidio/conf/default.yaml
2025-06-16 03:03:16 +02:00

77 lines
2.0 KiB
YAML

# =====================================================================
# FICHIER DE CONFIGURATION MAÎTRE DE QUALITÉ PRODUCTION
# =====================================================================
# 1. Configuration du moteur de langage (NLP)
nlp_engine_name: spacy
supported_languages: [en, fr]
models:
- lang_code: en
model_name: en_core_web_lg
- lang_code: fr
model_name: fr_core_news_sm
# 2. Configuration du comportement du moteur NLP
# On ignore l'étiquette "MISC" pour éviter les faux positifs.
ner_model_configuration:
labels_to_ignore:
- MISC
# 3. Configuration des détecteurs (Recognizers) - LA PARTIE LA PLUS IMPORTANTE
# On charge explicitement tous les outils dont nous avons besoin.
recognizer_registry:
# On charge le moteur principal pour les entités de base (PERSON, LOCATION, ORG)
- name: SpacyRecognizer
supported_language: fr
- name: SpacyRecognizer
supported_language: en
# On charge TOUS les reconnaisseurs universels pertinents pour le RGPD
- name: EmailRecognizer
- name: PhoneRecognizer # --> Sera amélioré par notre règle custom
- name: IbanRecognizer # --> Sera amélioré par notre règle custom
- name: CreditCardRecognizer
- name: DateRecognizer
- name: UrlRecognizer
- name: IpRecognizer
- name: MedicalLicenseRecognizer
- name: CryptoRecognizer
# On charge TOUTES nos règles personnalisées
- default
- presidio_config.custom_recognizers.custom_recognizers
# 4. Configuration de la post-analyse (Allow List)
# Notre filet de sécurité pour les faux positifs.
analysis_explanations:
allow_list:
- Contrat
- contrat
- Contrats
- Document
- document
- Société
- Investisseur
- Montant
- Intérêt
- Intérêts
- Partie
- Parties
- Annexe
- Remboursement
- Conversion
- Financement
- Sortie
- Juste Valeur Marchande
- Échéance
- Clause
- Clauses
- Principe
- Coûts
- Notifications
- Article
- Paragraphe
- Directeur
- Gérant
- Président