Actualiser conf/default.yaml

This commit is contained in:
2025-07-28 18:48:30 +00:00
parent 0866eb8470
commit 9fcc209efb

View File

@@ -1,10 +1,8 @@
# ===================================================================== # =====================================================================
# CONFIGURATION PRESIDIO - v27 # CONFIGURATION PRESIDIO - Minimal Full Working
# ===================================================================== # =====================================================================
supported_languages: [en, fr] supported_languages: [en, fr]
# 1. CONFIGURATION DU MOTEUR NLP (INCHANGÉ)
# =====================================================================
nlp_configuration: nlp_configuration:
nlp_engine_name: spacy nlp_engine_name: spacy
models: models:
@@ -30,11 +28,8 @@ nlp_configuration:
PERSON: 0.85 PERSON: 0.85
ORGANIZATION: 0.55 ORGANIZATION: 0.55
# 2. CONFIGURATION DU REGISTRE DES DÉTECTEURS (AVEC L'AJOUT POUR LES WARNINGS)
# =====================================================================
recognizer_registry: recognizer_registry:
load_predefined_recognizers: true load_predefined_recognizers: true
recognizers: recognizers:
- name: FlexibleDateRecognizer - name: FlexibleDateRecognizer
supported_language: fr supported_language: fr
@@ -56,14 +51,14 @@ recognizer_registry:
regex: "\\b(?:\\d{1,4}[A-Za-z]?(?:\\s*,)?\\s+)?(?:Avenue|Rue|Boulevard|Chaussée|Place|Quai|Impasse|Drève)(?:\\s+(?:de|la|le|d'|des))?(?:\\s+[A-Z][a-zà-ÿ'-]+)+,?(?:\\s+\\d{1,4}[A-Za-z]?)?,\\s*\\d{4}\\s+[A-Za-zà-ÿ'-]+" regex: "\\b(?:\\d{1,4}[A-Za-z]?(?:\\s*,)?\\s+)?(?:Avenue|Rue|Boulevard|Chaussée|Place|Quai|Impasse|Drève)(?:\\s+(?:de|la|le|d'|des))?(?:\\s+[A-Z][a-zà-ÿ'-]+)+,?(?:\\s+\\d{1,4}[A-Za-z]?)?,\\s*\\d{4}\\s+[A-Za-zà-ÿ'-]+"
score: 1.0 score: 1.0
context: ["demeurant", "adresse", "siège social", "bureaux situés"] context: ["demeurant", "adresse", "siège social", "bureaux situés"]
- name: BelgianPhoneRecognizer - name: BelgianPhoneRecognizer
supported_language: fr supported_language: fr
supported_entity: BE_PHONE_NUMBER supported_entity: BE_PHONE_NUMBER
patterns: patterns:
- name: Numéro téléphone Belge (fixe ou mobile) - name: Numéro téléphone Belge (fixe ou mobile)
regex: "\\b0[1-9](?:[./\\s]?\\d{2,3}){3}\\b" regex: "\\b0[1-9](?:[./\\s]?\\d{2,3}){3}\\b"
score: 0.8 # score abaissé pour éviter concurrence avec IBAN score: 0.95
context: ["Tel", "Tél", "téléphone", "gsm", "mobile"] context: ["Tel", "Tél", "téléphone", "gsm", "mobile"]
- name: SmartOrganizationRecognizer - name: SmartOrganizationRecognizer
@@ -77,7 +72,7 @@ recognizer_registry:
regex: "\\b(SPRL|SRL|SA|SCS|SNC)\\s+([A-Z][a-zà-ÿ]+(?:\\s[A-Z][a-zà-ÿ]+)*)\\b" regex: "\\b(SPRL|SRL|SA|SCS|SNC)\\s+([A-Z][a-zà-ÿ]+(?:\\s[A-Z][a-zà-ÿ]+)*)\\b"
score: 0.9 score: 0.9
context: ["société", "entreprise", "gérant de la"] context: ["société", "entreprise", "gérant de la"]
- name: ProfessionalIdRecognizer - name: ProfessionalIdRecognizer
supported_language: fr supported_language: fr
supported_entity: BE_PRO_ID supported_entity: BE_PRO_ID
@@ -111,7 +106,7 @@ recognizer_registry:
patterns: patterns:
- name: IBAN Pattern - name: IBAN Pattern
regex: "\\b[A-Z]{2}[0-9]{2}(?:\\s[0-9]{4}){3}\\b" regex: "\\b[A-Z]{2}[0-9]{2}(?:\\s[0-9]{4}){3}\\b"
score: 0.95 score: 1.0
context: ["iban", "compte"] context: ["iban", "compte"]
- name: BelgianNRNRecognizer - name: BelgianNRNRecognizer
@@ -142,10 +137,8 @@ recognizer_registry:
- name: IPv6 - name: IPv6
regex: "\\b([0-9a-fA-F]{1,4}:){7}[0-9a-fA-F]{1,4}\\b" regex: "\\b([0-9a-fA-F]{1,4}:){7}[0-9a-fA-F]{1,4}\\b"
score: 0.9 score: 0.9
# Pas de contexte pour détecter partout # contexte volontairement omis pour meilleure détection
# 3. LISTE D'EXCLUSION
# =====================================================================
allow_list: allow_list:
- Adresse - Adresse
- ADRESSE - ADRESSE
@@ -198,14 +191,12 @@ allow_list:
- "montrent des irrégularités" - "montrent des irrégularités"
- "bénéficiaire" - "bénéficiaire"
# 4. CONFIGURATION DES TRANSFORMATIONS D'ANONYMISATION
# =====================================================================
anonymizer_config: anonymizer_config:
default_anonymizers: default_anonymizers:
PERSON: replace PERSON: replace
LOCATION: replace LOCATION: replace
ORGANIZATION: replace ORGANIZATION: replace
DATE_TIME: replace DATE_TIME: replace
MONEY: replace MONEY: replace
EMAIL_ADDRESS: replace EMAIL_ADDRESS: replace
IBAN: replace IBAN: replace
@@ -217,7 +208,7 @@ anonymizer_config:
BE_ADDRESS: replace BE_ADDRESS: replace
BE_PRO_ID: replace BE_PRO_ID: replace
IP_ADDRESS: replace IP_ADDRESS: replace
replacements: replacements:
PERSON: "<PERSONNE>" PERSON: "<PERSONNE>"
LOCATION: "<LIEU>" LOCATION: "<LIEU>"