diff --git a/conf/default.yaml b/conf/default.yaml index d824dd6..be2b163 100644 --- a/conf/default.yaml +++ b/conf/default.yaml @@ -1,10 +1,8 @@ # ===================================================================== -# CONFIGURATION PRESIDIO - v27 +# CONFIGURATION PRESIDIO - Minimal Full Working # ===================================================================== supported_languages: [en, fr] -# 1. CONFIGURATION DU MOTEUR NLP (INCHANGÉ) -# ===================================================================== nlp_configuration: nlp_engine_name: spacy models: @@ -30,11 +28,8 @@ nlp_configuration: PERSON: 0.85 ORGANIZATION: 0.55 -# 2. CONFIGURATION DU REGISTRE DES DÉTECTEURS (AVEC L'AJOUT POUR LES WARNINGS) -# ===================================================================== recognizer_registry: load_predefined_recognizers: true - recognizers: - name: FlexibleDateRecognizer supported_language: fr @@ -56,14 +51,14 @@ recognizer_registry: regex: "\\b(?:\\d{1,4}[A-Za-z]?(?:\\s*,)?\\s+)?(?:Avenue|Rue|Boulevard|Chaussée|Place|Quai|Impasse|Drève)(?:\\s+(?:de|la|le|d'|des))?(?:\\s+[A-Z][a-zà-ÿ'-]+)+,?(?:\\s+\\d{1,4}[A-Za-z]?)?,\\s*\\d{4}\\s+[A-Za-zà-ÿ'-]+" score: 1.0 context: ["demeurant", "adresse", "siège social", "bureaux situés"] - + - name: BelgianPhoneRecognizer supported_language: fr supported_entity: BE_PHONE_NUMBER patterns: - name: Numéro téléphone Belge (fixe ou mobile) regex: "\\b0[1-9](?:[./\\s]?\\d{2,3}){3}\\b" - score: 0.8 # score abaissé pour éviter concurrence avec IBAN + score: 0.95 context: ["Tel", "Tél", "téléphone", "gsm", "mobile"] - name: SmartOrganizationRecognizer @@ -77,7 +72,7 @@ recognizer_registry: regex: "\\b(SPRL|SRL|SA|SCS|SNC)\\s+([A-Z][a-zà-ÿ]+(?:\\s[A-Z][a-zà-ÿ]+)*)\\b" score: 0.9 context: ["société", "entreprise", "gérant de la"] - + - name: ProfessionalIdRecognizer supported_language: fr supported_entity: BE_PRO_ID @@ -111,7 +106,7 @@ recognizer_registry: patterns: - name: IBAN Pattern regex: "\\b[A-Z]{2}[0-9]{2}(?:\\s[0-9]{4}){3}\\b" - score: 0.95 + score: 1.0 context: ["iban", "compte"] - name: BelgianNRNRecognizer @@ -142,10 +137,8 @@ recognizer_registry: - name: IPv6 regex: "\\b([0-9a-fA-F]{1,4}:){7}[0-9a-fA-F]{1,4}\\b" score: 0.9 - # Pas de contexte pour détecter partout + # contexte volontairement omis pour meilleure détection -# 3. LISTE D'EXCLUSION -# ===================================================================== allow_list: - Adresse - ADRESSE @@ -198,14 +191,12 @@ allow_list: - "montrent des irrégularités" - "bénéficiaire" -# 4. CONFIGURATION DES TRANSFORMATIONS D'ANONYMISATION -# ===================================================================== anonymizer_config: default_anonymizers: PERSON: replace LOCATION: replace ORGANIZATION: replace - DATE_TIME: replace + DATE_TIME: replace MONEY: replace EMAIL_ADDRESS: replace IBAN: replace @@ -217,7 +208,7 @@ anonymizer_config: BE_ADDRESS: replace BE_PRO_ID: replace IP_ADDRESS: replace - + replacements: PERSON: "" LOCATION: ""