From ca35002ff7890fc8d01e6c0c150fa67e92aa69da Mon Sep 17 00:00:00 2001 From: nacim Date: Wed, 30 Jul 2025 21:15:56 +0000 Subject: [PATCH] Actualiser conf/default.yaml --- conf/default.yaml | 41 ++++++++++++++++++++++++++++++++++++++++- 1 file changed, 40 insertions(+), 1 deletion(-) diff --git a/conf/default.yaml b/conf/default.yaml index be2b163..beb2737 100644 --- a/conf/default.yaml +++ b/conf/default.yaml @@ -1,5 +1,5 @@ # ===================================================================== -# CONFIGURATION PRESIDIO - Minimal Full Working +# CONFIGURATION PRESIDIO - v.1 # ===================================================================== supported_languages: [en, fr] @@ -31,6 +31,7 @@ nlp_configuration: recognizer_registry: load_predefined_recognizers: true recognizers: + # --- Reconnaisseurs existants --- - name: FlexibleDateRecognizer supported_language: fr supported_entity: FLEXIBLE_DATE @@ -139,6 +140,38 @@ recognizer_registry: score: 0.9 # contexte volontairement omis pour meilleure détection + # --- NOUVEAUX RECONNAISSEURS AJOUTÉS --- + - name: CreditCardRecognizer + supported_language: fr + supported_entity: CREDIT_CARD_NUMBER + patterns: + - name: Numéro de carte de crédit (15-16 chiffres) + # Gère les formats avec ou sans espaces/tirets + regex: "\\b(?:\\d{4}[-\\s]?\\d{4}[-\\s]?\\d{4}[-\\s]?\\d{3,4})\\b" + score: 1.0 + context: ["carte bancaire", "carte de crédit", "numéro de carte", "CB", "visa", "mastercard"] + + - name: PasswordRecognizer + supported_language: fr + supported_entity: PASSWORD + patterns: + - name: Mot de passe potentiel (contexte requis) + # Détecte une chaîne de 8 à 32 caractères avec des lettres, chiffres et symboles courants. + # La détection repose fortement sur les mots-clés du contexte. + regex: "\\b[a-zA-Z0-9!@#$%^&*()\\-_=+]{8,32}\\b" + score: 0.4 # Score faible car le pattern est générique, le contexte est clé. + context: ["mot de passe", "password", "mdp", "code secret"] + + - name: FrenchPostalCodeRecognizer + supported_language: fr + supported_entity: FR_POSTAL_CODE + patterns: + - name: Code Postal Français (5 chiffres) + regex: "\\b(?!00000)\\d{5}\\b" + score: 0.7 + context: ["code postal", "cedex", "CP"] + + allow_list: - Adresse - ADRESSE @@ -208,6 +241,9 @@ anonymizer_config: BE_ADDRESS: replace BE_PRO_ID: replace IP_ADDRESS: replace + CREDIT_CARD_NUMBER: replace + PASSWORD: replace + FR_POSTAL_CODE: replace replacements: PERSON: "" @@ -225,3 +261,6 @@ anonymizer_config: BE_ADDRESS: "" BE_PRO_ID: "" IP_ADDRESS: "" + CREDIT_CARD_NUMBER: "" + PASSWORD: "" + FR_POSTAL_CODE: "" \ No newline at end of file