presidio modulaire

2025-09-07 12:29:08 +02:00
parent 85d95d05e5
commit c62e5b92d5
42 changed files with 1802 additions and 324 deletions
--- a/conf/recognizers/Business/belgian/enterprise_numbers.yaml
+++ b/conf/recognizers/Business/belgian/enterprise_numbers.yaml
@@ -0,0 +1,24 @@
+# Recognizer pour numéros d'entreprise belges
+recognizer_registry:
+  recognizers:
+    - name: BelgianEnterpriseRecognizer
+      supported_language: fr
+      supported_entity: BE_ENTERPRISE_NUMBER
+      patterns:
+        - name: Numéro BCE avec deux points
+          regex: "(?<=\\bBCE\\s*:\\s*)((BE)?\\s?0\\d{3}[\\.\\s]?\\d{3}[\\.\\s]?\\d{3})\\b"
+          score: 1.0
+        - name: Numéro TVA avec deux points
+          regex: "(?<=\\bTVA\\s*:\\s*)(BE\\d{4}\\.\\d{3}\\.\\d{3})\\b"
+          score: 1.0
+        - name: Numéro d'entreprise général
+          regex: "(?<!(?:BCE|TVA)\\s*:\\s*)\\b(BE)?\\s?0\\d{3}[\\.\\s]?\\d{3}[\\.\\s]?\\d{3}\\b"
+          score: 0.9
+        - name: Numéro ONSS
+          regex: "\\bONSS\\s*:?\\s*\\d{7}\\b"
+          score: 0.95
+        - name: Numéro patronal
+          regex: "\\b(?:numéro\\s+)?patronal\\s*:?\\s*\\d{7}\\b"
+          score: 0.9
+      context:
+        ["TVA", "intracommunautaire", "ONSS", "entreprise", "patronal"]
--- a/conf/recognizers/Business/belgian/organization_names.yaml
+++ b/conf/recognizers/Business/belgian/organization_names.yaml
@@ -0,0 +1,28 @@
+# Recognizer pour noms d'organisations belges
+recognizer_registry:
+  recognizers:
+    - name: SmartOrganizationRecognizer
+      supported_language: fr
+      supported_entity: ORGANIZATION
+      patterns:
+        # Noms avec suffixes typiques d'entreprise
+        - name: Noms entreprise avec suffixes
+          regex: "\\b([A-Z][a-zA-Zà-ÿ]+(?:Consult|Tech|Soft|Digital|Solutions|Services|Group|Corp|Company|Systems|Data|Cloud|Web|Net|Info|Cyber|Smart|Pro|Expert|Plus|Max|Global|International|Europe|Belgium|Brussels|Wallonie|Flandre))\\b(?!\\s*\\([^)]*(?:BCE|TVA)[^)]*\\))"
+          score: 0.9
+
+        # Formes légales complètes avec nom d'entreprise
+        - name: Formes légales complètes
+          regex: "\\b((?:SPRL|SRL|SA|ASBL|SCS|SNC)\\s+[A-Z][a-zA-Zà-ÿ]+(?:\\s+[A-Z][a-zA-Zà-ÿ]+)*)(?!\\s*\\([^)]*(?:BCE|TVA)[^)]*\\))"
+          score: 0.95
+
+        # Noms d'entreprise avec contexte spécifique (garder pour autres cas)
+        - name: Noms avec contexte entreprise
+          regex: "(?<=\\b(?:société|entreprise)\\s+)([A-Z][a-zA-Zà-ÿ]+(?:\\s+[A-Z][a-zA-Zà-ÿ]+)*)(?!\\s*\\([^)]*(?:BCE|TVA)[^)]*\\))"
+          score: 0.85
+
+        # Noms précédés de "gérant de la"
+        - name: Noms après gérant
+          regex: "(?<=gérant\\s+de\\s+la\\s+)([A-Z][a-zA-Zà-ÿ]+(?:\\s+[A-Z][a-zA-Zà-ÿ]+)*)(?!\\s*\\([^)]*(?:BCE|TVA)[^)]*\\))"
+          score: 0.8
+
+      context: ["société", "entreprise", "gérant de la", "administrateur"]
--- a/conf/recognizers/Business/belgian/professional_ids.yaml
+++ b/conf/recognizers/Business/belgian/professional_ids.yaml
@@ -0,0 +1,20 @@
+# Recognizer pour identifiants professionnels belges
+recognizer_registry:
+  recognizers:
+    - name: BelgianProfessionalIdRecognizer
+      supported_language: fr
+      supported_entity: BE_PROFESSIONAL_ID
+      patterns:
+        - name: Numéro IEC avec deux points
+          regex: "(?<=\\bIEC\\s*:\\s*)\\d{6}\\b"
+          score: 1.0
+        - name: Numéro IEC général
+          regex: "(?<!IEC\\s*:\\s*)\\b(?:n°\\s*)?IEC\\s*:?\\s*\\d{6}\\b"
+          score: 0.9
+        - name: Numéro d'avocat
+          regex: "\\b(?:avocat\\s+)?n°\\s*\\d{4,6}\\b"
+          score: 0.8
+        - name: Numéro de médecin
+          regex: "\\b(?:Dr\\.|médecin)\\s*n°\\s*\\d{5,7}\\b"
+          score: 0.85
+      context: ["expert-comptable", "IEC", "avocat", "médecin", "professionnel"]
--- a/conf/recognizers/Business/french/siret_siren.yaml
+++ b/conf/recognizers/Business/french/siret_siren.yaml
@@ -0,0 +1,17 @@
+# Recognizer pour SIRET/SIREN français
+recognizer_registry:
+  recognizers:
+    - name: FrenchSIRETRecognizer
+      supported_language: fr
+      supported_entity: FR_SIRET
+      patterns:
+        - name: SIRET complet
+          regex: "\\b[0-9]{3}\\s?[0-9]{3}\\s?[0-9]{3}\\s?[0-9]{5}\\b"
+          score: 0.9
+        - name: SIREN
+          regex: "\\b[0-9]{3}\\s?[0-9]{3}\\s?[0-9]{3}\\b"
+          score: 0.85
+        - name: SIRET avec espaces
+          regex: "\\bSIRET\\s*:?\\s*[0-9]{3}\\s[0-9]{3}\\s[0-9]{3}\\s[0-9]{5}\\b"
+          score: 0.95
+      context: ["SIRET", "SIREN", "établissement", "entreprise", "société"]
--- a/conf/recognizers/Business/generic/market_share.yaml
+++ b/conf/recognizers/Business/generic/market_share.yaml
@@ -0,0 +1,34 @@
+# Recognizer pour parts de marché
+recognizer_registry:
+  recognizers:
+    - name: MarketShareRecognizer
+      supported_language: fr
+      supported_entity: MARKET_SHARE
+      patterns:
+        # Pourcentages de marché
+        - name: Market Share Percentage
+          regex: "\\b(?:détient|possède|contrôle|représente)?\\s*(?:environ\\s+)?(?:\\d{1,2}(?:[,.]\\d{1,2})?%)\\s*(?:de\\s+(?:part\\s+de\\s+)?marché|du\\s+marché|de\\s+parts?)\\b"
+          score: 0.9
+        
+        # Positions de marché
+        - name: Market Position
+          regex: "\\b(?:leader|numéro\\s+\\d+|\\d+(?:er|ème)\\s+acteur|position\\s+dominante|monopole)\\s+(?:du\\s+)?(?:marché|secteur)\\b"
+          score: 0.85
+        
+        # Parts relatives
+        - name: Relative Market Share
+          regex: "\\b(?:majoritaire|minoritaire|principale|significative)\\s+(?:part\\s+de\\s+)?marché\\b"
+          score: 0.8
+        
+        # Données de concentration
+        - name: Market Concentration
+          regex: "\\b(?:concentration|consolidation|fusion)\\s+(?:du\\s+)?marché\\b"
+          score: 0.75
+        
+        # Chiffres d'affaires relatifs
+        - name: Revenue Share
+          regex: "\\b(?:\\d{1,2}(?:[,.]\\d{1,2})?%)\\s*(?:du\\s+)?(?:chiffre\\s+d'affaires|CA|revenus?)\\s+(?:du\\s+)?(?:marché|secteur)\\b"
+          score: 0.85
+      
+      context:
+        ["part de marché", "position concurrentielle", "leader", "concurrent", "secteur", "industrie", "chiffre d'affaires", "revenus", "concentration", "monopole", "oligopole"]
--- a/conf/recognizers/PII/belgian/addresses.yaml
+++ b/conf/recognizers/PII/belgian/addresses.yaml
@@ -0,0 +1,44 @@
+# Recognizer pour adresses belges complètes
+recognizer_registry:
+  recognizers:
+    - name: BelgianAddressRecognizer
+      supported_language: fr
+      supported_entity: BE_ADDRESS
+      patterns:
+        # Pattern principal : numéro + rue + code postal + ville (SANS contexte)
+        - name: Adresse complète avec numéro devant
+          regex: "\\b\\d{1,4}[A-Za-z]?\\s+(?:Avenue|Rue|Boulevard|Chaussée|Place|Quai|Impasse|Drève|Clos|Allée)\\s+(?:de\\s+la\\s+|de\\s+|du\\s+|des\\s+|d'|la\\s+|le\\s+)?[A-ZÀ-Ÿ][a-zà-ÿ'-]+(?:\\s+[A-ZÀ-Ÿ][a-zà-ÿ'-]+)*\\s*,\\s*[1-9]\\d{3}\\s+[A-ZÀ-Ÿ][a-zà-ÿ'-]+(?:\\s+[A-ZÀ-Ÿ][a-zà-ÿ'-]+)*"
+          score: 1.0
+
+        # Pattern avec lookbehind positif pour exclure "demeurant" de la capture
+        - name: Adresse après contexte demeurant
+          regex: "(?<=\\bdemeurant\\s)\\d{1,4}[A-Za-z]?\\s+(?:Avenue|Rue|Boulevard|Chaussée|Place|Quai|Impasse|Drève|Clos|Allée)\\s+(?:de\\s+la\\s+|de\\s+|du\\s+|des\\s+|d'|la\\s+|le\\s+)?[A-ZÀ-Ÿ][a-zà-ÿ'-]+(?:\\s+[A-ZÀ-Ÿ][a-zà-ÿ'-]+)*\\s*,\\s*[1-9]\\d{3}\\s+[A-ZÀ-Ÿ][a-zà-ÿ'-]+(?:\\s+[A-ZÀ-Ÿ][a-zà-ÿ'-]+)*"
+          score: 1.0
+
+        # Pattern avec lookbehind pour autres contextes
+        - name: Adresse après contexte résidant
+          regex: "(?<=\\b(?:résidant|domicilié|habite|situé)\\s)\\d{1,4}[A-Za-z]?\\s+(?:Avenue|Rue|Boulevard|Chaussée|Place|Quai|Impasse|Drève|Clos|Allée)\\s+(?:de\\s+la\\s+|de\\s+|du\\s+|des\\s+|d'|la\\s+|le\\s+)?[A-ZÀ-Ÿ][a-zà-ÿ'-]+(?:\\s+[A-ZÀ-Ÿ][a-zà-ÿ'-]+)*\\s*,\\s*[1-9]\\d{3}\\s+[A-ZÀ-Ÿ][a-zà-ÿ'-]+(?:\\s+[A-ZÀ-Ÿ][a-zà-ÿ'-]+)*"
+          score: 1.0
+
+        # Pattern avec lookbehind pour contexte bureaux
+        - name: Adresse après contexte bureaux
+          regex: "(?<=\\b(?:dans les bureaux situés|siège social situé)\\s)\\d{1,4}[A-Za-z]?\\s+(?:Avenue|Rue|Boulevard|Chaussée|Place|Quai|Impasse|Drève|Clos|Allée)\\s+(?:de\\s+la\\s+|de\\s+|du\\s+|des\\s+|d'|la\\s+|le\\s+)?[A-ZÀ-Ÿ][a-zà-ÿ'-]+(?:\\s+[A-ZÀ-Ÿ][a-zà-ÿ'-]+)*\\s*,\\s*[1-9]\\d{3}\\s+[A-ZÀ-Ÿ][a-zà-ÿ'-]+(?:\\s+[A-ZÀ-Ÿ][a-zà-ÿ'-]+)*"
+          score: 0.9
+
+        # Pattern alternatif : rue + numéro + ville (format classique)
+        - name: Adresse format classique
+          regex: "\\b(?:Avenue|Rue|Boulevard|Chaussée|Place|Quai|Impasse|Drève|Clos|Allée)\\s+(?:de\\s+la\\s+|de\\s+|du\\s+|des\\s+|d'|la\\s+|le\\s+)?[A-ZÀ-Ÿ][a-zà-ÿ'-]+(?:\\s+[A-ZÀ-Ÿ][a-zà-ÿ'-]+)*(?:\\s*,?\\s*\\d{1,4}[A-Za-z]?)?\\s*,\\s*[1-9]\\d{3}\\s+[A-ZÀ-Ÿ][a-zà-ÿ'-]+(?:\\s+[A-ZÀ-Ÿ][a-zà-ÿ'-]+)*"
+          score: 0.8
+
+      context:
+        [
+          "demeurant",
+          "résidant",
+          "domicilié",
+          "habite",
+          "situé au",
+          "sis à",
+          "dans les bureaux situés",
+          "siège social",
+          "adresse",
+        ]
--- a/conf/recognizers/PII/belgian/documents.yaml
+++ b/conf/recognizers/PII/belgian/documents.yaml
@@ -0,0 +1,26 @@
+# Recognizer pour documents belges
+recognizer_registry:
+  recognizers:
+    - name: BelgianIDCardRecognizer
+      supported_language: fr
+      supported_entity: BE_ID_CARD
+      patterns:
+        - name: Carte d'identité belge
+          regex: "\\b[0-9]{3}\\-[0-9]{7}\\-[0-9]{2}\\b"
+          score: 0.95
+        - name: eID compact
+          regex: "\\b[0-9]{12}\\b"
+          score: 0.8
+      context: ["carte d'identité", "eID", "identiteitskaart", "pièce d'identité"]
+
+    - name: BelgianPassportRecognizer
+      supported_language: fr
+      supported_entity: BE_PASSPORT
+      patterns:
+        - name: Passeport belge
+          regex: "\\b[A-Z]{2}[0-9]{6}\\b"
+          score: 0.95
+        - name: Passeport avec espaces
+          regex: "\\b[A-Z]{2}\\s[0-9]{6}\\b"
+          score: 0.9
+      context: ["passeport", "passport", "paspoort", "document de voyage"]
--- a/conf/recognizers/PII/belgian/national_register.yaml
+++ b/conf/recognizers/PII/belgian/national_register.yaml
@@ -0,0 +1,25 @@
+# Recognizer pour numéro de registre national belge
+recognizer_registry:
+  recognizers:
+    - name: BelgianNRNRecognizer
+      supported_language: fr
+      supported_entity: BE_NATIONAL_REGISTER_NUMBER
+      patterns:
+        - name: NRN avec points et tiret
+          regex: "\\b[0-9]{2}\\.[0-9]{2}\\.[0-9]{2}-[0-9]{3}\\.[0-9]{2}\\b"
+          score: 1.0
+        - name: NRN compact
+          regex: "\\b[0-9]{11}\\b"
+          score: 0.7
+        - name: NRN avec espaces
+          regex: "\\b[0-9]{2}\\s[0-9]{2}\\s[0-9]{2}\\s[0-9]{3}\\s[0-9]{2}\\b"
+          score: 0.8
+      context:
+        [
+          "registre national",
+          "numéro national",
+          "NN",
+          "RN",
+          "identité",
+          "carte d'identité",
+        ]
--- a/conf/recognizers/PII/belgian/phones.yaml
+++ b/conf/recognizers/PII/belgian/phones.yaml
@@ -0,0 +1,44 @@
+# Recognizer pour numéros de téléphone belges
+recognizer_registry:
+  recognizers:
+    - name: BelgianPhoneRecognizer
+      supported_language: fr
+      supported_entity: BE_PHONE_NUMBER
+      patterns:
+        # Patterns avec contexte Tel: et Tél:
+        - name: Téléphone fixe avec contexte Tel
+          regex: '(?<=Tel\s*:\s*)0[1-9](?:[./\s]?\d{2,3}){3}(?=\s|\)|$|[.,;])'
+          score: 0.99
+        - name: Téléphone fixe avec contexte Tél
+          regex: '(?<=Tél\s*:\s*)0[1-9](?:[./\s]?\d{2,3}){3}(?=\s|\)|$|[.,;])'
+          score: 0.99
+        - name: Mobile avec contexte Tel
+          regex: '(?<=Tel\s*:\s*)04[0-9]{2}[./\s]?[0-9]{2}[./\s]?[0-9]{2}[./\s]?[0-9]{2}(?=\s|\)|$|[.,;])'
+          score: 0.99
+        - name: Mobile avec contexte Tél
+          regex: '(?<=Tél\s*:\s*)04[0-9]{2}[./\s]?[0-9]{2}[./\s]?[0-9]{2}[./\s]?[0-9]{2}(?=\s|\)|$|[.,;])'
+          score: 0.99
+        # Patterns généraux (sans contexte spécifique)
+        - name: Téléphone fixe belge
+          regex: '(?<!BCE\s*:?\s*)\b0[1-9](?:[./\s]?\d{2,3}){3}(?=\b|\)|$|[.,;])(?!.*BCE)'
+          score: 0.95
+        - name: Mobile belge
+          regex: '\b04[0-9]{2}[./\s]?[0-9]{2}[./\s]?[0-9]{2}[./\s]?[0-9]{2}(?=\b|\)|$|[.,;])'
+          score: 0.98
+        - name: International belge
+          regex: '\+32\s?[1-9](?:[./\s]?\d{2,3}){3}(?=\b|\)|$|[.,;])'
+          score: 0.99
+        - name: Numéro vert belge
+          regex: '\b0800[./\s]?[0-9]{2}[./\s]?[0-9]{3}(?=\b|\)|$|[.,;])'
+          score: 0.9
+      context:
+        [
+          "Tel",
+          "Tél",
+          "téléphone",
+          "gsm",
+          "mobile",
+          "portable",
+          "appeler",
+          "joindre",
+        ]
--- a/conf/recognizers/PII/french/addresses.yaml
+++ b/conf/recognizers/PII/french/addresses.yaml
@@ -0,0 +1,14 @@
+# Recognizer pour adresses françaises
+recognizer_registry:
+  recognizers:
+    - name: FrenchAddressRecognizer
+      supported_language: fr
+      supported_entity: FR_ADDRESS
+      patterns:
+        - name: Adresse française complète
+          regex: "\\b\\d{1,4}(?:bis|ter|quater)?\\s+(?:rue|avenue|boulevard|place|impasse|allée|chemin|route)\\s+[A-Za-zà-ÿ\\s'-]+,\\s*[0-9]{5}\\s+[A-Za-zà-ÿ\\s'-]+\\b"
+          score: 0.95
+        - name: Code postal français
+          regex: "\\b[0-9]{5}\\b"
+          score: 0.6
+      context: ["adresse", "domicile", "résidence", "siège social"]
--- a/conf/recognizers/PII/french/documents.yaml
+++ b/conf/recognizers/PII/french/documents.yaml
@@ -0,0 +1,39 @@
+# Recognizer pour documents d'identité français
+recognizer_registry:
+  recognizers:
+    - name: FrenchIDCardRecognizer
+      supported_language: fr
+      supported_entity: FR_ID_CARD
+      patterns:
+        - name: Numéro CNI nouveau format
+          regex: "\\b[0-9]{12}\\b"
+          score: 0.85
+        - name: Numéro CNI avec espaces
+          regex: "\\b[0-9]{4}\\s[0-9]{4}\\s[0-9]{4}\\b"
+          score: 0.9
+      context:
+        ["carte d'identité", "CNI", "pièce d'identité", "numéro d'identité"]
+
+    - name: FrenchPassportRecognizer
+      supported_language: fr
+      supported_entity: FR_PASSPORT
+      patterns:
+        - name: Numéro de passeport français
+          regex: "\\b[0-9]{2}[A-Z]{2}[0-9]{5}\\b"
+          score: 0.95
+        - name: Passeport avec espaces
+          regex: "\\b[0-9]{2}\\s[A-Z]{2}\\s[0-9]{5}\\b"
+          score: 0.9
+      context: ["passeport", "passport", "document de voyage"]
+
+    - name: FrenchDriverLicenseRecognizer
+      supported_language: fr
+      supported_entity: FR_DRIVER_LICENSE
+      patterns:
+        - name: Permis de conduire français
+          regex: "\\b[0-9]{12}\\b"
+          score: 0.8
+        - name: Permis avec format
+          regex: "\\b(?:permis\\s+(?:de\\s+)?conduire\\s*:?\\s*)?[0-9]{4}\\s?[0-9]{4}\\s?[0-9]{4}\\b"
+          score: 0.9
+      context: ["permis de conduire", "permis", "conduire", "licence"]
--- a/conf/recognizers/PII/french/financial.yaml
+++ b/conf/recognizers/PII/french/financial.yaml
@@ -0,0 +1,26 @@
+# Recognizer pour données financières françaises
+recognizer_registry:
+  recognizers:
+    - name: FrenchTaxIDRecognizer
+      supported_language: fr
+      supported_entity: FR_TAX_ID
+      patterns:
+        - name: Numéro fiscal français
+          regex: "\\b[0-9]{13}\\b"
+          score: 0.85
+        - name: Référence fiscale
+          regex: "\\b(?:numéro\\s+fiscal\\s*:?\\s*)?[0-9]{4}\\s?[0-9]{4}\\s?[0-9]{5}\\b"
+          score: 0.9
+      context: ["numéro fiscal", "référence fiscale", "impôts", "SIP"]
+
+    - name: FrenchBankAccountRecognizer
+      supported_language: fr
+      supported_entity: FR_BANK_ACCOUNT
+      patterns:
+        - name: RIB français
+          regex: "\\b[0-9]{5}\\s[0-9]{5}\\s[0-9]{11}\\s[0-9]{2}\\b"
+          score: 0.95
+        - name: Numéro de compte
+          regex: "\\b(?:compte\\s*:?\\s*)?[0-9]{5}[0-9]{5}[0-9]{11}[0-9]{2}\\b"
+          score: 0.9
+      context: ["RIB", "compte bancaire", "numéro de compte", "relevé"]
--- a/conf/recognizers/PII/french/social_security.yaml
+++ b/conf/recognizers/PII/french/social_security.yaml
@@ -0,0 +1,18 @@
+# Recognizer pour numéros INSEE français
+recognizer_registry:
+  recognizers:
+    - name: FrenchINSEERecognizer
+      supported_language: fr
+      supported_entity: FR_SOCIAL_SECURITY_NUMBER
+      patterns:
+        - name: INSEE complet avec espaces
+          regex: "\\b[12]\\s*[0-9]{2}\\s*(?:0[1-9]|1[0-2])\\s*(?:2[ABab]|[0-9]{2})\\s*[0-9]{3}\\s*[0-9]{3}[\\s]?[0-9]{2}\\b"
+          score: 0.95
+        - name: NIR compact
+          regex: "\\b[12][0-9]{12}[0-9]{2}\\b"
+          score: 0.85
+        - name: INSEE avec tirets
+          regex: "\\b[12]-[0-9]{2}-[0-9]{2}-[0-9]{2}-[0-9]{3}-[0-9]{3}-[0-9]{2}\\b"
+          score: 0.9
+      context:
+        ["sécurité sociale", "insee", "nir", "numéro de sécu", "carte vitale"]
--- a/conf/recognizers/PII/generic/bank_accounts.yaml
+++ b/conf/recognizers/PII/generic/bank_accounts.yaml
@@ -0,0 +1,20 @@
+# Recognizer pour IBAN
+recognizer_registry:
+  recognizers:
+    - name: IbanRecognizer
+      supported_language: fr
+      supported_entity: IBAN
+      patterns:
+        - name: IBAN avec espaces
+          regex: "\\b[A-Z]{2}[0-9]{2}(?:\\s[0-9A-Z]{4}){3,7}\\b"
+          score: 1.0
+        - name: IBAN compact
+          regex: "\\b[A-Z]{2}[0-9]{2}[0-9A-Z]{12,30}\\b"
+          score: 0.9
+        - name: IBAN belge spécifique
+          regex: "\\bBE[0-9]{2}\\s?[0-9]{4}\\s?[0-9]{4}\\s?[0-9]{4}\\b"
+          score: 0.95
+        - name: IBAN français spécifique
+          regex: "\\bFR[0-9]{2}\\s?[0-9]{4}\\s?[0-9]{4}\\s?[0-9]{4}\\s?[0-9]{4}\\s?[0-9]{3}\\b"
+          score: 0.95
+      context: ["iban", "compte", "bancaire", "virement", "RIB"]
--- a/conf/recognizers/PII/generic/biometric_data.yaml
+++ b/conf/recognizers/PII/generic/biometric_data.yaml
@@ -0,0 +1,14 @@
+# Recognizer pour données biométriques
+recognizer_registry:
+  recognizers:
+    - name: BiometricDataRecognizer
+      supported_language: fr
+      supported_entity: BIOMETRIC_DATA
+      patterns:
+        - name: Données biométriques
+          regex: "\\b(?:empreinte(?:s)?\\s+digitale(?:s)?|reconnaissance\\s+faciale|scan\\s+(?:iris|rétine)|biométrie|ADN|profil\\s+génétique)\\b"
+          score: 0.95
+        - name: Identifiants biométriques
+          regex: "\\b(?:template|hash)\\s+biométrique\\s*:?\\s*[A-F0-9]{32,}\\b"
+          score: 0.9
+      context: ["biométrie", "empreinte", "reconnaissance", "scan", "identification"]
--- a/conf/recognizers/PII/generic/dates.yaml
+++ b/conf/recognizers/PII/generic/dates.yaml
@@ -0,0 +1,74 @@
+recognizer_registry:
+  recognizers:
+    - name: DateTimeRecognizer
+      supported_language: fr
+      supported_entity: DATE_TIME
+      patterns:
+        # Formats français standards avec différents séparateurs
+        - name: Date française DD/MM/YYYY
+          regex: "\\b(?:0?[1-9]|[12][0-9]|3[01])/(?:0?[1-9]|1[0-2])/(?:19|20)\\d{2}\\b"
+          score: 0.95
+
+        - name: Date française DD-MM-YYYY
+          regex: "\\b(?:0?[1-9]|[12][0-9]|3[01])-(?:0?[1-9]|1[0-2])-(?:19|20)\\d{2}\\b"
+          score: 0.95
+
+        - name: Date française DD MM YYYY (espaces)
+          regex: "\\b(?:0?[1-9]|[12][0-9]|3[01])\\s+(?:0?[1-9]|1[0-2])\\s+(?:19|20)\\d{2}\\b"
+          score: 0.9
+
+        - name: Date ISO YYYY-MM-DD
+          regex: "\\b(?:19|20)\\d{2}-(?:0[1-9]|1[0-2])-(?:0[1-9]|[12][0-9]|3[01])\\b"
+          score: 0.98
+
+        # Dates avec mois en lettres (joli format)
+        - name: Date avec mois en lettres
+          regex: "\\b(?:0?[1-9]|[12][0-9]|3[01])\\s+(?:janvier|février|mars|avril|mai|juin|juillet|août|septembre|octobre|novembre|décembre)\\s+(?:19|20)\\d{2}\\b"
+          score: 0.99
+
+        # Format belge DD.MM.YYYY
+        - name: Date belge DD.MM.YYYY
+          regex: "\\b(?:0?[1-9]|[12][0-9]|3[01])\\.(?:0?[1-9]|1[0-2])\\.(?:19|20)\\d{2}\\b"
+          score: 0.95
+
+        # Heures (HH:MM et HH:MM:SS)
+        - name: Heure HH:MM(:SS)?
+          regex: "\\b(?:[01]?[0-9]|2[0-3]):[0-5][0-9](?::[0-5][0-9])?\\b"
+          score: 0.85
+
+        # Date et heure combinées (ex: 12/05/2023 14:30)
+        - name: Date et heure combinées
+          regex: "\\b(?:0?[1-9]|[12][0-9]|3[01])[/-](?:0?[1-9]|1[0-2])[/-](?:19|20)\\d{2}\\s+(?:[01]?[0-9]|2[0-3]):[0-5][0-9](?::[0-5][0-9])?\\b"
+          score: 0.97
+
+        # Années seules dans un contexte fort
+        - name: Année avec contexte
+          regex: "\\b(?:en|depuis|année|an|né en|décédé en)\\s+(?:19|20)\\d{2}\\b"
+          score: 0.8
+
+      context:
+        [
+          "date",
+          "né le",
+          "née le",
+          "naissance",
+          "décès",
+          "décédé le",
+          "le",
+          "du",
+          "au",
+          "depuis",
+          "jusqu'au",
+          "entre",
+          "avant",
+          "après",
+          "heure",
+          "horaire",
+          "rendez-vous",
+          "réunion",
+          "événement",
+          "signature",
+          "signé le",
+          "établi le",
+          "fait le",
+        ]
--- a/conf/recognizers/PII/generic/emails.yaml
+++ b/conf/recognizers/PII/generic/emails.yaml
@@ -0,0 +1,18 @@
+# Recognizer pour adresses email
+recognizer_registry:
+  recognizers:
+    - name: EmailRecognizer
+      supported_language: fr
+      supported_entity: EMAIL_ADDRESS
+      patterns:
+        - name: Email standard
+          regex: "\\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Z|a-z]{2,}\\b"
+          score: 1.0
+        - name: Email obfusqué
+          regex: "\\b[A-Za-z0-9._%+-]+\\s*\\[at\\]\\s*[A-Za-z0-9.-]+\\s*\\[dot\\]\\s*[A-Z|a-z]{2,}\\b"
+          score: 0.8
+        - name: Email avec (at) et (point)
+          regex: "\\b[A-Za-z0-9._%+-]+\\s*\\(at\\)\\s*[A-Za-z0-9.-]+\\s*\\(point\\)\\s*[A-Z|a-z]{2,}\\b"
+          score: 0.7
+      context:
+        ["email", "courriel", "mail", "@", "contact", "adresse électronique"]
--- a/conf/recognizers/PII/generic/financial_data.yaml
+++ b/conf/recognizers/PII/generic/financial_data.yaml
@@ -0,0 +1,17 @@
+# Recognizer pour données financières RGPD
+recognizer_registry:
+  recognizers:
+    - name: RGPDFinancialDataRecognizer
+      supported_language: fr
+      supported_entity: RGPD_FINANCIAL_DATA
+      patterns:
+        - name: Numéro de carte bancaire
+          regex: "\\b(?:4[0-9]{12}(?:[0-9]{3})?|5[1-5][0-9]{14}|3[47][0-9]{13})\\b"
+          score: 1.0
+        - name: Code de sécurité
+          regex: "\\b(?:CVV|CVC|cryptogramme)\\s*:?\\s*[0-9]{3,4}\\b"
+          score: 0.95
+        - name: Revenus
+          regex: "\\b(?:salaire|revenu|rémunération)\\s*:?\\s*[0-9]{1,3}(?:[\\s.,][0-9]{3})*\\s*€?\\b"
+          score: 0.8
+      context: ["financier", "bancaire", "carte", "paiement", "salaire"]
--- a/conf/recognizers/PII/generic/health_data.yaml
+++ b/conf/recognizers/PII/generic/health_data.yaml
@@ -0,0 +1,17 @@
+# Recognizer pour données de santé
+recognizer_registry:
+  recognizers:
+    - name: HealthDataRecognizer
+      supported_language: fr
+      supported_entity: HEALTH_DATA
+      patterns:
+        - name: Informations médicales
+          regex: "\\b(?:maladie|pathologie|diagnostic|traitement|médicament|hospitalisation|chirurgie|opération|allergie|antécédent|symptôme)\\b"
+          score: 0.85
+        - name: Données médicales sensibles
+          regex: "\\b(?:VIH|SIDA|cancer|diabète|dépression|schizophrénie|bipolarité|addiction)\\b"
+          score: 0.95
+        - name: Professionnels de santé
+          regex: "\\b(?:Dr|Docteur|Médecin|Infirmier|Psychiatre|Psychologue)\\s+[A-Z][a-z]+\\b"
+          score: 0.9
+      context: ["santé", "médical", "hôpital", "clinique", "patient", "dossier médical"]
--- a/conf/recognizers/PII/generic/ip_addresses.yaml
+++ b/conf/recognizers/PII/generic/ip_addresses.yaml
@@ -0,0 +1,17 @@
+# Recognizer pour adresses IP
+recognizer_registry:
+  recognizers:
+    - name: IpAddressRecognizer
+      supported_language: fr
+      supported_entity: IP_ADDRESS
+      patterns:
+        - name: IPv4
+          regex: "\\b(?:(?:25[0-5]|2[0-4][0-9]|1[0-9]{2}|[1-9]?[0-9])\\.){3}(?:25[0-5]|2[0-4][0-9]|1[0-9]{2}|[1-9]?[0-9])\\b"
+          score: 1.0
+        - name: IPv6
+          regex: "\\b([0-9a-fA-F]{1,4}:){7}[0-9a-fA-F]{1,4}\\b"
+          score: 0.9
+        - name: IPv6 compressé
+          regex: "\\b([0-9a-fA-F]{1,4}:){1,7}:([0-9a-fA-F]{1,4}:){0,6}[0-9a-fA-F]{1,4}\\b"
+          score: 0.85
+      context: ["IP", "adresse", "serveur", "réseau", "connexion"]
--- a/conf/recognizers/PII/generic/political_opinions.yaml
+++ b/conf/recognizers/PII/generic/political_opinions.yaml
@@ -0,0 +1,11 @@
+# Recognizer pour opinions politiques
+recognizer_registry:
+  recognizers:
+    - name: PoliticalOpinionsRecognizer
+      supported_language: fr
+      supported_entity: POLITICAL_OPINIONS
+      patterns:
+        - name: Opinions politiques
+          regex: "\\b(?:vote|électeur|parti\\s+politique|opinion\\s+politique)\\b"
+          score: 0.7
+      context: ["données sensibles", "RGPD", "politique", "privé"]
--- a/conf/recognizers/PII/generic/sexual_orientation.yaml
+++ b/conf/recognizers/PII/generic/sexual_orientation.yaml
@@ -0,0 +1,11 @@
+# Recognizer pour orientation sexuelle
+recognizer_registry:
+  recognizers:
+    - name: SexualOrientationRecognizer
+      supported_language: fr
+      supported_entity: SEXUAL_ORIENTATION
+      patterns:
+        - name: Orientation sexuelle
+          regex: "\\b(?:homosexuel|hétérosexuel|bisexuel|orientation\\s+sexuelle)\\b"
+          score: 0.9
+      context: ["données sensibles", "RGPD", "orientation", "privé"]