# ===================================================================== # FICHIER DE CONFIGURATION MAÎTRE DE QUALITÉ PRODUCTION # ===================================================================== # 1. Configuration du moteur de langage (NLP) nlp_engine_name: spacy supported_languages: [en, fr] models: - lang_code: en model_name: en_core_web_lg - lang_code: fr model_name: fr_core_news_sm # 2. Configuration du comportement du moteur NLP # On ignore l'étiquette "MISC" pour éviter les faux positifs. ner_model_configuration: labels_to_ignore: - MISC # 3. Configuration des détecteurs (Recognizers) - LA PARTIE LA PLUS IMPORTANTE # On charge explicitement tous les outils dont nous avons besoin. recognizer_registry: # On charge le moteur principal pour les entités de base (PERSON, LOCATION, ORG) - name: SpacyRecognizer supported_language: fr - name: SpacyRecognizer supported_language: en # On charge TOUS les reconnaisseurs universels pertinents pour le RGPD - name: EmailRecognizer - name: PhoneRecognizer # --> Sera amélioré par notre règle custom - name: IbanRecognizer # --> Sera amélioré par notre règle custom - name: CreditCardRecognizer - name: DateRecognizer - name: UrlRecognizer - name: IpRecognizer - name: MedicalLicenseRecognizer - name: CryptoRecognizer # On charge TOUTES nos règles personnalisées - default - presidio_config.custom_recognizers.custom_recognizers # 4. Configuration de la post-analyse (Allow List) # Notre filet de sécurité pour les faux positifs. analysis_explanations: allow_list: - Contrat - contrat - Contrats - Document - document - Société - Investisseur - Montant - Intérêt - Intérêts - Partie - Parties - Annexe - Remboursement - Conversion - Financement - Sortie - Juste Valeur Marchande - Échéance - Clause - Clauses - Principe - Coûts - Notifications - Article - Paragraphe - Directeur - Gérant - Président