From 9e534b2b46915932f4b06fe29084897deedfed94 Mon Sep 17 00:00:00 2001 From: Nacim Date: Mon, 23 Jun 2025 12:02:57 +0200 Subject: [PATCH] Update default.yaml --- conf/default.yaml | 230 +++++++++++++++++++++++++++++++++++----------- 1 file changed, 175 insertions(+), 55 deletions(-) diff --git a/conf/default.yaml b/conf/default.yaml index f655d79..ce11bf5 100644 --- a/conf/default.yaml +++ b/conf/default.yaml @@ -1,61 +1,181 @@ -# Configuration NLP unifiée -nlp_configuration: - nlp_engine_name: spacy - models: - - lang_code: en - model_name: en_core_web_lg - - lang_code: fr - model_name: fr_core_news_sm +# ===================================================================== +# CONFIGURATION PRESIDIO POUR DOCUMENTS FRANÇAIS/BELGES +# ===================================================================== - ner_model_configuration: - model_to_presidio_entity_mapping: - PER: PERSON - PERSON: PERSON - ORG: ORGANIZATION - ORGANIZATION: ORGANIZATION - LOC: LOCATION - LOCATION: LOCATION - GPE: LOCATION - MISC: ORGANIZATION +# Configuration du moteur de langage (NLP) +nlp_engine_name: spacy +supported_languages: [en, fr] +models: + - lang_code: en + model_name: en_core_web_lg + - lang_code: fr + model_name: fr_core_news_sm - confidence_threshold: - default: 0.35 - EMAIL_ADDRESS: 0.4 - PHONE_NUMBER: 0.5 - PERSON: 0.6 +# Configuration du comportement du moteur NLP +ner_model_configuration: + labels_to_ignore: + - MISC + + confidence_threshold: + default: 0.6 + EMAIL_ADDRESS: 0.8 + PHONE_NUMBER: 0.8 + PERSON: 0.85 + LOCATION: 0.75 + MONEY: 0.85 - labels_to_ignore: - - MISC - - CARDINAL - - EVENT - - LANGUAGE - - LAW - - MONEY - - ORDINAL - - PERCENT - - PRODUCT - - QUANTITY - - WORK_OF_ART - -# Configuration des langues supportées -supported_languages: - - en - - fr - -# Configuration du registre +# Configuration des détecteurs (Recognizers) +# Ici, nous pointons directement vers le module Python que nous venons de créer. +# Presidio chargera tous les recognizers définis dans ce module. recognizer_registry: - - default + - default # Charger les détecteurs par défaut de Presidio + - custom_recognizers # Référence au dossier/module Python 'custom_recognizers' -# Liste d'exclusion pour éviter les faux positifs +# Liste des mots à ignorer (faux positifs courants) allow_list: - - Contrat - - Document - - Société - - Montant - - Partie - - Annexe - - Euro - - EUR - - Taux - - Valeur - - Prix + # Termes contractuels/juridiques/financiers génériques souvent mal labellisés + - text: Contrat + type: LOCATION + - text: contrat + type: LOCATION + - text: Contrats + type: LOCATION + - text: Document + type: LOCATION + - text: document + type: LOCATION + - text: Société + type: PERSON + - text: Investisseur + type: PERSON + - text: Montant + type: LOCATION + - text: Prêt + type: LOCATION + - text: Intérêt + type: LOCATION + - text: Intérêts + type: LOCATION + - text: Partie + type: LOCATION + - text: Parties + type: PERSON + - text: Annexe + type: LOCATION + - text: Remboursement + type: LOCATION + - text: Conversion + type: LOCATION + - text: Financement + type: LOCATION + - text: Sortie + type: LOCATION + - text: "Juste Valeur Marchande" + type: PERSON + - text: Échéance + type: LOCATION + - text: Clause + type: LOCATION + - text: Clauses + type: LOCATION + - text: Principe + type: LOCATION + - text: Coûts + type: PERSON + - text: Notifications + type: LOCATION + - text: Article + type: LOCATION + - text: Paragraphe + type: LOCATION + - text: Directeur + type: LOCATION + - text: Gérant + type: LOCATION + - text: Président + type: LOCATION + - text: DocuSign + type: PERSON + - text: SPRL + type: ORG + + # Termes financiers courants + - text: Euro + type: LOCATION + - text: EUR + type: LOCATION + - text: Euros + type: LOCATION + - text: Pourcentage + type: LOCATION + - text: Taux + type: LOCATION + - text: Valeur + type: LOCATION + - text: Prix + type: LOCATION + + # Termes juridiques + - text: Loi + type: LOCATION + - text: Code + type: LOCATION + - text: Règlement + type: LOCATION + - text: Décret + type: LOCATION + - text: Arrêté + type: LOCATION + + # Mois et dates génériques + - text: Janvier + type: LOCATION + - text: Février + type: LOCATION + - text: Mars + type: LOCATION + - text: Avril + type: LOCATION + - text: Mai + type: LOCATION + - text: Juin + type: LOCATION + - text: Juillet + type: LOCATION + - text: Août + type: LOCATION + - text: Septembre + type: LOCATION + - text: Octobre + type: LOCATION + - text: Novembre + type: LOCATION + - text: Décembre + +# Configuration des transformations d'anonymisation +anonymizer_config: + default_anonymizers: + PERSON: replace + EMAIL_ADDRESS: replace + PHONE_NUMBER: replace + BE_NATIONAL_REGISTER_NUMBER: replace + BE_ENTERPRISE_NUMBER: replace + FR_SOCIAL_SECURITY_NUMBER: replace + IBAN: replace + BE_BANK_ACCOUNT: replace + MONEY: replace + LOCATION: replace + ORG: replace + + replacements: + PERSON: "" + EMAIL_ADDRESS: "" + PHONE_NUMBER: "" + BE_NATIONAL_REGISTER_NUMBER: "" + BE_ENTERPRISE_NUMBER: "" + FR_SOCIAL_SECURITY_NUMBER: "" + IBAN: "" + BE_BANK_ACCOUNT: "" + MONEY: "" + LOCATION: "" + ORG: ""