Update default.yaml

This commit is contained in:
Nacim
2025-06-23 15:45:46 +02:00
committed by GitHub
parent 81bdc02722
commit f4f2cf7a69

View File

@@ -11,14 +11,8 @@ models:
model_name: en_core_web_lg model_name: en_core_web_lg
- lang_code: fr - lang_code: fr
model_name: fr_core_news_sm model_name: fr_core_news_sm
# Configuration fine du modèle NLP pour réduire les faux positifs # Configuration fine du modèle NLP pour réduire les faux positifs
ner_model_configuration: ner_model_configuration:
confidence_threshold:
default: 0.65
PERSON: 0.85
LOCATION: 0.75
ORGANIZATION: 0.7
labels_to_ignore: labels_to_ignore:
- MISC - MISC
- CARDINAL - CARDINAL
@@ -30,6 +24,12 @@ ner_model_configuration:
- PRODUCT - PRODUCT
- QUANTITY - QUANTITY
- WORK_OF_ART - WORK_OF_ART
confidence_thresholds:
DEFAULT_CONFIDENCE: 0.65
entities:
PERSON: 0.85
LOCATION: 0.75
ORGANIZATION: 0.7
# 2. DÉFINITION DES DÉTECTEURS (RECOGNIZERS) PERSONNALISÉS # 2. DÉFINITION DES DÉTECTEURS (RECOGNIZERS) PERSONNALISÉS
# ===================================================================== # =====================================================================
@@ -119,12 +119,21 @@ recognizers:
# 3. ACTIVATION DES DÉTECTEURS # 3. ACTIVATION DES DÉTECTEURS
# ===================================================================== # =====================================================================
# Remplacer 'default' par la liste explicite pour éviter les warnings
recognizer_registry: recognizer_registry:
- default # - default # Remplacé par une liste explicite ci-dessous
- EmailRecognizer # Détecteurs par défaut pour 'en' et 'fr' que nous voulons garder
- PhoneRecognizer - SpacyRecognizer
- IbanRecognizer
- CreditCardRecognizer - CreditCardRecognizer
- CryptoRecognizer
- DateRecognizer
- EmailRecognizer
- IbanRecognizer
- IpRecognizer
- MedicalLicenseRecognizer
- PhoneRecognizer
- UrlRecognizer
# Nos détecteurs personnalisés
- MoneyRecognizer - MoneyRecognizer
- BelgianNRNRecognizer - BelgianNRNRecognizer
- BelgianEnterpriseRecognizer - BelgianEnterpriseRecognizer
@@ -133,6 +142,7 @@ recognizer_registry:
# 4. LISTE D'EXCLUSION (ALLOW LIST) # 4. LISTE D'EXCLUSION (ALLOW LIST)
# ===================================================================== # =====================================================================
# ... (votre liste est correcte) ...
allow_list: allow_list:
- Contrat - Contrat
- Document - Document
@@ -197,7 +207,7 @@ anonymizer_config:
DATE_TIME: replace DATE_TIME: replace
CREDIT_CARD_NUMBER: replace CREDIT_CARD_NUMBER: replace
EMAIL_ADDRESS: replace EMAIL_ADDRESS: replace
IBAN_CODE: replace # IBAN_CODE: replace # <-- Incohérent, le nom de l'entité est IBAN
IP_ADDRESS: replace IP_ADDRESS: replace
PHONE_NUMBER: replace PHONE_NUMBER: replace
URL: replace URL: replace
@@ -215,7 +225,7 @@ anonymizer_config:
DATE_TIME: "<DATE>" DATE_TIME: "<DATE>"
CREDIT_CARD_NUMBER: "<NUMERO_CARTE_BANCAIRE>" CREDIT_CARD_NUMBER: "<NUMERO_CARTE_BANCAIRE>"
EMAIL_ADDRESS: "<EMAIL>" EMAIL_ADDRESS: "<EMAIL>"
IBAN_CODE: "<IBAN>" # IBAN_CODE: "<IBAN>" # <-- Incohérent, le nom de l'entité est IBAN
IBAN: "<IBAN>" IBAN: "<IBAN>"
IP_ADDRESS: "<ADRESSE_IP>" IP_ADDRESS: "<ADRESSE_IP>"
PHONE_NUMBER: "<TELEPHONE>" PHONE_NUMBER: "<TELEPHONE>"