Update default.yaml
This commit is contained in:
@@ -11,14 +11,8 @@ models:
|
|||||||
model_name: en_core_web_lg
|
model_name: en_core_web_lg
|
||||||
- lang_code: fr
|
- lang_code: fr
|
||||||
model_name: fr_core_news_sm
|
model_name: fr_core_news_sm
|
||||||
|
# Configuration fine du modèle NLP pour réduire les faux positifs
|
||||||
# Configuration fine du modèle NLP pour réduire les faux positifs
|
ner_model_configuration:
|
||||||
ner_model_configuration:
|
|
||||||
confidence_threshold:
|
|
||||||
default: 0.65
|
|
||||||
PERSON: 0.85
|
|
||||||
LOCATION: 0.75
|
|
||||||
ORGANIZATION: 0.7
|
|
||||||
labels_to_ignore:
|
labels_to_ignore:
|
||||||
- MISC
|
- MISC
|
||||||
- CARDINAL
|
- CARDINAL
|
||||||
@@ -30,6 +24,12 @@ ner_model_configuration:
|
|||||||
- PRODUCT
|
- PRODUCT
|
||||||
- QUANTITY
|
- QUANTITY
|
||||||
- WORK_OF_ART
|
- WORK_OF_ART
|
||||||
|
confidence_thresholds:
|
||||||
|
DEFAULT_CONFIDENCE: 0.65
|
||||||
|
entities:
|
||||||
|
PERSON: 0.85
|
||||||
|
LOCATION: 0.75
|
||||||
|
ORGANIZATION: 0.7
|
||||||
|
|
||||||
# 2. DÉFINITION DES DÉTECTEURS (RECOGNIZERS) PERSONNALISÉS
|
# 2. DÉFINITION DES DÉTECTEURS (RECOGNIZERS) PERSONNALISÉS
|
||||||
# =====================================================================
|
# =====================================================================
|
||||||
@@ -119,12 +119,21 @@ recognizers:
|
|||||||
|
|
||||||
# 3. ACTIVATION DES DÉTECTEURS
|
# 3. ACTIVATION DES DÉTECTEURS
|
||||||
# =====================================================================
|
# =====================================================================
|
||||||
|
# Remplacer 'default' par la liste explicite pour éviter les warnings
|
||||||
recognizer_registry:
|
recognizer_registry:
|
||||||
- default
|
# - default # Remplacé par une liste explicite ci-dessous
|
||||||
- EmailRecognizer
|
# Détecteurs par défaut pour 'en' et 'fr' que nous voulons garder
|
||||||
- PhoneRecognizer
|
- SpacyRecognizer
|
||||||
- IbanRecognizer
|
|
||||||
- CreditCardRecognizer
|
- CreditCardRecognizer
|
||||||
|
- CryptoRecognizer
|
||||||
|
- DateRecognizer
|
||||||
|
- EmailRecognizer
|
||||||
|
- IbanRecognizer
|
||||||
|
- IpRecognizer
|
||||||
|
- MedicalLicenseRecognizer
|
||||||
|
- PhoneRecognizer
|
||||||
|
- UrlRecognizer
|
||||||
|
# Nos détecteurs personnalisés
|
||||||
- MoneyRecognizer
|
- MoneyRecognizer
|
||||||
- BelgianNRNRecognizer
|
- BelgianNRNRecognizer
|
||||||
- BelgianEnterpriseRecognizer
|
- BelgianEnterpriseRecognizer
|
||||||
@@ -133,6 +142,7 @@ recognizer_registry:
|
|||||||
|
|
||||||
# 4. LISTE D'EXCLUSION (ALLOW LIST)
|
# 4. LISTE D'EXCLUSION (ALLOW LIST)
|
||||||
# =====================================================================
|
# =====================================================================
|
||||||
|
# ... (votre liste est correcte) ...
|
||||||
allow_list:
|
allow_list:
|
||||||
- Contrat
|
- Contrat
|
||||||
- Document
|
- Document
|
||||||
@@ -197,7 +207,7 @@ anonymizer_config:
|
|||||||
DATE_TIME: replace
|
DATE_TIME: replace
|
||||||
CREDIT_CARD_NUMBER: replace
|
CREDIT_CARD_NUMBER: replace
|
||||||
EMAIL_ADDRESS: replace
|
EMAIL_ADDRESS: replace
|
||||||
IBAN_CODE: replace
|
# IBAN_CODE: replace # <-- Incohérent, le nom de l'entité est IBAN
|
||||||
IP_ADDRESS: replace
|
IP_ADDRESS: replace
|
||||||
PHONE_NUMBER: replace
|
PHONE_NUMBER: replace
|
||||||
URL: replace
|
URL: replace
|
||||||
@@ -215,7 +225,7 @@ anonymizer_config:
|
|||||||
DATE_TIME: "<DATE>"
|
DATE_TIME: "<DATE>"
|
||||||
CREDIT_CARD_NUMBER: "<NUMERO_CARTE_BANCAIRE>"
|
CREDIT_CARD_NUMBER: "<NUMERO_CARTE_BANCAIRE>"
|
||||||
EMAIL_ADDRESS: "<EMAIL>"
|
EMAIL_ADDRESS: "<EMAIL>"
|
||||||
IBAN_CODE: "<IBAN>"
|
# IBAN_CODE: "<IBAN>" # <-- Incohérent, le nom de l'entité est IBAN
|
||||||
IBAN: "<IBAN>"
|
IBAN: "<IBAN>"
|
||||||
IP_ADDRESS: "<ADRESSE_IP>"
|
IP_ADDRESS: "<ADRESSE_IP>"
|
||||||
PHONE_NUMBER: "<TELEPHONE>"
|
PHONE_NUMBER: "<TELEPHONE>"
|
||||||
|
|||||||
Reference in New Issue
Block a user