This commit is contained in:
Biqoz
2025-09-15 19:04:38 +02:00
parent 3e70181b58
commit 3f9c007c9e
46 changed files with 919 additions and 146 deletions

View File

@@ -0,0 +1,34 @@
# Recognizer pour formes juridiques belges
recognizer_registry:
recognizers:
- name: BelgianCompanyFormsRecognizer
supported_language: fr
supported_entity: SOCIETE_BELGE
patterns:
- name: SRL avec nom
regex: "\\b(?:SRL|Srl)\\s+[A-ZÀ-Ÿ][a-zà-ÿ\\s&'-]+\\b"
score: 0.95
- name: SA avec nom
regex: "\\b(?:SA|Sa)\\s+[A-ZÀ-Ÿ][a-zà-ÿ\\s&'-]+\\b"
score: 0.95
- name: ASBL avec nom
regex: "\\b(?:ASBL|Asbl)\\s+[A-ZÀ-Ÿ][a-zà-ÿ\\s&'-]+\\b"
score: 0.95
- name: SC avec nom
regex: "\\b(?:SC|Sc)\\s+[A-ZÀ-Ÿ][a-zà-ÿ\\s&'-]+\\b"
score: 0.9
- name: SNC avec nom
regex: "\\b(?:SNC|Snc)\\s+[A-ZÀ-Ÿ][a-zà-ÿ\\s&'-]+\\b"
score: 0.9
- name: SComm avec nom
regex: "\\b(?:SComm|Scomm)\\s+[A-ZÀ-Ÿ][a-zà-ÿ\\s&'-]+\\b"
score: 0.9
context:
[
"société",
"entreprise",
"forme juridique",
"statut",
"commercial",
"association",
]

View File

@@ -3,7 +3,7 @@ recognizer_registry:
recognizers:
- name: BelgianEnterpriseRecognizer
supported_language: fr
supported_entity: BE_ENTERPRISE_NUMBER
supported_entity: NUMERO_ENTREPRISE_BELGE
patterns:
- name: Numéro BCE avec deux points
regex: "(?<=\\bBCE\\s*:\\s*)((BE)?\\s?0\\d{3}[\\.\\s]?\\d{3}[\\.\\s]?\\d{3})\\b"
@@ -20,5 +20,4 @@ recognizer_registry:
- name: Numéro patronal
regex: "\\b(?:numéro\\s+)?patronal\\s*:?\\s*\\d{7}\\b"
score: 0.9
context:
["TVA", "intracommunautaire", "ONSS", "entreprise", "patronal"]
context: ["TVA", "intracommunautaire", "ONSS", "entreprise", "patronal"]

View File

@@ -3,7 +3,7 @@ recognizer_registry:
recognizers:
- name: SmartOrganizationRecognizer
supported_language: fr
supported_entity: ORGANIZATION
supported_entity: ORGANISATION
patterns:
# Noms avec suffixes typiques d'entreprise
- name: Noms entreprise avec suffixes

View File

@@ -3,7 +3,7 @@ recognizer_registry:
recognizers:
- name: BelgianProfessionalIdRecognizer
supported_language: fr
supported_entity: BE_PROFESSIONAL_ID
supported_entity: ID_PROFESSIONNEL_BELGE
patterns:
- name: Numéro IEC avec deux points
regex: "(?<=\\bIEC\\s*:\\s*)\\d{6}\\b"
@@ -17,4 +17,4 @@ recognizer_registry:
- name: Numéro de médecin
regex: "\\b(?:Dr\\.|médecin)\\s*n°\\s*\\d{5,7}\\b"
score: 0.85
context: ["expert-comptable", "IEC", "avocat", "médecin", "professionnel"]
context: ["IEC", "avocat", "médecin", "professionnel"]