Metadata-Version: 2.4
Name: lectura
Version: 1.1.0
Summary: Suite complète de traitement linguistique du français — tokenisation, phonémisation, alignement, syllabation, formules
Author-email: Max Carriere <contact@lec-tu-ra.com>
License: AGPL-3.0-or-later
Project-URL: Homepage, https://www.lec-tu-ra.com/solutions/outils/modules/
Project-URL: Repository, https://github.com/maxcarriere/lectura-modules
Project-URL: Issues, https://github.com/maxcarriere/lectura-modules/issues
Keywords: nlp,french,g2p,aligneur,syllabeur,tokeniseur,phonétique
Classifier: Development Status :: 5 - Production/Stable
Classifier: Intended Audience :: Developers
Classifier: Intended Audience :: Science/Research
Classifier: License :: OSI Approved :: GNU Affero General Public License v3 or later (AGPLv3+)
Classifier: Natural Language :: French
Classifier: Programming Language :: Python :: 3
Classifier: Programming Language :: Python :: 3.10
Classifier: Programming Language :: Python :: 3.11
Classifier: Programming Language :: Python :: 3.12
Classifier: Topic :: Text Processing :: Linguistic
Requires-Python: >=3.10
Description-Content-Type: text/markdown
License-File: LICENCE-COMMERCIALE.md
License-File: LICENCE.txt
Requires-Dist: lectura-tokeniseur>=2.0
Requires-Dist: lectura-g2p>=1.0
Requires-Dist: lectura-p2g>=1.0
Requires-Dist: lectura-aligneur>=2.1
Requires-Dist: lectura-formules>=2.0
Provides-Extra: onnx
Requires-Dist: lectura-g2p[onnx]>=1.0; extra == "onnx"
Requires-Dist: lectura-p2g[onnx]>=1.0; extra == "onnx"
Dynamic: license-file

# Lectura NLP — Modules de traitement du langage naturel pour le francais

Briques logicielles autonomes pour le traitement du francais : tokenisation,
phonetique, syllabes, formules. Installez tout d'un coup avec `pip install lectura`
ou chaque module independamment.

## Modules

| Module | Description | Version | pip install |
|--------|-------------|---------|-------------|
| **[Tokeniseur](Tokeniseur/)** | Normalisation et tokenisation du francais, detection de formules | 2.0.0 | `pip install lectura-tokeniseur` |
| **[G2P](G2P/)** | Grapheme-to-Phoneme unifie + POS + Morpho + Liaison | 1.0.0 | `pip install lectura-g2p` |
| **[P2G](P2G/)** | Phoneme-to-Grapheme unifie + POS + Morpho (IPA vers orthographe) | 1.0.0 | `pip install lectura-p2g` |
| **[Syllabeur](Syllabeur/)** | Analyse syllabique avec groupes de lecture | 2.0.0 | `pip install lectura-syllabeur` |
| **[Formules](Formules/)** | Lecture algorithmique des formules (nombres, dates, heures...) | 2.0.0 | `pip install lectura-formules` |

## Caracteristiques

- **Zero dependance** sur les modules de base (Tokeniseur, Formules, Syllabeur)
- **3 backends d'inference** pour G2P/P2G : ONNX Runtime, NumPy, Pure Python
- **Type hints complets** (Python 3.10+, PEP-561)
- **Modeles compacts** : G2P = 1.8 Mo, P2G = 2.6 Mo (ONNX INT8)

## Installation rapide

```bash
# Tous les modules d'un coup
pip install lectura

# Avec backends ONNX pour G2P/P2G (recommande)
pip install lectura[onnx]

# Un seul module
pip install lectura-tokeniseur

# G2P avec backend ONNX
pip install lectura-g2p[onnx]
```

## Exemple

```python
from lectura_tokeniseur import tokenise
from lectura_formules import lire_formule

# Tokeniser du texte francais
tokens = tokenise("Le 1er janvier 2025, j'ai lu 42 pages.")

# Lire une formule
result = lire_formule("NOMBRE", "42")
print(result.display_fr)  # "quarante-deux"
```

## Licence

Les modules Lectura NLP sont distribues sous **double licence** :

- **[AGPL-3.0-or-later](LICENCE.txt)** — libre, avec obligation de publication
  du code source pour tout logiciel derive.
- **[Licence Commerciale](LICENCE-COMMERCIALE.md)** — payante, pour integration
  dans des logiciels proprietaires sans obligation de publication.

Les modeles pre-entraines (.onnx) sont soumis a des conditions specifiques :
voir [MODEL_LICENCE.md](MODEL_LICENCE.md).

Pour obtenir une licence commerciale : **https://www.lec-tu-ra.com/solutions/services/**

## Auteur

Max Carriere — [lec-tu-ra.com](https://www.lec-tu-ra.com)
