Spaces:

ASI-Engineer
/

oc_p5-dev

Running

App Files Files Community

ASI-Engineer commited on 5 days ago

Commit

d949d61

verified ·

1 Parent(s): e9404da

Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

README.md +295 -77
README_HF.md +0 -106
app.py +22 -0
db_models.py +19 -0
requirements.txt +3 -0
src/config.py +5 -0
src/gradio_ui.py +30 -0

README.md CHANGED Viewed

@@ -1,106 +1,324 @@
----
-title: Employee Turnover Prediction API
-emoji: 👔
-colorFrom: blue
-colorTo: purple
-sdk: docker
-pinned: true
-license: mit
-app_port: 7860
----
-# Employee Turnover Prediction API 🚀 (v3.2.1)
-API de prédiction du turnover des employés (XGBoost + SMOTE) avec endpoints batch, validation stricte et documentation à jour.
-## 🎯 Fonctionnalités
-- ✅ Prédiction de turnover (0 = reste, 1 = part)
 - 📦 Endpoint batch CSV (3 fichiers bruts)
-- 🎛️ Sliders Gradio et schémas Pydantic alignés sur les min/max réels
-- 📊 Probabilités et niveau de risque (Low/Medium/High)
-- 🔐 Authentification API Key (obligatoire)
-- 📝 Logs structurés JSON
-- 🛡️ Rate limiting (20 req/min)
-- 📚 Documentation OpenAPI/Swagger
-## 🔗 Endpoints
-| Endpoint | Description |
-|----------|-------------|
-| `/docs` | Documentation interactive Swagger |
-| `/health` | Status de l'API |
-| `/ui` | Interface Gradio interactive |
-| `/predict` | Prédiction unitaire (JSON, contraintes réelles) |
-| `/predict/batch` | Prédiction batch (3 fichiers CSV bruts) |
-## 🚀 Utilisation
-### Prédiction unitaire (toutes contraintes appliquées)
 ```bash
-curl -X POST https://asi-engineer-oc-p5-dev.hf.space/predict \
   -H "Content-Type: application/json" \
-  -H "X-API-Key: your-key" \
-  -d '{
-    "nombre_participation_pee": 0,
-    "nb_formations_suivies": 2,
-    "nombre_employee_sous_responsabilite": 1,
-    "distance_domicile_travail": 15,
-    "niveau_education": 3,
-    "domaine_etude": "Infra & Cloud",
-    "ayant_enfants": "Y",
-    "frequence_deplacement": "Occasionnel",
-    "annees_depuis_la_derniere_promotion": 2,
-    "annes_sous_responsable_actuel": 5,
-    "satisfaction_employee_environnement": 3,
-    "note_evaluation_precedente": 4,
-    "niveau_hierarchique_poste": 2,
-    "satisfaction_employee_nature_travail": 3,
-    "satisfaction_employee_equipe": 3,
-    "satisfaction_employee_equilibre_pro_perso": 2,
-    "note_evaluation_actuelle": 4,
-    "heure_supplementaires": "Non",
-    "augementation_salaire_precedente": 5.5,
-    "age": 35,
-    "genre": "M",
-    "revenu_mensuel": 4500.0,
-    "statut_marital": "Marié(e)",
-    "departement": "Commercial",
-    "poste": "Manager",
-    "nombre_experiences_precedentes": 3,
-    "nombre_heures_travailless": 80,
-    "annee_experience_totale": 10,
-    "annees_dans_l_entreprise": 5,
-    "annees_dans_le_poste_actuel": 2
-  }'
 ```
-### Prédiction batch (3 fichiers CSV bruts)
 ```bash
-curl -X POST https://asi-engineer-oc-p5-dev.hf.space/predict/batch \
-  -H "X-API-Key: your-key" \
-  -F "sondage_file=@extrait_sondage.csv" \
-  -F "eval_file=@extrait_eval.csv" \
-  -F "sirh_file=@extrait_sirh.csv"
 ```
-**Réponse :**
-```json
 {
   "total_employees": 1470,
-  "predictions": [...],
   "summary": {
     "total_stay": 1169,
     "total_leave": 301,
-    "high_risk_count": 222
   }
 }
 ```
-## 📚 Documentation complète
-Voir [docs/API.md](docs/API.md) ou le [GitHub Repository](https://github.com/chaton59/OC_P5) pour la documentation complète et les contraintes détaillées (min/max, enums, etc).

+# 🚀 Employee Turnover Prediction API - v3.2.1
+## 📊 Vue d'ensemble
+API REST de prédiction du turnover des employés basée sur un modèle XGBoost avec SMOTE.
+**✨ Nouveautés v3.2.1** :
+- 🎛️ Sliders Gradio et schémas Pydantic alignés sur les min/max réels des données d'entraînement
 - 📦 Endpoint batch CSV (3 fichiers bruts)
+- 🔑 Authentification API Key (prod)
+- 🔧 Correction preprocessing (scaling, ordre des colonnes)
+- 📝 Documentation et exemples mis à jour
+## 🏗️ Architecture
+```
+OC_P5/
+├── app.py                    # Point d'entrée FastAPI
+├── src/
+│   ├── auth.py              # Authentification API Key
+│   ├── config.py            # Configuration centralisée
+│   ├── logger.py            # Logging structuré (NOUVEAU)
+│   ├── models.py            # Chargement modèle HF Hub
+│   ├── preprocessing.py     # Pipeline preprocessing
+│   ├── rate_limit.py        # Rate limiting (NOUVEAU)
+│   └── schemas.py           # Validation Pydantic
+├── tests/                   # Suite pytest (33 tests, 88% couverture)
+├── logs/                    # Logs JSON (NOUVEAU)
+│   ├── api.log              # Tous les logs
+│   └── error.log            # Erreurs uniquement
+├── docs/                    # Documentation
+├── ml_model/                # Scripts training
+└── data/                    # Données sources
+## 🗄️ Schéma de la Base de Données (PostgreSQL)
+Schéma UML pour traçabilité ML (basé sur P5 prédiction turnover employé) :
+![Schéma BDD](docs/schema.png)
+- **dataset** : Dataset original (référence pour tests/retraining). Colonnes adaptées au modèle de prédiction turnover.
+- **ml_logs** : Logs inputs/outputs (JSON pour flexibilité, timestamp pour audits).
+Choix : Structure relationnelle pour efficacité volume data ; sécurité via user dédié (ml_user).
+Instructions : Voir create_db.py pour création.
+📖 **Guide complet pour débutants** : [docs/database_guide.md](docs/database_guide.md)
+### 💾 Insertion du Dataset
+```bash
+# Insérer le dataset complet (1470 employés)
+poetry run python scripts/insert_dataset.py
+# Vérifier l'insertion
+psql -h localhost -U ml_user -d oc_p5_db -c "SELECT COUNT(*) FROM dataset;"
+```
+### Prérequis
+- Python 3.12+
+- Poetry 1.7+
+- Git
+### Setup rapide
+```bash
+# 1. Cloner le repo
+git clone https://github.com/chaton59/OC_P5.git
+cd OC_P5
+# 2. Installer les dépendances
+poetry install
+# 3. Configurer l'environnement
+cp .env.example .env
+# Éditer .env avec vos valeurs
+# 4. Lancer l'API
+poetry run uvicorn app:app --reload
+# 5. Accéder à la documentation
+# http://localhost:8000/docs
+```
+## 📝 Configuration (.env)
 ```bash
+# Mode développement (désactive auth + active logs détaillés)
+DEBUG=true
+# API Key (requis en production)
+API_KEY=your-secret-key-here
+# Logging (DEBUG, INFO, WARNING, ERROR, CRITICAL)
+LOG_LEVEL=INFO
+# HuggingFace Model
+HF_MODEL_REPO=ASI-Engineer/employee-turnover-model
+MODEL_FILENAME=model/model.pkl
+```
+## 🔒 Authentification
+### Mode DEBUG (développement)
+```bash
+# L'API Key n'est PAS requise
+curl http://localhost:8000/predict -H "Content-Type: application/json" -d '{...}'
+```
+### Mode PRODUCTION
+```bash
+# L'API Key est REQUISE
+curl http://localhost:8000/predict \
+  -H "X-API-Key: your-secret-key" \
   -H "Content-Type: application/json" \
+  -d '{...}'
 ```
+## 📡 Endpoints
+### 🏥 Health Check
 ```bash
+GET /health
+# Réponse
+{
+  "status": "healthy",
+  "model_loaded": true,
+  "model_type": "Pipeline",
+  "version": "3.2.1"
+}
 ```
+### 🔮 Prédiction unitaire
+```bash
+POST /predict
+Content-Type: application/json
+X-API-Key: your-key (en production)
+# Payload (exemple, contraintes réelles appliquées)
+{
+  "nombre_participation_pee": 0,
+  "nb_formations_suivies": 2,
+  "nombre_employee_sous_responsabilite": 1,
+  "distance_domicile_travail": 15,
+  "niveau_education": 3,
+  "domaine_etude": "Infra & Cloud",
+  "ayant_enfants": "Y",
+  "frequence_deplacement": "Occasionnel",
+  "annees_depuis_la_derniere_promotion": 2,
+  "annes_sous_responsable_actuel": 5,
+  "satisfaction_employee_environnement": 3,
+  "note_evaluation_precedente": 4,
+  "niveau_hierarchique_poste": 2,
+  "satisfaction_employee_nature_travail": 3,
+  "satisfaction_employee_equipe": 3,
+  "satisfaction_employee_equilibre_pro_perso": 2,
+  "note_evaluation_actuelle": 4,
+  "heure_supplementaires": "Non",
+  "augementation_salaire_precedente": 5.5,
+  "age": 35,
+  "genre": "M",
+  "revenu_mensuel": 4500.0,
+  "statut_marital": "Marié(e)",
+  "departement": "Commercial",
+  "poste": "Manager",
+  "nombre_experiences_precedentes": 3,
+  "nombre_heures_travailless": 80,
+  "annee_experience_totale": 10,
+  "annees_dans_l_entreprise": 5,
+  "annees_dans_le_poste_actuel": 2
+}
+# Réponse
+{
+  "prediction": 0,                    # 0 = reste, 1 = part
+  "probability_0": 0.85,              # Probabilité de rester
+  "probability_1": 0.15,              # Probabilité de partir
+  "risk_level": "Low"                 # Low, Medium, High
+}
+```
+### 📦 Prédiction batch (CSV)
+```bash
+POST /predict/batch
+X-API-Key: your-key (en production)
+# Envoi des 3 fichiers CSV bruts
+curl -X POST "http://localhost:8000/predict/batch" \
+  -H "X-API-Key: your-key" \
+  -F "sondage_file=@data/extrait_sondage.csv" \
+  -F "eval_file=@data/extrait_eval.csv" \
+  -F "sirh_file=@data/extrait_sirh.csv"
+# Réponse
 {
   "total_employees": 1470,
+  "predictions": [
+    {"employee_id": 1, "prediction": 1, "probability_leave": 0.84, "risk_level": "High"},
+    {"employee_id": 2, "prediction": 0, "probability_leave": 0.11, "risk_level": "Low"}
+  ],
   "summary": {
     "total_stay": 1169,
     "total_leave": 301,
+    "high_risk_count": 222,
+    "medium_risk_count": 233,
+    "low_risk_count": 1015
   }
 }
 ```
+## 📊 Logging
+### Logs structurés JSON
+**Fichiers** :
+- `logs/api.log` : Tous les logs
+- `logs/error.log` : Erreurs uniquement
+**Format** :
+```json
+{
+  "timestamp": "2025-12-26T10:30:45",
+  "level": "INFO",
+  "logger": "employee_turnover_api",
+  "message": "Request POST /predict",
+  "method": "POST",
+  "path": "/predict",
+  "status_code": 200,
+  "duration_ms": 23.45,
+  "client_host": "127.0.0.1"
+}
+```
+## 🛡️ Rate Limiting
+**Configuration** :
+- **Développement** : Désactivé (DEBUG=true)
+- **Production** : 20 requêtes/minute par IP ou API Key
+**En cas de dépassement** :
+```json
+{
+  "error": "Rate limit exceeded",
+  "message": "20 per 1 minute"
+}
+```
+## ✅ Tests
+```bash
+# Tous les tests
+poetry run pytest tests/ -v
+# Avec couverture
+poetry run pytest tests/ --cov --cov-report=html
+# Voir rapport HTML
+open htmlcov/index.html
+```
+**Résultats** :
+- ✅ 33 tests passés
+- 📊 88% de couverture globale
+## 🚀 Déploiement
+### Variables d'environnement requises
+```bash
+DEBUG=false
+API_KEY=<votre-clé-sécurisée>
+LOG_LEVEL=INFO
+```
+### HuggingFace Spaces
+Prêt pour déploiement avec `app.py` et `requirements.txt`
+## 📚 Documentation
+- **API Interactive** : http://localhost:8000/docs
+- **ReDoc** : http://localhost:8000/redoc
+- **Guide complet** : [docs/API_GUIDE.md](docs/API_GUIDE.md)
+- **Standards** : [docs/standards.md](docs/standards.md)
+- **Couverture tests** : [docs/TEST_COVERAGE.md](docs/TEST_COVERAGE.md)
+## 📦 Dépendances principales
+- **FastAPI** 0.115.14 : Framework web
+- **Pydantic** 2.12.5 : Validation données
+- **XGBoost** 2.1.3 : Modèle ML
+- **SlowAPI** 0.1.9 : Rate limiting
+- **python-json-logger** 4.0.0 : Logs structurés
+- **pytest** 9.0.2 : Tests
+## 🔄 Changelog
+### v3.2.1 (janvier 2026)
+- 🎛️ Sliders Gradio et schémas Pydantic alignés sur les min/max réels des données d'entraînement
+- 📦 Endpoint batch CSV (3 fichiers bruts)
+- 🔑 Authentification API Key (prod)
+- 🔧 Correction preprocessing (scaling, ordre des colonnes)
+- 📝 Documentation et exemples mis à jour
+### v2.2.0 (27 décembre 2025)
+- 📦 Nouvel endpoint `/predict/batch` pour traitement CSV direct
+- 🔧 Fix preprocessing : ajout du scaling des features
+- 🔧 Fix preprocessing : correction de l'ordre des colonnes
+- 📊 Amélioration précision des prédictions (~90%)
+### v2.1.0 (26 décembre 2025)
+- ✨ Système de logging structuré JSON
+- 🛡️ Rate limiting avec SlowAPI
+- ⚡ Amélioration gestion d'erreurs
+- 📊 Monitoring des performances
+### v2.0.0 (26 décembre 2025)
+- ✅ Suite de tests complète (36 tests)
+- 🔐 Authentification API Key
+- 📊 88% de couverture de code
+## 👥 Auteurs
+- **Projet** : OpenClassrooms P5
+- **Repo** : [github.com/chaton59/OC_P5](https://github.com/chaton59/OC_P5)

README_HF.md DELETED Viewed

@@ -1,106 +0,0 @@
----
-title: Employee Turnover Prediction API
-emoji: 👔
-colorFrom: blue
-colorTo: purple
-sdk: docker
-pinned: true
-license: mit
-app_port: 7860
----
-# Employee Turnover Prediction API 🚀 (v3.2.1)
-API de prédiction du turnover des employés (XGBoost + SMOTE) avec endpoints batch, validation stricte et documentation à jour.
-## 🎯 Fonctionnalités
-- ✅ Prédiction de turnover (0 = reste, 1 = part)
-- 📦 Endpoint batch CSV (3 fichiers bruts)
-- 🎛️ Sliders Gradio et schémas Pydantic alignés sur les min/max réels
-- 📊 Probabilités et niveau de risque (Low/Medium/High)
-- 🔐 Authentification API Key (obligatoire)
-- 📝 Logs structurés JSON
-- 🛡️ Rate limiting (20 req/min)
-- 📚 Documentation OpenAPI/Swagger
-## 🔗 Endpoints
-| Endpoint | Description |
-|----------|-------------|
-| `/docs` | Documentation interactive Swagger |
-| `/health` | Status de l'API |
-| `/ui` | Interface Gradio interactive |
-| `/predict` | Prédiction unitaire (JSON, contraintes réelles) |
-| `/predict/batch` | Prédiction batch (3 fichiers CSV bruts) |
-## 🚀 Utilisation
-### Prédiction unitaire (toutes contraintes appliquées)
-```bash
-curl -X POST https://asi-engineer-oc-p5-dev.hf.space/predict \
-  -H "Content-Type: application/json" \
-  -H "X-API-Key: your-key" \
-  -d '{
-    "nombre_participation_pee": 0,
-    "nb_formations_suivies": 2,
-    "nombre_employee_sous_responsabilite": 1,
-    "distance_domicile_travail": 15,
-    "niveau_education": 3,
-    "domaine_etude": "Infra & Cloud",
-    "ayant_enfants": "Y",
-    "frequence_deplacement": "Occasionnel",
-    "annees_depuis_la_derniere_promotion": 2,
-    "annes_sous_responsable_actuel": 5,
-    "satisfaction_employee_environnement": 3,
-    "note_evaluation_precedente": 4,
-    "niveau_hierarchique_poste": 2,
-    "satisfaction_employee_nature_travail": 3,
-    "satisfaction_employee_equipe": 3,
-    "satisfaction_employee_equilibre_pro_perso": 2,
-    "note_evaluation_actuelle": 4,
-    "heure_supplementaires": "Non",
-    "augementation_salaire_precedente": 5.5,
-    "age": 35,
-    "genre": "M",
-    "revenu_mensuel": 4500.0,
-    "statut_marital": "Marié(e)",
-    "departement": "Commercial",
-    "poste": "Manager",
-    "nombre_experiences_precedentes": 3,
-    "nombre_heures_travailless": 80,
-    "annee_experience_totale": 10,
-    "annees_dans_l_entreprise": 5,
-    "annees_dans_le_poste_actuel": 2
-  }'
-```
-### Prédiction batch (3 fichiers CSV bruts)
-```bash
-curl -X POST https://asi-engineer-oc-p5-dev.hf.space/predict/batch \
-  -H "X-API-Key: your-key" \
-  -F "sondage_file=@extrait_sondage.csv" \
-  -F "eval_file=@extrait_eval.csv" \
-  -F "sirh_file=@extrait_sirh.csv"
-```
-**Réponse :**
-```json
-{
-  "total_employees": 1470,
-  "predictions": [...],
-  "summary": {
-    "total_stay": 1169,
-    "total_leave": 301,
-    "high_risk_count": 222
-  }
-}
-```
-## 📚 Documentation complète
-Voir [docs/API.md](docs/API.md) ou le [GitHub Repository](https://github.com/chaton59/OC_P5) pour la documentation complète et les contraintes détaillées (min/max, enums, etc).

app.py CHANGED Viewed

@@ -221,6 +221,28 @@ async def predict(request: Request, employee: EmployeeInput):
         else:
             risk_level = "High"
         return PredictionOutput(
             prediction=prediction,
             probability_0=prob_0,

         else:
             risk_level = "High"
+        # 6. Enregistrer dans la base de données
+        try:
+            from sqlalchemy import create_engine
+            from sqlalchemy.orm import sessionmaker
+            from db_models import MLLog
+            engine = create_engine(settings.DATABASE_URL)
+            Session = sessionmaker(bind=engine)
+            session = Session()
+            log_entry = MLLog(
+                input_json=employee.dict(),
+                prediction="Oui" if prediction == 1 else "Non",
+            )
+            session.add(log_entry)
+            session.commit()
+            session.close()
+            logger.info(f"Prediction logged to database: {prediction}")
+        except Exception as db_error:
+            logger.warning(f"Failed to log prediction to database: {db_error}")
         return PredictionOutput(
             prediction=prediction,
             probability_0=prob_0,

db_models.py ADDED Viewed

	@@ -0,0 +1,19 @@

+from sqlalchemy import Column, Integer, String, JSON, DateTime, func
+from sqlalchemy.ext.declarative import declarative_base
+Base = declarative_base()
+class Dataset(Base):
+    __tablename__ = "dataset"
+    id = Column(Integer, primary_key=True)
+    features_json = Column(JSON)  # Features from sondage, eval, sirh data
+    target = Column(String)  # Target: 'Oui' or 'Non' for turnover
+class MLLog(Base):
+    __tablename__ = "ml_logs"
+    id = Column(Integer, primary_key=True)
+    input_json = Column(JSON)  # Inputs flexibles (JSON for features variables)
+    prediction = Column(String)  # Output ML ('Oui' or 'Non')
+    created_at = Column(DateTime, default=func.now())  # Timestamp auto pour traçabilité

requirements.txt CHANGED Viewed

@@ -1,3 +1,6 @@
 aiofiles==24.1.0 ; python_version >= "3.12" and python_version < "4.0"
 alembic==1.17.2 ; python_version >= "3.12" and python_version < "4.0"
 annotated-doc==0.0.4 ; python_version >= "3.12" and python_version < "4.0"

+sqlalchemy==2.0.23
+psycopg2-binary==2.9.9
+python-dotenv==1.0.0
 aiofiles==24.1.0 ; python_version >= "3.12" and python_version < "4.0"
 alembic==1.17.2 ; python_version >= "3.12" and python_version < "4.0"
 annotated-doc==0.0.4 ; python_version >= "3.12" and python_version < "4.0"

src/config.py CHANGED Viewed

@@ -40,6 +40,11 @@ class Settings:
     DEBUG: bool = os.getenv("DEBUG", "False").lower() == "true"
     LOG_LEVEL: str = os.getenv("LOG_LEVEL", "INFO")
     @property
     def is_api_key_required(self) -> bool:
         """

     DEBUG: bool = os.getenv("DEBUG", "False").lower() == "true"
     LOG_LEVEL: str = os.getenv("LOG_LEVEL", "INFO")
+    # ===== BASE DE DONNÉES =====
+    DATABASE_URL: str = os.getenv(
+        "DATABASE_URL", "postgresql://ml_user:15975359320@localhost:5432/oc_p5_db"
+    )
     @property
     def is_api_key_required(self) -> bool:
         """

src/gradio_ui.py CHANGED Viewed

@@ -123,6 +123,33 @@ def predict_turnover(
         confidence = max(prob_0, prob_1) * 100
         result = f"""
 ## {risk_emoji}
@@ -132,6 +159,9 @@ def predict_turnover(
 - **Probabilité de départ**: {prob_1 * 100:.1f}%
 - **Probabilité de maintien**: {prob_0 * 100:.1f}%
 ### Interprétation
 {"⚠️ Cet employé présente des facteurs de risque de départ. Il est recommandé d'engager un dialogue pour comprendre ses attentes." if prediction == 1 else "✅ Cet employé semble stable. Continuez à maintenir un environnement de travail positif."}
 """

         confidence = max(prob_0, prob_1) * 100
+        # Enregistrer dans la base de données (optionnel pour Gradio)
+        try:
+            from sqlalchemy import create_engine
+            from sqlalchemy.orm import sessionmaker
+            from src.config import get_settings
+            settings = get_settings()
+            engine = create_engine(settings.DATABASE_URL)
+            Session = sessionmaker(bind=engine)
+            session = Session()
+            # Importer le modèle MLLog
+            from db_models import MLLog
+            # Créer le log
+            log_entry = MLLog(
+                input_json=employee.dict(),  # Convertir Pydantic en dict
+                prediction="Oui" if prediction == 1 else "Non",
+            )
+            session.add(log_entry)
+            session.commit()
+            session.close()
+            db_status = "✅ Enregistré en DB"
+        except Exception as db_error:
+            db_status = f"⚠️ Erreur DB: {str(db_error)}"
         result = f"""
 ## {risk_emoji}
 - **Probabilité de départ**: {prob_1 * 100:.1f}%
 - **Probabilité de maintien**: {prob_0 * 100:.1f}%
+### Base de données
+{db_status}
 ### Interprétation
 {"⚠️ Cet employé présente des facteurs de risque de départ. Il est recommandé d'engager un dialogue pour comprendre ses attentes." if prediction == 1 else "✅ Cet employé semble stable. Continuez à maintenir un environnement de travail positif."}
 """