Spark

Spark en conditions réelles

Un carnet de terrain d'ingénieur data : chaque recette PySpark répond à un piège réel de production — skew, small files, lineage explosif, NULL qui ne matchent pas, count() qui scanne 1,2 To — et se vérifie par une sortie console authentique (df.show, plan d'explain, métriques de MERGE). Du PySpark mesuré et instrumenté (gains x34, x88), orienté Delta Lake, fenêtrage temporel et qualité de données.

20 snippets phares

Retour au Data Lab