Le futur de la data : Apache Spark 3.1, Delta Lake et Koalas (Quentin Ambard, Seifeddine Saafi)
Au cours de cette conférence, nous mettrons en évidence les efforts importants qui sont déployés dans l'écosystème Spark. En particulier, nous exposerons les nouveautés de Spark3.0 avec les optimisations des requêtes adaptatives et statiques, les catalogues de données et le support GPU pour plus de facilité d'utilisation et performances. En parallèle de Spark 3, Delta Lake est devenu le nouveau standard de stockage de données dans l'écosystème Spark. Avec ses transactions ACID, l'unification du batch et du streaming, l'enforcement des schémas et le time travel Delta lake apporte plus de fiabilité et performance à Spark. Nous montrerons également comment les nouvelles fonctionnalités de Koalas, une bibliothèque open source qui fournit les API de Pandas avec un moteur d'execution Spark, aident les data scientist à tirer plus rapidement parti de leurs données.