Go to content

Spark dans le cloud. kubernetes + object storage = 💥 (Franck Cussac, romain sagean)

La nouvelle tendance c'est d'utiliser spark sur kubernetes et un object storage pour sa donnée. Pas cher, ultra sur, décentralisé... Les avantages sont multiples. Cependant il n'y a pas que des bons points. Spark fonctionne de manière très particulière pour écrire de la donnée. Si vous avez migré des jobs Spark d'un cluster hadoop avec HDFS à une infrastructure cloud avec S3 en stockage, vous aurez peut-être remarqué une dégradation des performances. Est-ce qu'un cluster hadoop on prem sur un bare metal est à ce point plus performant que du service managé dans le cloud ? Mauvaise question. Le problème vient de S3. Dans ce slot nous verrons ensemble comment profiter au mieux de S3 avec Spark en détaillant le fonctionnement de l'écriture de donnée de Spark. En plus de ce problème de stockage d'autres problèmes liés à kubernetes se posent. Quelles images de container utiliser ? Comment avoir accès à la spark-ui ? Comment lancer mon job sans spark-submit ?

June 29, 2022