FAST CARS, BIG DATA - ou comment le streaming peut aider la Formule 1. Tugdual Grall
Les voitures, et tout particulièrement les voitures de courses, génèrent énormément de données. Durant cette présentation, basée sur des démonstrations, vous verrez comment : Capturer et traiter les données en temps réel avec l’API Kafka et Spark Analyser ces données avec Apache Spark et Drill Le but de cette présentation, basée sur des démonstrations est de montrer qu’il est possible aujourd’hui, sur une seule plateforme big data : De capturer les données en temps reel sous forme de flux avec Kafka Les traiter avec Spark Streaming Les stocker sous differentes formes en fonction des besoins fichiers (JSON, Parquet), mais aussi base nosql (HBase, MapRDB JSON, …) Les analyser en mode batch par exemple pour faire de la maintenance predictive via du machine learning avec Spark ML, ou plus simplement des requetes SQL avec Apache Drill. Le projet est disponible en open source et s’appuie sur : Des Producer/Consumer Kafka Spark et Spark Streaming pour le traitement de l’information en temps reel et batch. Une Web Application pour la visualisation en temps reel avec Kafka Consumer+Web Socket Un simulateur de course pour la generation des données TORCS (The Open Source Racing Car Simulator)