Description de la Formation :
Formation Big Data : Architecture et Infrastructure (3 jours)
Cette formation intensive vous offre une vue d’ensemble sur l’architecture et l’infrastructure d’un projet Big Data, en se concentrant sur les technologies clés telles que Hadoop et Spark. Vous apprendrez à concevoir, implémenter et gérer une infrastructure Big Data, tout en comprenant les enjeux éthiques et de sécurité liés à la gestion de grands volumes de données.
Durant les 3 jours de formation, vous explorerez comment les solutions Big Data, notamment Hadoop et Spark, transforment la manière dont les entreprises stockent et traitent les données. Vous apprendrez également à déployer un cluster Hadoop/Spark en utilisant des solutions “on-premise” ou dans le Cloud, tout en mettant en place une architecture distribuée scalable et performante.
Objectifs de la formation :
- Maîtriser les fondamentaux des infrastructures Big Data.
- Comprendre les défis de traitement des données massives.
- Installer, configurer et gérer un cluster Hadoop.
- Apprendre à utiliser Spark avec Docker pour exécuter des traitements distribués.
- Explorer les technologies Cloud et on-premise pour le Big Data.
- Assurer la qualité des données avec des outils tels que Talend et des ETL.
- Déployer une solution complète Hadoop/Spark dans une architecture distribuée.
À qui s’adresse cette formation ? Cette formation est destinée aux chefs de projet, développeurs, ingénieurs Big Data, data scientists, et administrateurs systèmes souhaitant concevoir et exploiter une architecture Big Data. Elle est également recommandée pour ceux ayant des connaissances de base en programmation et systèmes d’information.
Plan de la formation :
Jour 1 : Introduction à l’architecture Big Data
- Contexte du Big Data et des données massives.
- Enjeux des projets Big Data (IoT, données structurées et non structurées).
- Introduction aux architectures distribuées.
- Sécurité, éthique et aspects juridiques des projets Big Data.
- Risques et défis des architectures Big Data.
Jour 2 : Mise en place d’une architecture distribuée
- Introduction aux bases NoSQL (MongoDB, Cassandra).
- Calcul distribué avec Hadoop et MapReduce.
- Introduction aux modèles d’architecture Lambda et Streaming.
- Utilisation des ETL pour garantir la qualité des données (exemple avec Talend ou Knime).
Jour 3 : Déploiement de Hadoop et Spark
- Installation et configuration d’un cluster Hadoop.
- Prise en main de Spark avec Docker pour des traitements parallèles.
- Gestion des fichiers HDFS, monitoring et sécurité.
- Déploiement d’un programme MapReduce avec Spark sur une architecture distribuée.
Course Features
- Lecture 0
- Quiz 0
- Duration 24 Heures
- Skill level Débutant
- Language Français
- Students 23
- Assessments Yes
Prérequis
- Une bonne compréhension des systèmes d’information et des bases en architecture informatique.
- Des connaissances de base en programmation (Python, Java ou autres) pour comprendre les concepts d'algorithmes et de traitement des données.
- Une familiarité avec SQL et les bases de données relationnelles pour mieux appréhender les différences avec les systèmes NoSQL.
- Des notions de statistiques (niveau scolaire) pour comprendre les bases du traitement des données volumineuses et des analyses.
Fonctionnalités
- Installation et gestion de clusters Hadoop et Spark : Apprenez à configurer un environnement distribué pour stocker et traiter de grandes quantités de données.
- Utilisation de Docker avec Spark : Déployez des traitements Big Data dans un environnement Docker pour plus de flexibilité.
- Gestion des architectures Cloud et on-premise : Comprenez les différences entre les solutions hébergées localement et sur le Cloud, et apprenez à choisir la bonne architecture en fonction de vos projets.
- Travaux pratiques concrets : Installez, configurez et déployez un cluster Big Data, testez des traitements de données et gérez les performances.
- Sécurité des données : Apprenez les bonnes pratiques de sécurité, d’éthique et de conformité réglementaire pour les données massives.
- Qualité des données : Utilisez des ETL et des outils comme Talend ou knime pour garantir des données propres et exploitables.
- Comparaison des technologies Big Data : Analysez les différentes solutions disponibles sur le marché (NoSQL, Hadoop, Spark) et choisissez celles adaptées à vos besoins.
Public ciblé
- Chefs de projet Big Data : Pour comprendre et coordonner les aspects techniques et infrastructurels des projets Big Data.
- Développeurs et ingénieurs logiciels : Souhaitant concevoir et déployer des infrastructures distribuées et scalables pour le traitement de gros volumes de données.
- Ingénieurs Big Data : Pour acquérir les compétences nécessaires à l’installation, la configuration et la gestion de clusters Hadoop et Spark.
- Data Scientists : Qui souhaitent approfondir leurs connaissances en infrastructure et traitement des données massives.
- Architectes systèmes et administrateurs de bases de données : Qui cherchent à comprendre l’architecture Big Data pour la gestion et l’exploitation des données massives.
- Professionnels IT : Cherchant à migrer vers une architecture Big Data ou souhaitant maîtriser les technologies distribuées (Hadoop, Spark, NoSQL).