Former les étudiants à l'utilisation de HDFS ou à un de ses dérivés pour le nuage (S3, Azure Blob).

Public :

  • BUT 3ième année Science des Données

Compétences

  • Traiter

Objectifs :

L’objectif de cette ressource est d’initier les étudiants aux données complexes, notamment dans l'univers des Big Data en les sensibilisant aux questions d'éthique, d'écoconception et de sobriété numérique.

Description

Les données prennent une place prépondérante dans les entreprises et dans nos vies. Il en résulte une quantité de plus en plus importante de données disponibles. Les domaines d'application principaux du Big Data seront présentés (Gestion de production, Epidémiologie, Marketing, web...). Les étudiants auront des connaissances en Big Data, leur permettant de gérer leurs stockages et leurs traitements.

Apprentissages critiques

  • AC31.02 : Comprendre les spécificités des données complexes et de leur exploitation
  • AC31.03 : Savoir mener une veille technologique

SAÉs associées

  • SAÉ 601-EMS : Modélisation statistique pour les données complexes et le Big Data

Contenus pour répondre à ces objectifs :

  • Système de gestion de données massives
  • Solution dédiée :
    • Commandes Unix avec l'exemple de Linux
    • Apache Hadoop : HDFS, Map-Reduce, Apache HBase/Apache Phoenix, Apache Hive avec R, Python et SAS
    • Apache Spark avec les REPL dédiés (spark-R, pyspark, spark-SQL) et les notebooks Jupyter voire Apache Zeppelin pour l'utilisation de Spark Core, Spark SQL
    • Apache Sqoop pour les échanges HDFS/HBase et les SGBDR
    • Apache Flume pour l'ingestion continue de données dans hdfs
    • Solution nuagique avec AWS.

Ce cours a été mis en ligne en 2023-2024.

Accéder au cours en ligne : NetUBS

Se connecter "en tant qu'invité" : Aide à la connexion