Michel Dubois : Teaching - Big Data : enjeux, stockage et extraction

Former les étudiants à l'utilisation de HDFS ou à un de ses dérivés pour le nuage (S3, Azure Blob).

Public :

BUT 3ième année Science des Données

Compétences

Traiter

Objectifs :

L’objectif de cette ressource est d’initier les étudiants aux données complexes, notamment dans l'univers des Big Data en les sensibilisant aux questions d'éthique, d'écoconception et de sobriété numérique.

Description

Les données prennent une place prépondérante dans les entreprises et dans nos vies. Il en résulte une quantité de plus en plus importante de données disponibles. Les domaines d'application principaux du Big Data seront présentés (Gestion de production, Epidémiologie, Marketing, web...). Les étudiants auront des connaissances en Big Data, leur permettant de gérer leurs stockages et leurs traitements.

Apprentissages critiques

AC31.02 : Comprendre les spécificités des données complexes et de leur exploitation
AC31.03 : Savoir mener une veille technologique

SAÉs associées

SAÉ 601-EMS : Modélisation statistique pour les données complexes et le Big Data

Contenus pour répondre à ces objectifs :

Système de gestion de données massives
Solution dédiée :
- Commandes Unix avec l'exemple de Linux
- Apache Hadoop : HDFS, Map-Reduce, Apache HBase/Apache Phoenix, Apache Hive avec R, Python et SAS
- Apache Spark avec les REPL dédiés (spark-R, pyspark, spark-SQL) et les notebooks Jupyter voire Apache Zeppelin pour l'utilisation de Spark Core, Spark SQL
- Apache Sqoop pour les échanges HDFS/HBase et les SGBDR
- Apache Flume pour l'ingestion continue de données dans hdfs
- Solution nuagique avec AWS.

Ce cours a été mis en ligne en 2023-2024.

Accéder au cours en ligne : NetUBS

Se connecter "en tant qu'invité" : Aide à la connexion