Tp1 Big Data
Tp1 Big Data
Tp1 Big Data
Hadoop Cloudera
Matière : Introduction au Big Data
Objectifs:
Cet atelier a pour objectifs :
Installation et configuration de l’environnement de virtualisation VirtualBox
Installation et configuration de l’environnement Hadoop via la plateforme Cloudera
Lancement et test de l’environnement Hadoop
1- Présentation
Cet atelier s’intéresse à l'installation et la configuration d'un cluster Hadoop simple nœud
(MonoNode). En effet, utiliser Hadoop dans un environnement simple nœud, comme nous
allons le faire, n'a de sens que pour tester la configuration de l'installation ou fournir un
environnement de développement MapReduce.
Pour utiliser Hadoop deux solutions sont disponibles. La première est d'utiliser la version
proposée par la fondation Apache. Cette version est celle de référence et contient le noyau et
quelques interfaces d'administration très simplifiée. La seconde solution est d'utiliser les
distributions fournies par des entreprises qui font du service autour de Hadoop. Comme il y a
une valeur ajoutée non négligeable, ces distributions fournissent des services payants. Sans être
exhaustif, voici trois sociétés qui font de Hadoop leur spécialité :
Cloudera : http://www.cloudera.com/
Hortonworks : http://hortonworks.com/
MapR Technologies : http://www.mapr.com/
Dans le cadre de cet atelier, nous utilisons la version gratuite de la distribution Cloudera. Elle
fournit également des outils d'administration supplémentaires qui facilitent son usage.
1
2- Configuration requise pour exécuter un cluster simple nœud de
Cloudera :
Cloudera fournit des machines virtuelles prêtes à l'emploi pour VMware, VirtualBox et KVM
flavors. Ces machines virtuelles s'exécutent sur Centos 6.x. Les machines virtuelles « Cloudera
QuickStart (VMs) » comprennent tout ce que vous devez essayer avec CDH1, Cloudera
Manager2, Cloudera Impala 3et Cloudera Search4. Les machines virtuelles utilisent des
packages préinstallés de CDH. Pour utiliser ces machines virtuelles, vous avez besoins de ces
configurations suivantes :
Un ordinateur (votre laptop) doté d’un système exploitation 64-bit (Ubuntu LTS
64 bits ou Windows 7 ou 10- 64bits) avec un outil de virtualisation qui supporte un
système d’exploitation 64-bit.
Outils de virtualisation : Virtual Box : https://www.virtualbox.org/
RAM Requise : Au minimum 8 Go de RAM.
Lien : https://www.cloudera.com/downloads/quickstart_vms/5-13.html
1CDH contient les principaux éléments, de base du framework Hadoop (MapReduce et HDFS), ainsi que d'autres
composants orientés vers les entreprises qui assurent la sécurité, la haute disponibilité, et l'intégration avec le
matériel et les autres logiciels (HDFS & MapReduce, Impala, Apache Spark, HBase, Accumulo, Apache Kafka)
2 Cloudera Manager est l'outil de confiance pour gérer Hadoop en production.
3 Cloudera Impala est intégrée à CDH et supportée par Cloudera Enterprise, Impala est une base de données
analytique de traitement massivement parallèle (MPP) en open source.
4 Cloudera Search est un moteur de requête
2
4- Configuration de l’environnement de virtualisation :
a- Installation de VirtualBox
3
Il y a plusieurs étapes dans le processus d’importation que l’on initie en cliquant
sur le menu adéquat dans VirtualBox :
4
Etape 4 : Choix du dossier de destination du fichier contenant la machine virtuelle.
Attention, il faut prévoir de la place parce que sa taille va enfler considérablement au fil
des opérations.
Etape 5 : Le processus d’importation est démarré lorsque l’on clique sur IMPORTER
5
La machine virtuelle est
maintenant installée dans
VirtualBox
6
Au démarrage de la machine,
Hadoop est fonctionnel. Il
n’y a pas de manipulations
particulières à faire de ce
côté-là.
7
Installation du clavier français
pour les différentes manipulations
ultérieures. Nous aurons à saisir
des commandes dans un terminal
notamment