Tp1 Big Data

TP n°1 : Configuration et installation de
Hadoop Cloudera
Matière : Introduction au Big Data
Classe : 1ère année MPSD
Enseignant : Mohamed Anouar DAHDEH
Objectifs:
Cet atelier a pour objectifs :
 Installation et configuration de l’environnement de virtualisation VirtualBox
 Installation et configuration de l’environnement Hadoop via la plateforme Cloudera
 Lancement et test de l’environnement Hadoop
1- Présentation
Cet atelier s’intéresse à l'installation et la configuration d'un cluster Hadoop simple nœud
(MonoNode). En effet, utiliser Hadoop dans un environnement simple nœud, comme nous
allons le faire, n'a de sens que pour tester la configuration de l'installation ou fournir un
environnement de développement MapReduce.
Pour utiliser Hadoop deux solutions sont disponibles. La première est d'utiliser la version
proposée par la fondation Apache. Cette version est celle de référence et contient le noyau et
quelques interfaces d'administration très simplifiée. La seconde solution est d'utiliser les
distributions fournies par des entreprises qui font du service autour de Hadoop. Comme il y a
une valeur ajoutée non négligeable, ces distributions fournissent des services payants. Sans être
exhaustif, voici trois sociétés qui font de Hadoop leur spécialité :
 Cloudera : http://www.cloudera.com/
 Hortonworks : http://hortonworks.com/
 MapR Technologies : http://www.mapr.com/
Dans le cadre de cet atelier, nous utilisons la version gratuite de la distribution Cloudera. Elle
fournit également des outils d'administration supplémentaires qui facilitent son usage.
1
2- Configuration requise pour exécuter un cluster simple nœud de
Cloudera :
Cloudera fournit des machines virtuelles prêtes à l'emploi pour VMware, VirtualBox et KVM
flavors. Ces machines virtuelles s'exécutent sur Centos 6.x. Les machines virtuelles « Cloudera
QuickStart (VMs) » comprennent tout ce que vous devez essayer avec CDH1, Cloudera
Manager2, Cloudera Impala 3et Cloudera Search4. Les machines virtuelles utilisent des
packages préinstallés de CDH. Pour utiliser ces machines virtuelles, vous avez besoins de ces
configurations suivantes :
 Un ordinateur (votre laptop) doté d’un système exploitation 64-bit (Ubuntu LTS
64 bits ou Windows 7 ou 10- 64bits) avec un outil de virtualisation qui supporte un
système d’exploitation 64-bit.
 Outils de virtualisation : Virtual Box : https://www.virtualbox.org/
 RAM Requise : Au minimum 8 Go de RAM.
3- Téléchargement de machine virtuelle
Lien : https://www.cloudera.com/downloads/quickstart_vms/5-13.html
Inscrivez-vous sur le site de Cloudera et téléchargez comme indique la figure suivante :
1CDH contient les principaux éléments, de base du framework Hadoop (MapReduce et HDFS), ainsi que d'autres
composants orientés vers les entreprises qui assurent la sécurité, la haute disponibilité, et l'intégration avec le
matériel et les autres logiciels (HDFS & MapReduce, Impala, Apache Spark, HBase, Accumulo, Apache Kafka)
2 Cloudera Manager est l'outil de confiance pour gérer Hadoop en production.
3 Cloudera Impala est intégrée à CDH et supportée par Cloudera Enterprise, Impala est une base de données
analytique de traitement massivement parallèle (MPP) en open source.
4 Cloudera Search est un moteur de requête
2
4- Configuration de l’environnement de virtualisation :
a- Installation de VirtualBox
Etape1 : Télécharger VirtualBox
Etape2 : Installer VirtualBox
b- Importer la machine virtuelle téléchargée de Cloudera

sous VirtualBox
L’archive contient deux fichiers comme suit en fonction de la version téléchargée

par exemple la version 5.13.0.0
3
Il y a plusieurs étapes dans le processus d’importation que l’on initie en cliquant
sur le menu adéquat dans VirtualBox :
4
Etape 4 : Choix du dossier de destination du fichier contenant la machine virtuelle.
Attention, il faut prévoir de la place parce que sa taille va enfler considérablement au fil
des opérations.
Etape 5 : Le processus d’importation est démarré lorsque l’on clique sur IMPORTER
5
La machine virtuelle est
maintenant installée dans
VirtualBox
Le fichier qui lui est associé

fait plus de 9 Go ! Et ce n’est
que le début.
c- Démarrage de la machine virtuelle
Attention : Le démarrage de la machine virtuelle peut prendre un certain temps
6
Au démarrage de la machine,
Hadoop est fonctionnel. Il
n’y a pas de manipulations
particulières à faire de ce
côté-là.
7
Installation du clavier français
pour les différentes manipulations
ultérieures. Nous aurons à saisir
des commandes dans un terminal
notamment
Il faut cliquer sur ADD, puis

sélectionner FRENCH et le
choisir comme clavier par
défaut.

Tp1 Big Data

Transféré par

Droits d'auteur :

Formats disponibles

Tp1 Big Data

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Tp1 Big Data

Transféré par

Droits d'auteur :

Formats disponibles

TP n°1 : Configuration et installation de

Classe : 1ère année MPSD

Enseignant : Mohamed Anouar DAHDEH

3- Téléchargement de machine virtuelle

Inscrivez-vous sur le site de Cloudera et téléchargez comme indique la figure suivante :

Etape1 : Télécharger VirtualBox

Etape2 : Installer VirtualBox

b- Importer la machine virtuelle téléchargée de Cloudera

L’archive contient deux fichiers comme suit en fonction de la version téléchargée

Le fichier qui lui est associé

c- Démarrage de la machine virtuelle

Attention : Le démarrage de la machine virtuelle peut prendre un certain temps

Il faut cliquer sur ADD, puis

Vous aimerez peut-être aussi