Nothing Special   »   [go: up one dir, main page]

Tp1 Big Data

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 8

TP n°1 : Configuration et installation de

Hadoop Cloudera
Matière : Introduction au Big Data

Classe : 1ère année MPSD

Enseignant : Mohamed Anouar DAHDEH

Objectifs:
Cet atelier a pour objectifs :
 Installation et configuration de l’environnement de virtualisation VirtualBox
 Installation et configuration de l’environnement Hadoop via la plateforme Cloudera
 Lancement et test de l’environnement Hadoop

1- Présentation

Cet atelier s’intéresse à l'installation et la configuration d'un cluster Hadoop simple nœud
(MonoNode). En effet, utiliser Hadoop dans un environnement simple nœud, comme nous
allons le faire, n'a de sens que pour tester la configuration de l'installation ou fournir un
environnement de développement MapReduce.

Pour utiliser Hadoop deux solutions sont disponibles. La première est d'utiliser la version
proposée par la fondation Apache. Cette version est celle de référence et contient le noyau et
quelques interfaces d'administration très simplifiée. La seconde solution est d'utiliser les
distributions fournies par des entreprises qui font du service autour de Hadoop. Comme il y a
une valeur ajoutée non négligeable, ces distributions fournissent des services payants. Sans être
exhaustif, voici trois sociétés qui font de Hadoop leur spécialité :

 Cloudera : http://www.cloudera.com/
 Hortonworks : http://hortonworks.com/
 MapR Technologies : http://www.mapr.com/

Dans le cadre de cet atelier, nous utilisons la version gratuite de la distribution Cloudera. Elle
fournit également des outils d'administration supplémentaires qui facilitent son usage.

1
2- Configuration requise pour exécuter un cluster simple nœud de
Cloudera :

Cloudera fournit des machines virtuelles prêtes à l'emploi pour VMware, VirtualBox et KVM
flavors. Ces machines virtuelles s'exécutent sur Centos 6.x. Les machines virtuelles « Cloudera
QuickStart (VMs) » comprennent tout ce que vous devez essayer avec CDH1, Cloudera
Manager2, Cloudera Impala 3et Cloudera Search4. Les machines virtuelles utilisent des
packages préinstallés de CDH. Pour utiliser ces machines virtuelles, vous avez besoins de ces
configurations suivantes :

 Un ordinateur (votre laptop) doté d’un système exploitation 64-bit (Ubuntu LTS
64 bits ou Windows 7 ou 10- 64bits) avec un outil de virtualisation qui supporte un
système d’exploitation 64-bit.
 Outils de virtualisation : Virtual Box : https://www.virtualbox.org/
 RAM Requise : Au minimum 8 Go de RAM.

3- Téléchargement de machine virtuelle

Lien : https://www.cloudera.com/downloads/quickstart_vms/5-13.html

Inscrivez-vous sur le site de Cloudera et téléchargez comme indique la figure suivante :

1CDH contient les principaux éléments, de base du framework Hadoop (MapReduce et HDFS), ainsi que d'autres
composants orientés vers les entreprises qui assurent la sécurité, la haute disponibilité, et l'intégration avec le
matériel et les autres logiciels (HDFS & MapReduce, Impala, Apache Spark, HBase, Accumulo, Apache Kafka)
2 Cloudera Manager est l'outil de confiance pour gérer Hadoop en production.
3 Cloudera Impala est intégrée à CDH et supportée par Cloudera Enterprise, Impala est une base de données
analytique de traitement massivement parallèle (MPP) en open source.
4 Cloudera Search est un moteur de requête

2
4- Configuration de l’environnement de virtualisation :
a- Installation de VirtualBox

Etape1 : Télécharger VirtualBox

Etape2 : Installer VirtualBox

b- Importer la machine virtuelle téléchargée de Cloudera


sous VirtualBox

L’archive contient deux fichiers comme suit en fonction de la version téléchargée


par exemple la version 5.13.0.0

3
Il y a plusieurs étapes dans le processus d’importation que l’on initie en cliquant
sur le menu adéquat dans VirtualBox :

4
Etape 4 : Choix du dossier de destination du fichier contenant la machine virtuelle.

Attention, il faut prévoir de la place parce que sa taille va enfler considérablement au fil
des opérations.

Etape 5 : Le processus d’importation est démarré lorsque l’on clique sur IMPORTER

5
La machine virtuelle est
maintenant installée dans
VirtualBox

Le fichier qui lui est associé


fait plus de 9 Go ! Et ce n’est
que le début.

c- Démarrage de la machine virtuelle

Attention : Le démarrage de la machine virtuelle peut prendre un certain temps

6
Au démarrage de la machine,
Hadoop est fonctionnel. Il
n’y a pas de manipulations
particulières à faire de ce
côté-là.

7
Installation du clavier français
pour les différentes manipulations
ultérieures. Nous aurons à saisir
des commandes dans un terminal
notamment

Il faut cliquer sur ADD, puis


sélectionner FRENCH et le
choisir comme clavier par
défaut.

Vous aimerez peut-être aussi