Chp2 Hadoopmapreduce 140428061611 Phpapp01
Chp2 Hadoopmapreduce 140428061611 Phpapp01
Chp2 Hadoopmapreduce 140428061611 Phpapp01
HADOOP
NN
HDFS
Big
Data
Données
U1les
DN
DN
Données
U1les
DN
DN
DN
DN
MAP REDUCE
22
Mo
blk_3
blk_2…
DN
• NameNode :
§ Démon s’e xécutant sur une
machine séparée mydata.txt
(150
Mo)
64
Mo
blk_1
§ Contient des méta-données
64
Mo
blk_2
§ Permet de retrouver les nœuds qui
22
Mo
blk_3
exécutent les blocs d’un fichier
DN
DN
DN
DN
q
✓ Panne de réseau ?
✓
q Panne de disque sur les DataNodes ? NN
64 Mo blk_1
64 Mo blk_2
22 Mo blk_3
Si le NameNode a un problème :
DN
DN
• DN
✓
q Données perdues à jamais
NN
✓
q Données inaccessibles?
NN
Standby
quelque part sur le système de NameNode
fichiers du réseau
• Patron d’architecture de
développement permettant de traiter
des données volumineuses de
manière parallèle et distribuée
• Possibilité : d e s Ve
Livre
Grand ntes
ventes.
Reducers
Reducers
de chaque Reducer
• Chaque Reducer traite un ensemble Résultats
d’enregistrements à la fois, pour générer les
résultats finaux
• JobTracker
§ Divise le travail sur les Mappers et Reducers, s’e xécutant sur les différents
nœuds
• TaskTracker
§ S’e xécute sur chacun des nœuds pour exécuter les vraies tâches de Map-
Reduce
§ Choisit en général de traiter (Map ou Reduce) un bloc sur la même machine
que lui
§ S’il est déjà occupé, la tâche revient à un autre tracker, qui utilisera le
réseau (rare)
1
Lance application
MyApp
Node Manager
Resource
Manager 2
Node Manager
Déclenche
Application
Master
Node Manager
Node Manager
Resource 4 Allocation
Node Manager
MyApp
Resource
6
Manager Node Manager Déclenche
Application
Master
6
Node Manager Déclenche
MyApp
YourApp
Node Manager
Application
Master MyApp
Resource
Manager Node Manager
Application
Master
Node Manager
MyApp
YourApp
Node Manager
Application
Master MyApp
Resource
Manager Node Manager
Application
YourApp
Master
Node Manager
MyApp
WordCount
DataNode myData
Node Manager
Block2
Resource
DataNode
Manager Node Manager
Déclenche
Application
Master
DataNode
Node Manager
DataNode myData
Node Manager
Block2
Allocation
Resource
DataNode
Manager Node Manager
Demande Ressources
(Mappers) Application
Master
DataNode
Node Manager
DataNode myData
Node Manager
Block2
WordCount
Map Task
Resource
DataNode
Manager Node Manager
Application
Master
DataNode
Node Manager
DataNode myData
Node Manager
Block2
WordCount
Map Task
Resource
DataNode
Manager Allocation
Node Manager
Demande Application
Ressources Master
(Reducers)
DataNode
Node Manager
DataNode myData
Node Manager
Block2
WordCount
ReduceTask
Resource
DataNode
Manager Node Manager
Application
Master
DataNode
Node Manager
WordCount
ReduceTask
• Dans un livre: pour chaque mot donné, indiquer les différentes pages
où se trouve ce mot
• Dans le web: on trouve des liens vers des pages web à partir d’un
ensemble de mots clefs
• Mapper è
• Reducer è
Source
des
données
(A
si
de
la
table
1,
B
si
de
la
table
2)
• Reducer :
§ Fera l’opération de jointure entre les deux sources, en testant la provenance
avec le champs supplémentaire (A ou B)
EN CONCLUSION…
• Cours
§ Big Data Analytics – Lesson 1: What is Big Data , IBM, Big Data University
§ Intro to Hadoop and MapReduce , Coursera, Udacity
• Présentations
§ Introduction to YARN and MapReduce2 , Cloudera