TP2 Pig

TP n°2 : PIG
Matière : Traitement du Big data avancé
Classe : 1ère année MPSD
Enseignant TP : Mohamed Anouar DAHDEH
Objectifs :
Ce TP permet aux étudiants d’apprendre comment :
 Charger des données avec Pig
 Créer un schéma, lire, écrire et afficher des données
 Accéder aux champs d’un schéma avec Pig
Consignes :
Télécharger et décompresser le fichier data-pig.zip, sous le dossier

/home/cloudera
Livrable : Un compte rendu (seulement un fichier pdf) soigneusement rédigé,

contenant les requêtes exécutées et les résultats sous forme des captures d’écran.
Tout partage de travail du compte rendu avec vos collègues sera sanctionné par un
zero
Exercice 1: Exemple Word Count - Pig Script
Comment trouver le nombre d'occurrences des mots dans un fichier ? Certainement, vous
connaissez la réponse en utilisant un programme MapReduce écrit en Java.
Dans cet exercice, nous allons écrire un script de Pig simple pour le problème de comptage
des mots. Le script Pig suivant permet de calculer le nombre de fois qu'un mot répété dans
un fichier :
lines = LOAD '/user/cloudera/data-pig/poemes.txt' AS (line:chararray);

words = FOREACH lines GENERATE FLATTEN(TOKENIZE(line)) as word;
grouped = GROUP words BY word;
wordcount = FOREACH grouped GENERATE group, COUNT(words);
DUMP wordcount;
1
Explication :
Ce script Pig divise d'abord chaque ligne en mots en utilisant l’opérateur tokenize. La
fonction tokenize crée un sac de mots. L’utilisation de la fonction FLATTEN permet de
convertir le sac de mots en un tuple. Dans la troisième déclaration, les mots sont regroupés
de telle sorte que le nombre peut être calculé qui se fait à la quatrième déclaration.
Vous pouvez voir juste avec 5 lignes de programme de Pig, nous avons résolu le problème
de comptage des mots très facilement.
Questions :
Exécuter en mode MapReduce le script précédent :
1- En mode interactif (Grunt shell)

2- En mode Batch (script)
Exercice 2 : Création de schéma, lecture et écriture de données avec Pig
La première étape dans le traitement d’un ensemble de données à l’aide de Pig Script est de
définir un schéma pour l'ensemble de données. Un schéma est une représentation de
l'ensemble en termes de champs de données. Voyons comment définir un schéma avec un
exemple.
Prenons l'ensemble de données des produits (produits.txt) suivants dans Hadoop comme
exemple :
Ici le premier champ est l'identifiant du produit, le deuxième champ est le nom du produit et
le troisième champ est le prix du produit.
Question : Copier le dossier data-pig sous HDFS (Utiliser HUE par exemple)
2.1. Définition de schéma :
L'opérateur LOAD est utilisé pour définir un schéma pour un ensemble de données. Voyons
les différents usages de l'opérateur LOAD pour définir le schéma de l'ensemble de données
ci-dessus.
 Création de schéma sans spécifier tous les champs :
grunt> A = LOAD '/user/cloudera/data-pig/produits.txt';
2
Pig est un langage de flux de données. Chaque instruction dans Pig se compose d'une relation
et une opération. Le côté gauche de la déclaration est appelée relation et le côté droit est
appelé l'opération. Chaque instruction pig doit se terminer par un point - virgule.
Dans cet exemple A est une relation. /user/cloudera/data-pig/produits.txt
est le fichier dans HDFS. Pour voir le schéma d'une relation, saisir l’instruction suivante :
grunt> describe A;
Schema for A unknown.
Comme les champs ne sont pas définis, Le script a indiqué que le schéma de A est inconnu.
Question : Afficher le contenu de la relation A sur la console
grunt> ----------------------------------------------------------------------------------
Pour charger les données sous HDFS, on utilise la commande STORE
grunt> STORE A INTO 'hdfs directory name'
Question : Charger la relation A dans un dossier « produits » du HDFS
 Définition de schéma avec les noms de champs et les types de données.
Le script Pig suivant montre comment pouvons définir les noms et les types des champs (int,
chararray)
grunt> A = LOAD '/user/cloudera/data-pig/produits.txt' USING

PigStorage(',') AS (id:int, product_name:chararray, price:int);
grunt> describe A;
A: {id: int,product_name: chararray,price: int}
grunt> DUMP A;
Question : Charger la relation A dans un dossier « produits-copy » du HDF en remplaçant le

délimiteur « , »par « | ».
2.2 Accès aux champs :
Jusqu'à présent, nous avons vu comment définir un schéma, comment imprimer le contenu des
données sur la console et comment écrire des données dans HDFS. Maintenant, nous allons voir
comment accéder aux champs.
Les champs peuvent être accessibles de deux façons :
3
 Noms de champs : Nous pouvons spécifier le nom du champ pour accéder aux valeurs
de ce champ particulier.
 Paramètres positionnels : Les positions des champs commencent à partir de 0 à n. $ 0
indique premier champ, 1 $ indique deuxième champ
Questions :
Soit la ligne grunt shell suivante :
grunt> A = LOAD '/user/cloudera/data-pig/produits.txt' USING

PigStorage(',') AS(id:int, product_name:chararray, price:int);
1- Stocker dans une relation B tous les champs id des produits

2- Stocker dans une relation C tous les champs « nom et prix » des produits
Notes :
FOREACH est comme une boucle utilisée pour itérer sur les enregistrements d'une
relation.
Le mot - clé GENERATE spécifie quelle opération à faire sur une relation.
Exercice 3 : Comment filtrer les enregistrements – Script Pig
Pig vous permet de supprimer les enregistrements non nécessaires en se basant sur des
conditions. L’opérateur FILTER est similaire à la clause WHERE dans SQL.
Supposons que nous avons l'ensemble des données de vente « ventes.txt » ci – dessous :
Questions
1- Afficher les produits dont la quantité est supérieure ou égale à 1000

2- Afficher les produits dont la quantité est supérieure à 1000 dans l’année 2001
3- Afficher tous les produits vendus sauf ceux de l’année 2000
Note :
Vous pouvez utiliser tous les opérateurs logiques (NON, ET, OU) et les opérateurs
relationnels (<,>, ==, =,> =, <= !) dans les conditions de filtre.
Bon travail

TP2 Pig

Transféré par

Droits d'auteur :

Formats disponibles

TP2 Pig

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

TP2 Pig

Transféré par

Droits d'auteur :

Formats disponibles

TP n°2 : PIG

Matière : Traitement du Big data avancé

Classe : 1ère année MPSD

Enseignant TP : Mohamed Anouar DAHDEH

Télécharger et décompresser le fichier data-pig.zip, sous le dossier

Livrable : Un compte rendu (seulement un fichier pdf) soigneusement rédigé,

Exercice 1: Exemple Word Count - Pig Script

lines = LOAD '/user/cloudera/data-pig/poemes.txt' AS (line:chararray);

1- En mode interactif (Grunt shell)

Exercice 2 : Création de schéma, lecture et écriture de données avec Pig

2.1. Définition de schéma :

 Création de schéma sans spécifier tous les champs :

grunt> A = LOAD '/user/cloudera/data-pig/produits.txt';

Pour charger les données sous HDFS, on utilise la commande STORE

grunt> STORE A INTO 'hdfs directory name'

Question : Charger la relation A dans un dossier « produits » du HDFS

 Définition de schéma avec les noms de champs et les types de données.

grunt> A = LOAD '/user/cloudera/data-pig/produits.txt' USING

Question : Charger la relation A dans un dossier « produits-copy » du HDF en remplaçant le

2.2 Accès aux champs :

Les champs peuvent être accessibles de deux façons :

Soit la ligne grunt shell suivante :

grunt> A = LOAD '/user/cloudera/data-pig/produits.txt' USING

1- Stocker dans une relation B tous les champs id des produits

Exercice 3 : Comment filtrer les enregistrements – Script Pig

1- Afficher les produits dont la quantité est supérieure ou égale à 1000

Vous aimerez peut-être aussi