Nothing Special   »   [go: up one dir, main page]

Fiche de TD INF 356

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 21

Fiche de TD corrigé d’ingénierie de donnée

I. BASE DE DONNEE NoSQL

1- Le NoSQL c'est une base de données qui :


Attention, plusieurs réponses sont possibles.
a) Permet la tolérance aux pannes

b) la gestion des transactions concurrentielles

c) Permet la distribution des données et des requêtes

d) Permet de distribuer des calculs lourds

2- Lequel de ces couples est faux :


a) MongoDB - orienté document
b) Neo4j - orienté graphe

c) Redis - orienté clé/valeur

d) Cassandra - orienté graphe

3- Laquelle de ces propriétés ne fait pas partie du théorème de CAP :


a) Partition Tolerance

b) Consistency

c) Atomicity

d) Availability

4- MongoDB est un SGBDNR orienté :


a) Graphe
b) Document
c) Clé valeur
d) Colonne

5- Lequel des éléments suivants est un type de base de données nosql?


a) SQL
b) JSON

c) Bases de données de documents

d) Aucune de ces réponses

6- Lesquelles des bases de données NoSQL suivantes sont les plus simples?
a) Clé-Valeur
b) Document
c) Colonne large
d) Tout ce qui précède
7- MongoDB est système de gestion de bases de données
a - SQL
b - Les deux réponses sont correctes
c - NoSQL
d- Les deux réponses sont incorrectes
EXERCICES RESOLUS SUR DES QCM SUR MAPREDUCE GROUPE 2:

1) Choisissez la bonne réponse:


a) MapReduce essaie de placer les données et le calcul le plus proche dans le temps
b) La tâche Map du MapReduce est exécutée à l'aide de la fonction Mapper ()
c) Réduire la tâche dans MapReduce est effectuée en utilisant la fonction Map()
d) Toutes les réponses précédentes

2) _________est responsable de la consolidation des résultats produits par chacune


des fonctions / tâches Map ().
a) Reduce
b) Map
c) Reducer
d) Toutes les réponses précédentes

3) Le nombre de Maps est généralement déterminé par la taille totale des:


a) Entrées
b) Sorties
c) Tâches
d) Aucune des réponses précédentes
4) L’entrée du _______ est la sortie triée des Mappers.
a) Reducer
b) Mapper
c) Shuffle
d) Toutes les réponses précédentes

5) Lesquelles des phases suivantes se produisent simultanément ?


a) Shuffle & Sort
b) Reduce & Sort
c) Shuffle & Map
d) Toutes les réponses précédentes
6) L'interface _________ réduit un ensemble de valeurs intermédiaires qui
partagent une clé avec un ensemble plus petit de valeurs.
a) Mapper
b) Reducer
c) Writable
d) Readable

7) YARN signifie :
a) Yahoo’s another resource name
b) Yet another resource negotiator
c) Yahoo’s archived Resource names
d) Yet another resource need.

8) Elasticsearch est …
a) un serveur de bases de données
b) un outil de traitement de données
c) un outil de visualisation de données
d) un serveur de pages Web
9) __________ peut-être décrit comme un modèle de programmation utilisé
pour développer des applications basées sur Hadoop qui peuvent traiter des quantités
massives de données.

a) MapReduce
b) Mahout
c) Oozie
d) Toutes les réponses précédentes

10) Un nœud ________ sert d'esclave et est responsable de l'exécution d'une


tâche qui lui est assignée par le JobTracker.
a) MapReduce
b) Mapper
c) TaskTracker
d) JobTracker

II. HADOOP

1- Apache Hadoop atteint la fiabilité en répliquant les données sur plusieurs hôtes et ne
nécessite donc pas de stockage sur les hôtes.

a. Système de fichiers
b. RAID (Redundant Arry of Independent Disks) en français regroupement
redondant des disques indépendants
c. FS local
d. Système opérateur

2- Devrions-nous utiliser RAID avec le cluster Hadoop en production?

a. Oui
b. Non
c. Oui sur NameNode, Non sur DataNode
d. Oui sur DataNode, Non sur NameNode

3- Laquelle des commandes suivantes sont utilisée pour entrer en mode de sécurité?

a. hadoop dfsadmin –safemode get


b. bin dfsadmin –safemode get
c. hadoop dfsadmin –safemode enter
d. Aucune de ces réponses

4- HDFS permet à un client de lire un fichier qui est déjà ouvert pour l'écriture?
a. Faux
b. Vrai

5- Laquelle des affirmations suivantes est vraie à propos de Hadoop?

a. Un petit fichier occupe un bloc complet (128 Mo) en HDFS


b. Master divise le fichier en petits morceaux, c'est-à-dire des blocs
c. HDFS Master (NameNode) est le point de défaillance unique
d. Nous ne pouvons pas éditer un fichier une fois écrit en HDFS

6- Laquelle des affirmations suivantes est vraie à propos de Hadoop?

a. Un petit fichier occupe un bloc complet (128 Mo) en HDFS


b. Master divise le fichier en petits morceaux, c'est-à-dire des blocs
c. HDFS Master (NameNode) est le point de défaillance unique
d. Nous ne pouvons pas éditer un fichier une fois écrit en HDFS

7- Lequel des énoncés ci-dessous est vrai à propos du DataNode?

a. DataNode stocke les données réelles


b. DataNode peut être déployé sur du matériel de base en production
c. DataNode répond aux demandes de lecture et d'écriture
d. Tout ce qui précède

8- Pendant Safemode, le cluster Hadoop est dans:

a. Lecture seulement
b. Écriture seule
c. Lire écrire
d. Aucune de ces réponses

9- Pendant Safemode, le cluster Hadoop est dans:

a. Lecture seulement
b. Écriture seule
c. Lire écrire
d. Aucune de ces réponses

10- fichiers HDFS dans Hadoop fait laquelle des actions suivantes?

a. Obtient uniquement les emplacements de bloc du NameNode


b. Obtient les données du NameNode
c. Obtient à la fois les données et l'emplacement du bloc à partir du NameNode
d. Obtient l'emplacement du bloc à partir du DataNode
11- Laquelle des propositions suivantes convertissent les requêtes SQL en tâches
MapReduce?

a. Ruche
b. Percer
c. Oozie
d. Buse

12- Hadoop peut être déployé sur des serveurs de base, ce qui permet un traitement à
faible coût ainsi que le stockage d'énormes volumes de données non structurés.

a. Vrai
b. Faux

13- Lequel des éléments suivant sont utilisé pour ingérer des données en streaming dans
des clusters Hadoop?

a. Buse
b. Sqoop
c. Les deux ci-dessus
d. Aucune de ces réponses

14- Zookeeper est

a. Moteur de synchronisation et de coordination


b. Base de données No SQL
c. Système de collecte et d'agrégation de données
d. Moteur de traitement des données

15- Dans quelles langues pouvez-vous coder dans Hadoop?

a. Java
b. Python
c. C ++
d. Tout ce qui précède

16- Commande Hadoop pour lister tous les blocs correspondant à chaque fichier dans le
hdfs?

a. hadoop fsck / -files -blocks


b. hadoop fsck / -blocks -fichiers
c. hadoop ls / -blocks -fichiers
d. hadoop fchk / -files –blocks
17- Par rapport au SGBDR, Apache Hadoop

a. A une meilleure intégrité des données


b. Est-ce que les transactions ACID
c. Convient à la lecture et à l'écriture plusieurs fois
d. Fonctionne mieux sur les données non structurées et semi-structurées

18- Tous les fichiers d'un répertoire dans HDFS peuvent être fusionnés en utilisant lequel
des éléments suivants?

a. mettre fusionner
b. obtenir la fusion
c. remerge
d. fusionner tout

19- HDFS permet à un client de lire un fichier qui est déjà ouvert pour l'écriture?

a. Faux
b. Vrai

20- Les fichiers HDFS dans Hadoop fait laquelle des actions suivantes?

a. Obtient uniquement les emplacements de bloc du NameNode


b. Obtient les données du NameNode
c. Obtient à la fois les données et l'emplacement du bloc à partir du NameNode
d. Obtient l'emplacement du bloc à partir du DataNode

III. CASSANDRA

1. Cassandra est un projet lancé par quelle entreprise ?


a. Google
b. Yahoo
c. Apache
d. Facebook
2. Relevez la fausse assertion
a. Cassandra est une base de données SQL
b. Cassandra est présentement un projet open source
c. Cassandra est une base de données distribuées.
d. Cassandra est utilisée par Twitter
3. Lequel des éléments suivants est la commande pour exécuter les requêtes dans
CQLSH.
a. Execute()
b. Run()
c. Execute query()
d. Run query()
4. Quelle base de donnes convient le mieux pour gérer les données en petits volumes
a. Base de données relationnelle
b. Base de données NoSQL
c. Les deux, a et b
d. Aucun d’eux
5. Lequel des éléments suivants ne fait pas partie de l’architecture Cassandra
a. Colonne
b. Journal
c. MemTable
d. Filtre Bloom
6. Quel est le principal prérequis pour l’installation de Cassandra dans un
environnement Windows ?
a. CQLSH
b. Mémoire
c. Java
d. Windows script host
7. Lequel des éléments suivants n’est pas une propriété de Cassandra ?
a. Operations ACID
b. Déploiements décentralisés
c. Transactions simples
d. Prend en charge tous les types de données
8. La distribution des données dans les nœuds des clusters est effectuée suivant un
protocole appelé______ ?
a. Quick spread
b. Gossip
c. Map Reduce
d. Hach
9. Identifiez la séquence d’écriture des données dans le système Cassandra
a. Mem-table, Sstable, Commitlog
b. Commitlog, Sstable, Mem-table
c. Sstable, Mem-table, Commitlog,
d. Commitlog, Mem-able, Sstable
10. Que signifie l’acronyme Sstable ?
a. Sorted String Table
b. Structured String Table
c. Structured Sampled data
d. Sample Structured Table
11. Laquelle de ces structures de données réside en mémoire ?
a. Sstable
b. Commitlog
c. Mem-table
d. Aucune bonne réponse
12. Lesquelles de ces structures de données résident sur le disque ?
i. Commitlog ii. Sstable iii. Commit log
a. i et ii
b. i et iii
c. ii et iii
d. i, ii et iii
13. Que signifie l’acronyme CQL ?
a. Composite Querying Language
b. Cassandra Query Language
c. Cassandra Querying Language
d. Composite Query Language
14. Pour quelle raison facebook n’utilise pas cassandra ?
a. Manque de personnel
b. Difficulté de gérer les données
c. Pour des raisons humaines
d. Aucune bonne réponse
15. Lequel des énoncés suivant est faux en rapport avec Cassandra ?
a. Cqlsh permet d’effectuer des requêtes sur un système Cassandra
b. La valeur d’une colonne est obligatoire
c. Le fonctionnement de Cassandra n’assure pas la consistance des données.
d. L’architecture des machines est décentralisée.
16. Cassandra est une base de données appartenant à la famille des bases de
données____________
a. Orientées Lignes
b. Orientées Tables
c. Orientées colonnes
d. Orientées cellule
17. Cassandra ne n’assure pas laquelle de ces propriétés ?
a. Cohérence des données
b. Disponibilité des données
c. Résistance aux partitions
d. Aucune bonne réponse
18. Quel attribut d’une colonne permet de déterminer la mise à jour la plus récente d’une
donnée ?
a. Timelaps
b. Timestamp
c. Timeset
d. Aucune bonne réponse
19. Dans Cassandra, une colonne a une valeur appelée______
a. Comparator
b. Validator
c. Content
d. Aucune bonne réponse

20. Avant de pouvoir utiliser le cqlsh dans un environnement Windows, il est obligatoire
d’installer
a. Java
b. Command prompt
c. Net Framework 4.5
d. Python

IV. HBASE

Q.1 Les colonnes dans HBase sont organisées pour


• Groupe de colonnes
• Familles de colonnes
• Liste des colonnes
• Base de colonne
Q.2 HBase Admin et ____________ sont les deux classes importantes de ce package
qui fournissent des fonctionnalités DDL.
• HTableDescriptor
• HDescripteur
• HTable
• HTabDescriptor
Q.3 Apache HBase est une base de données non relationnelle calquée sur le
_________ de Google
• BigTop
• Grande table
• Scanner
• FondationDB
Q.4 La propriété qui permet un mode entièrement distribué pour HBase est
• hbase-cluster.distributed-all
• hbase-cluster.distributed-enable
• hbase-cluster.fully-distribué
• hbase-cluster.distributedy
Q.5 Dans HBase, un tableau peut
être Laissé directement
• Abandonné après la désactivation
• Uniquement désactivé, pas abandonné
• Seulement compressé, pas abandonné
Q.6 Chaque version de données dans une cellule ajoute des informations de version
via un
• VersionNon
• Valeur clé
• CléNon
• VersionValue
Q.7 Lequel parmi les suivants s'exécute sur HDFS et fournit des fonctionnalités
similaires à BigTable (Google) à Hadoop.
• HBase
• Ruche
• Cochon
• HCatalog
Q.8 Tous les travaux MapReduce lisant à partir d'une table HBase acceptent leur
paire [K1, V1] sous la forme
• rowid: valeur de la cellule
• rowkey: résultat de l'analyse
• famille de colonnes: valeur de cellule
• attribut de colonne: résultat de l'analyse
Q.9 Lors de l'écriture dans HBase à l'aide des tâches Mapreduce, chacune réduit
les
• Une région
• Deux régions
• Toutes les régions pertinentes
• Aucune région
Q.10 Un coprocesseur est exécuté lorsqu'un événement se produit. Ce type de
coprocesseur est connu sous le nom de
• Observateur
• Auditeur
• Maître
• Gestionnaire d'événements
Q.12 HBase est ________, définit uniquement les familles de colonnes.
• Orienté vers la ligne
• Sans schéma
• Schéma fixe
• Aucune de ces réponses
Q.13 Hbase est quel type de base de données?
• Schéma rigide
• Schéma-flexi
• Sans schéma
• Pas une base de données
Q.14 Un enregistrement supprimé dans HBase n'est pas immédiatement supprimé
de Hbase. Au lieu de cela, il est écrit dans un autre fichier et marqué comme
Supprimer. Un tel fichier est connu sous le nom de
• DFile
• Tombfile
• Pierre tombale
• Earmark
Q.15 La commande qui vous permet de modifier une valeur entière stockée dans la
cellule HBase sans la lire au préalable est
• Incrementcolumnvalue ()
• Incrémentaire ()
• Incrmentcellval ()
• Incrementnext ()
V. MONGODB

Chacune des questions suivantes n’a une et une seule bonne réponse.
1-MongoDB est système de gestion de bases de données
a - SQL c - Les deux réponses sont correctes
b - NoSQL d- Les deux réponses sont incorrectes

2- MongoDB est système de gestion de bases de données


a - Orienté clé/valeur c - Orienté document
b - Orienté colonne d - Toutes les réponses sont justes

3- MongoDB représente les documents sous format


a - JSON c - JSON et BSON
b - BSON d - JBSON

4- Concernant JSON et BSON


a - JSON est la représentation binaire de BSON
b - BSON est la représentation binaire de JSON
c - BSON est la représentation hexadécimale de JSON
d - toutes les réponses sont incorrectes

5- MongoDB est développé en


a - 2007 par 10gen qui souhaitait mettre sur pied une plateforme de cloud
computing
b - 2007 par google à cause de Google AppEngine
c - 2007 par Facebook à cause de la montée en puissance des données à stocker
d - par oracle

6- ObjectID est
a - l'identifiant unique d’un document généré par l’utilisateur
b - l'identifiant universel d’un document généré par le serveur mongoDB
c - l'identifiant universel d’une collection généré par le serveur mongoDB
d - l'identifiant unique d’un document généré par le serveur mongoDB

7- Sur MongoDB, un sous document


a - admet forcément un ObjectID
b - peut admettre un ObjectID
c - l’ObjectID du sous document est l’ObjectID du document qui le contient
d - n’admet pas un ObjectID

8- Mongodb est écrit en C++ et comporte un certain nombre d'outils en standard


qui sont :
a - Le serveur et Le shell javascript (le client) seulement ;
b - Les pilotes pour les langages hôtes
c - Le serveur, Le shell javascript (le client) et Les pilotes pour les langages
hôtes
d - Toutes les réponses sont justes

9- les outlis en ligne de commande de mongoDB sont


a - mongostart, mongoexport, mongoimport, Mongosniff et Mongostat
b - mongorestore, mongodump, mongoexport et mongostart
c - mongorestore, mongodump, mongoexport, mongoimport, Mongosniff,
Mongostat et mongostart
d – mongorestore, mongodump, mongoexport, mongoimport, Mongosn et
Mongostat

11- la commande qui permet d’afficher la base de données courante est


a - dbs c - bd
b - db d – use

12- la commande show dbs permet de :


a - d’afficher les bases de données et leurs collections
b - d’afficher les bases de données uniquement
c - d'afficher les bases de données et leurs documents
d - aucune réponse n’est juste

13- La commande use mi permet :


a - de changer la base de données courante
b -d’utiliser la base de donnée mi comme base de données courante uniquement
c - d’utiliser la base de donnée mi comme base de donnée courante et le crée
s’il n’existe pas
d – de créer une base de données mi uniquement

14- Quelle commande utilise t’on pour installer Mongodb sur Linux :
a – sudo apt-get install mongodb -o
b - sudo apt-get install mongodb -y
c - sudo apt-get install -y mongodb-org
d - sudo apt-get install -y mongodb

15- Quelle commande est utilisée pour lancer mongodb sur Linux
a - mongo
b - mongodb
c – mongodb start
d - mongo begen
16- Quelle commande est utilisée pour lister tous les documents d’une collection
etudiant
a - db.etudiant.findOne()
b - db.etudiant.find ()
c - db.etudiant.findAll ()
d - db.etudiant.find (‘All’)

17- Quelle commande est utilisé pour lister supprimer tous les étudiants de nom
‘toto’
a - db.etudiant.remove(toto)
b - db.etudiant.remove (nom=’’toto’’)
c - db.etudiant.remove ({ nom : ‘’ toto ‘’})
d - db.etudiant.delete ({nom=’’toto’’})
19- Quand nous utilisons mongodb, les documents sont stockés dans des
a – Tables c – Bases de données
b – Objets d – Collections

20- Quand nous utilisons mongodb, les Collections sont stockées dans des
a – Tables c - Bases de données
b – Objets d - Collections

VI. NEOJ4

Q. Qu'est-ce que Neo4J?


Il s'agit d'une base de données graphique open source utilisée pour connecter des données
riches pour se connecter à l'aide de systèmes alimentés par des graphiques afin de fournir une
connectivité précise des données disponibles. NOSQL est utilisé pour connecter les données,
avec l'implémentation Java et scala.
Q. Où utilisons-nous Neo4J?
Tout en travaillant avec d'énormes bases de données distribuées.
Q. Quelle est l'IP que nous utilisons pour accéder à l'environnement Neo4J?
http://127.0.0.1:7474/
Q. Mentionnez quelques fonctionnalités importantes de Neo4J.
Voici quelques fonctionnalités importantes:
- Représentation des données à l'aide d'un modèle graphique
-
-
par les API REST ou Java.
Que stocke un nœud de graphe Neo4J? Paires de valeurs-clés
Q. Quel est le langage de requête utilisé par Neo4J?
Cypher Query Language - CQL est utilisé pour exécuter des requêtes pour Neo4J.
Q. Quel type de langage est CQL.
Il existe deux types de langages de requête: procédural et déclaratif. CQL est un langage
déclaratif.
Q. Comment interrogez-vous la langue dans Neo4J.
CQL est le langage utilisé dans Neo4J et s'inspire de SQL pour expliquer les graphiques à
comprendre facilement. Des commandes comme sélectionner, insérer, mettre à jour ou
supprimer aident à mentionner les graphiques. Nous exécutons des commandes dans un
environnement d'invite «$».
Q. Expliquez la structure du langage de requête Neo4J avec un exemple.
La correspondance des modèles est facile lorsque vous travaillez avec des nœuds à l'aide de
Neo4J. Exemple: pour obtenir un casting d'acteurs commençant par S
MATCH (acteur: Person) - [: ACTED_IN] -> (film: Movie) O movie movie.title COMMENCE
PAR "S"
RETOURner le titre de movie.title AS, collecter (acteur.nom) AS cast ORDRE PAR titre ASC
LIMIT 10;
Q. Mentionnez quelques autres bases de données graphiques célèbres disponibles?
Les autres bases de données graphiques disponibles sur le marché sont:
-
-

Q. Énumérez certaines des commandes Neo4J que vous utilisez.


Il existe de nombreuses commandes dans Neo4J, dont voici quelques commandes de base:
- CRÉER - - Pour lire ou récupérer tous
- Combinaison de CREATE et MATCH.
- SET - Pour ajouter ou mettre à jour des propriétés à des nœuds / relations nouveaux ou
existants.
- CREATE UNIQUE - Pour mentionner des contraintes uniques afin d'éviter les valeurs
redondantes.
Q. À quoi sert la commande REMOVE?
Pour supprimer les étiquettes et les propriétés des nœuds, nous utilisons REMOVE.
Q. Quelle est la différence entre les commandes REMOVE et DELETE ?
La principale différence est que REMOVE concerne les étiquettes et les propriétés des nœuds,
tandis que DELETE consiste à supprimer les nœuds et les relations.
Q. Qu'est-ce que le cache d'objets dans Neo4J?
Afin d'améliorer les performances des traversées de graphe, le cache d'objets est utilisé pour
mettre en cache les nœuds et leurs propriétés.
Q. Quels sont les types de cache d'objets dans Neo4J?
Il existe deux types de cache d'objets qui peuvent également être appelés cache de haut niveau:
- Cache de référence
- Cache haute performance (HPC)

Q. Commande pour mettre à jour les propriétés ou ajouter de nouvelles propriétés aux
relations existantes?
SET est la commande utilisée pour mettre à jour ou ajouter des propriétés aux relations
existantes.
Pour filtrer ou limiter le nombre de lignes renvoyées par une requête, nous utilisons la clause
Neo4j CQL LIMIT.
Q. Quelle est la syntaxe de l'opérateur IN?
Syntaxe de l'opérateur IN: IN []
Q. CREATE UNIQUE est utilisé pour?
CREATE UNIQUE utilisé pour fixer les structures de graphe.
Q. Quel est le plus rapide pour gérer les graphiques, MYSQL ou Neo4j?
Pour gérer les graphiques, Neo4j est le plus rapide par rapport à MYSQL.
Q. Quelle architecture permet un serveur distant?
Architecture REST, qui permet à neo4j pour les serveurs distants

LE LANGAGE CYPHER

L'objectif de cet exercice est de vous permettre de manipuler le langage Cypher.


1. Créer un nœud : vous
Tout d'abord, nous allons créer un nœud grâce à la clause CREATE :
CREATE (vous:Personne { nom:"Vous" })
RETURN vous
2. Ajoutons d’autres attributs a nôtres nœud.
Nous pouvons ajouter d'autres attributs à notre nœud comme ceci:
CREATE (vous:Personne { nom:"Benoit", twitter:'logisima', …? })
3. Ajoutons une relation de type AIME avec votre nœud créer plus haut.
MATCH (vous:Personne { nom:"Vous"})
CREATE (vous)-[aime:AIME]->(neo:Database:NoSql:Graph {nom:"Neo4j" })
RETURN vous,aime,neo
4. Récupérons un nœud avec le label Personne et ayant benoit comme valeur pour la
propriété nom.
(vous:Personne { nom: "benoit" }) permet de
5. Créer vos amis
À présent, nous allons ajouter vos amis dans le graphe :
MATCH (vous:Personne { nom:"Vous" })
FOREACH (nom in ["Thibaut","Anne","Fabien","Charlotte","Elise"] |
CREATE (vous)-[:AMI]->(:Personne { nom: nom })
Foreach permet d'exécuter une opération pour chaque élément de la liste.
6. Retrouver vos amis
MATCH (vous { nom:"Vous" })-[:ami]->(vosAmis)
RETURN vous, vosAmis
7. Créer les amis de vos amis avec leurs compétences
a) De Thibaut :
MATCH (neo:Database { nom:"Neo4j" }),
(thibaut:Personne { nom:"Thibaut" })
CREATE (thibaut)-[:AMI]->(:Personne:Expert { nom:"Linda" })-[:COMPETENCE]->(neo)
b) Puis d'Anne :
MATCH (neo:Database { nom:"Neo4j" })
MATCH (anne:Person { nom:"Johan" })
CREATE (anne)-[:AMI]->(:Personne:Expert { nom:"Maxime"})-[:COMPETENCE]->(neo)
VII. MACHINE LEARNING
111.1 Alice veut écrire un programme qui utilise la fréquence des mots « science »,
« public », « accès », « université », « gouvernement », « financer », « éducation »,
« budget », « justice »et « loi » pour déterminer si un article traite ou non de politique
Scientifique. Elle a commencé par annoter un millier d’articles selon leur sujet. Quel
Genre de problème d’apprentissage automatique doit-elle résoudre ?

1.4 Parmi les problèmes suivants, lesquels se prêtent bien à être traités par la
machine learning ?

1. Déterminer l’horaire optimal pour poster un contenu sur une page web.
2. Déterminer le chemin le plus court entre deux nœuds dans un graphe.
3. Prédire le nombre de vélos à mettre en location à chaque station d’un système de
location de vélos citadins.
4. Évaluer le prix qu’un tableau de maître pourra atteindre lors d’une vente aux
enchères.
5. Débruiter un signal radio.

1.3 Benjamin dispose de 10000 articles de journaux qu’il souhaite classer par leur
thématique. Doit-il utiliser un algorithme supervisé ou non supervisé?

1.4 Les données de Cécile sont décrites par 10 variables. Elle aimerait cependant les
représenter sur un graphique en deux dimensions. Quel type d’algorithme d’apprentissage
doit-elle utiliser?

1.5 David gère un outil qui permet d’organiser les liens HTML qui ont été sauvegardés. Il
souhaite suggérer des catégories auxquelles affecter un nouveau lien, en fonction des
catégories déjà définies par l’ensemble des utilisateurs du service. Quel type d’algorithme
d’apprentissage doit-il utiliser?

1.6 Elsa veut examiner ses spams pour déterminer s’il existe des sous-types de spams. Quel
type d’algorithme d’apprentissage doit-elle utiliser?

1.7 Tom Mitchell définit la machine learning comme suit : « Un programme informatique est
dit apprendre de l’expérience E pour la tâche T et une mesure de performance P si sa
performance sur T, comme mesurée par P, s’améliore avec l’expérience E ». Fred écrit un
programme qui utilise des données bancaires dans le but de détecter la fraude bancaire. Que
sont E, T, et P?

1) Même si le machine learning est un concept intéressant, les applications pratiques en


entreprise sont limitées ? VRAI ou FAUX

2) Les algorithmes de machine learning sont trop complexes pour être roulés dans le
nuage ? VRAI ou FAUX
3) Tous les exemples suivants sont des applications de machine learning, sauf:a)
Personnaliser les campagnes de marketing en fonction de la démographie des clients et de leur
historique d’achat.
b) Détecter les activités frauduleuses dans des transactions financières.
c) Analyser les IdO (internet des objets) afin de prédire les problèmes d’équipements avant
qu’ils se produisent. Analyser les revenus passés pour déterminer la cause de la chute des
ventes.
d) les revenus passés pour déterminer la cause de la chute des ventes.

4) Le machine learning s’applique seulement sur des données structurées ? VRAI ou


FAUX

5) Laquelle de ces techniques est fréquement utilisée en machine learning ?


a) Regroupement d’objets similaires en clusters.
b) Identifier les relations entre des événements afin de prédire quand l’un suivra l’autre.
c) Ce sont toutes des techniques de machine learning.

6) L’apprentissage non supervisé consiste à utiliser un algorithme qui n’a pas besoin
d’être supervisé par un scientifiquedes données ? VRAI ou FAUX

7) Plusieurs outils de machine learning sont disponibles gratuitement ? VRAI ou FAUX

8) L’arbre de décision est un des algorithmes de machine learning ? VRAI ou FAUX

9) Le filtrage automatique des pourriels est un exemple de machine learning ? VRAI


ou FAUX

10) L’apprentissage supervisé nécessite des données historiques pour lesquelles on connait
déjà les étiquettes ? VRAI ou FAUX

Solutions

1.1 Apprentissage supervisé (classification binaire).

1.2 1, 3, 4. (2 se résout par des algorithmes de recherche sur graphe, 5 par des algorithmes de
traitement du signal).

1.3 Non supervisé.

1.4 Réduction de dimension.

1.5 Apprentissage supervisé (classification multi-classe).


1.6 Apprentissage non supervisé ( clustering ).

1.7 E = les données bancaires. P = la capacité à détecter correctement une fraude.


T = prédire la fraude.

1) FAUX
2) FAUX
3) d) les revenus passés pour déterminer la cause de la chute des ventes.
4) FAUX
5) b)Ce sont toutes des techniques de machine learning.
6) FAUX
7) VRAI
8) VRAI
9) VRAI
10) VRAI

Vous aimerez peut-être aussi