
## MapReduce - finalisations et optimisations 

### Un MASTER qui affiche le résultat à partir de plus gros splits

Modifiez le MASTER pour qu'il utilise des plus gros splits déjà existants dans le dossier /cal/commoncrawl

ATTENTION, ce dossier n'est pas visible, ni les fichiers à l'intérieur, tant que vous n'avez pas "parcouru" ce dossier.

Il faut donc écrire manuellement /cal/commoncrawl une première fois:

Par exemple, pour pouvoir y accéder, il faut, depuis une machine de l'école, aller dans ce dossier une première fois en faisant

cd /cal/commoncrawl

ce n'est qu'une fois que vous avez fait cette commande que les fichiers vont apparaître dedans.

Vous avez un total de 1,3 To de données pour vous amuser.

### Démontrez empiriquement la loi d'Ahmdal

Démontrez empiriquement la loi d'Ahmdal, en faisant varier la quantité de donnée traitée ainsi que le nombre de machines. Vous ferez des graphiques explicatifs et en tirerez des conclusions. Le speedup doit se baser sur la version séquentielle vu au tout début du projet.

### Une prise en compte des pannes

Créez une copie de votre projet sur laquelle vous travaillez sur la robustesse: faites en sorte que votre programme fonctionne malgré des pannes inopinées de certaines machines. Pour tester, vous pouvez éteindre une ou plusieurs machines au milieu de calculs. Vous pouvez inventer d'autres pannes vous-même et présenter vos résultats. Comparez avec la méthode de robustesse utilisée par Google : <https://research.google.com/archive/mapreduce-osdi04.pdf> 

