8.3 Carnet de notes

Après avoir collecté et remanié vos données, l’étape suivante consiste à explorer et décrire vos données. Ensuite, vous envisagerez diverses pistes d’analyses probablement, et vous serez amené à adopter un processus itératif où vous explorez une idée, celle-ci vous livre des nouvelles informations, ce qui vous conduit à une nouvelle idée, que vous étudiez, et ainsi de suite.

Ne négligez jamais le temps nécessaire pour explorer et analyser vos données. Cela peut très facilement vous occuper la moitié du temps de l’ensemble de votre travail ! Une erreur fréquente est de passer tout son temps à la paillasse, en espérant que la quantité de données acquise sera ensuite digérée et analysée en quelques jours seulement.

Vous avez à nouveau déjà toutes les clés en main pour mener à bien cette tâche avec tout ce que vous avez appris dans les trois cours précédent de science des données. L’outil le plus efficace est le document R Notebook dans RStudio. Vous avez utilisé ce document notebook dans l’ensemble des cours de sciences de données. L’utilisation du R Markdown et de Git permet d’associer le code (R, Python, SQL, ou autre) et le texte narratif avec un gestionnaire de version. Tout est en place pour analyser vos données confortablement et de manière reproductible.

Votre objectif sera donc de permettre à une personne externe de comprendre vos analyses grâces à l’intégration de la documentation et du code dans vos carnets de notes. Dans un gros projet, il est tout-à-fait habituel d’avoir plusieurs carnets de notes différents. Ceux-ci constituent des étapes successives de l’analyse des données et/ou explorent des facettes différentes de ces données. Rassemblez vos carnets de notes dans un sous-dossier (dans la structure proposée pour l’assignation, ce sera dans le sous-dossier results).

Nommez vos différents fichiers de manière concise mais explicite quant au contenu. Cela facilite grandement la clarté de l’ensemble. Enfin, si une succession logique existe entre ces différents fichiers (étapes successives de l’analyse), pensez à les nommer de manière à ce qu’ils apparaissent correctement rangés lorsque les fichiers sont présentés par ordre alphabétique. Le plus simple étant d’utiliser un préfixe numérique correspondant à l’étape de l’analyse, par exemple, 01_description.Rmd, 02_first_exploration.Rmd, 03_model1.Rmd, 04_model2.Rmd. Si l’analyse est vraiment très complexe, n’hésitez pas à structurer à l’aide de sous-dossiers dans results.

Tout bon chercheur doit analyser ses données de la ou des manipulations précédentes avant de lancer une nouvelle expérience. Sans cela, comment pourra-t-il tirer les enseignements de ses résultats passés pour améliorer ses futurs travaux ?