8.3 Carnet de notes
Après avoir collecté et remanié vos données, l’étape suivante consiste à explorer et décrire vos données. Ensuite, vous envisagerez diverses pistes d’analyses probablement, et vous serez amené à adopter un processus itératif où vous explorez une idée, celle-ci vous livre des nouvelles informations, ce qui vous conduit à une nouvelle idée, que vous étudiez, et ainsi de suite.
Vous avez à nouveau déjà toutes les clés en main pour mener à bien cette tâche avec tout ce que vous avez appris dans les trois cours précédent de science des données. L’outil le plus efficace est le document R Notebook dans RStudio. Vous avez utilisé ce document notebook dans l’ensemble des cours de sciences de données. L’utilisation du R Markdown et de Git permet d’associer le code (R, Python, SQL, ou autre) et le texte narratif avec un gestionnaire de version. Tout est en place pour analyser vos données confortablement et de manière reproductible.
Votre objectif sera donc de permettre à une personne externe de comprendre vos analyses grâces à l’intégration de la documentation et du code dans vos carnets de notes. Dans un gros projet, il est tout-à-fait habituel d’avoir plusieurs carnets de notes différents. Ceux-ci constituent des étapes successives de l’analyse des données et/ou explorent des facettes différentes de ces données. Rassemblez vos carnets de notes dans un sous-dossier (dans la structure proposée pour l’assignation, ce sera dans le sous-dossier results
).
Nommez vos différents fichiers de manière concise mais explicite quant au contenu. Cela facilite grandement la clarté de l’ensemble. Enfin, si une succession logique existe entre ces différents fichiers (étapes successives de l’analyse), pensez à les nommer de manière à ce qu’ils apparaissent correctement rangés lorsque les fichiers sont présentés par ordre alphabétique. Le plus simple étant d’utiliser un préfixe numérique correspondant à l’étape de l’analyse, par exemple, 01_description.Rmd
, 02_first_exploration.Rmd
, 03_model1.Rmd
, 04_model2.Rmd
. Si l’analyse est vraiment très complexe, n’hésitez pas à structurer à l’aide de sous-dossiers dans results
.