8.3 Carnet de notes
Après avoir collecté et remanié vos données, l’étape suivante consiste à explorer et décrire vos données. Ensuite, vous envisagerez diverses pistes d’analyses probablement, et vous serez amené à adopter un processus itératif où vous explorez une idée, celle-ci vous livre de nouvelles informations, ce qui vous conduit à une nouvelle idée, que vous étudiez, et ainsi de suite.
Vous avez à nouveau déjà toutes les clés en main pour mener à bien cette tâche avec tout ce que vous avez appris dans les trois cours précédents de science des données. L’outil le plus efficace est le document R Notebook ou R Markdown dans RStudio. Vous avez utilisé ce type de document dans l’ensemble des cours de sciences de données. L’utilisation du R Markdown et de git permet d’associer le code (R, Python, SQL, ou autre) et le texte narratif dans un même document, le tout sous un gestionnaire de version. Le format Markdown permet une lecture aisée du source du document, y compris dans les présentations “diff” (mise en évidence des parties effacées en rouge et ajoutées en vert) qui accompagnent le système de gestion de version. Tout est en place pour analyser vos données confortablement et de manière reproductible. Le nouveau format Quarto avec extension .Qmd
est très similaire au Markdown et convient parfaitement également.
Votre objectif sera donc de permettre à une personne externe de comprendre vos analyses grâce à l’intégration de la documentation et du code dans vos carnets de notes. Dans un gros projet, il est tout à fait habituel d’avoir plusieurs carnets de notes différents. Ceux-ci constituent des étapes successives de l’analyse des données et/ou explorent des facettes différentes de ces données. Rassemblez vos carnets de notes dans un sous-dossier (dans la structure proposée dans le projet à la fin de ce module, ce sera dans le sous-dossier results
).
Nommez vos différents fichiers de manière concise, mais explicite quant au contenu. Cela facilite grandement la clarté de l’ensemble. Enfin, si une succession logique existe entre ces différents fichiers (étapes successives de l’analyse), pensez à les nommer de manière à ce qu’ils apparaissent correctement rangés lorsque les fichiers sont présentés par ordre alphabétique. Le plus simple étant d’utiliser un préfixe numérique correspondant à l’étape de l’analyse, par exemple, 01_description.Rmd
, 02_first_exploration.Rmd
, 03_model1.Rmd
, 04_model2.Rmd
. Si l’analyse est vraiment très complexe, n’hésitez pas à structurer à l’aide de sous-dossiers dans results
.