1.1 Découverte des outils

L’information est partout et en quantité inimaginable. Pour ne citer qu’une valeur, en 2020, la quantité d’information ajoutée chaque semaine sur Internet était de 1000 milliards de milliards de bits (unité de base en informatique représentée par des 0 ou des 1). Pour traiter même une toute petite partie de ces données en lien avec la biologie, vous devrez être un scientifique des données capable d’employer toute une série d’outils (logiciels).

À la fin de ce premier module, vous aurez réalisé votre première analyse complète en biologie, et vous la réaliserez avec des outils professionnels que vous utiliserez durant toutes vos études et même après dans votre profession en lien avec la biologie.

La science des données requiert d’employer des outils performants que nous avons sélectionnés pour vous parmi la multitude de logiciels disponibles, car nous faisons le pari que ce seront les outils qui vous seront les plus utiles dans les 30 prochaines années, c’est-à-dire pendant une bonne partie de votre carrière.

Les outils logiciels que vous apprendrez à utiliser dans ce cours vont littéralement vous transformer. Vos capacités d’analyse et de compréhension du vivant seront transcendées.
Les outils logiciels que vous apprendrez à utiliser dans ce cours vont littéralement vous transformer. Vos capacités d’analyse et de compréhension du vivant seront transcendées.

1.1.1 SciViews Box

Dans ce cours, nous utilisons différents logiciels qui nécessitent une installation et une configuration en plusieurs étapes. Pour vous économiser ces étapes fastidieuses, nous employons un système complètement préconfiguré : la SciViews Box pour laquelle une nouvelle version est préparée avant chaque nouvelle année académique. Il s’agit d’une machine virtuelle, un ordinateur complet, mais dématérialisé en quelque sorte. Nous utilisons un système fonctionnant sur le Cloud et nommé SaturnCloud. SaturnCloud ne nécessite pas un ordinateur puissant pour y accéder, mais il faut par contre, une bonne connexion Internet. Il faut aussi que le serveur distant soit disponible et offre les ressources suffisantes pour travailler.

Depuis le cours en ligne, on accède facilement à la SciViews Box.

Le bouton RStudio vous conduit vers une page qui vous permet d’accéder à votre machine virtuelle hébergée sur Saturn Cloud dans l’organisation “EcoNum”. Vous observez qu’il n’est pas inscrit SciViews Box mais RStudio sur le bouton. Il s’agit du logiciel qui va nous permettre de réaliser vos rapports d’analyse.

Cette page contient également toutes les instructions indispensables pour :

  • installer et configurer la SciViews Box, composée entre autres des logiciels R et RStudio nécessaires pour ce cours
  • allumer, éteindre, valider votre configuration.

1.1.2 RStudio

RStudio permet la rédaction des rapports dans les meilleures conditions et d’y intégrer des graphiques, des tableaux ou encore des analyses statistiques. Des éditeurs de texte classiques comme Google Docs ou Microsoft Word ne sont pas orientés vers la production de documents techniques ou scientifiques. Nous utiliserons donc un logiciel complet et optimisé pour produire de tels documents : RStudio. Celui-ci s’appuie lui-même sur R qui est un langage taillé pour traiter des données, produire des graphiques et des tableaux et réaliser des analyses statistiques.

L’interface de RStudio se présente en quatre sous-fenêtres (on dit aussi des “panneaux” ou panes en anglais) que vous pouvez découvrir ci-dessous.

À vous de jouer !

Cliquez sur les symboles + pour découvrir le rôle de chaque sous-fenêtre de RStudio.

h5p

Des explications détaillées se trouvent dans l’annexe B.1 qui présente les bases de l’utilisation de RStudio. Vous avez également à votre disposition un aide-mémoire pour appréhender cette interface RStudio IDE Cheat Sheet.

Pour en savoir plus

1.1.3 R, les éléments de base

Dans la section précédente, vous avez pu découvrir que le logiciel R allait être un outil central dans cette formation en science des données.

R est un logiciel open source (c’est-à-dire que son code source est disponible ; un logiciel est constitué de la compilation d’un code source qui peut être rendu public comme ici, ou non) spécialisé dans l’analyse de données. Le langage de programmation R qu’il implémente est mature et développé depuis 1993. Il prend ses sources dans le langage S (spécialement conçu pour les statistiques dans les années 1970). R permet, entre autres, la manipulation et la visualisation de données, ainsi que les calculs statistiques. C’est l’un des logiciels les plus utilisés et les plus puissants pour l’analyse des données, avec Python, Julia et Matlab. Donc, étudier R sera un investissement clé pour votre future carrière de biologiste, car des données, vous en aurez tous à en analyser !

À vous de jouer !

Au tout début de ce premier module, vous avez lancé votre premier tutoriel intitulé “A00La_discovery” qui traitait de la découverte des learnr. Il était composé de questions à choix multiples et de zones de code R. Vous l’avez utilisé comme une calculatrice. Cependant, R est bien plus puissant qu’une calculatrice. Les tutoriels servent aussi à vous entraîner à écrire des instructions en R. Avant de vous lancer dans ces exercices, consultez l’Appendice C pour apprendre à utiliser correctement ces tutoriels “learnrs” pour les questions relatives à du code R.

Effectuez maintenant les exercices du tutoriel A01La_base (Les bases de R).

BioDataScience1::run("A01La_base")

Vous venez de découvrir les assignations, les fonctions, le chaînage d’instructions… Lancez-vous à présent dans une première analyse concrète de données biologiques qui sera l’occasion de découvrir comment on crée des graphiques avec R.