Compute Canada Federation National Training: Machine Learning

Tue, Feb 15, 2022 12:00pm - Thu, Feb 17, 2022 4:00pm

Status: Completed

This workshop introduces Data Analytics and Machine Learning Concepts.

This interactive online workshop is an introduction to the world of Machine Learning (ML), introducing participants to its algorithms, neural networks and when and how to use them.

It begins by introducing the data pipeline and its processes, before moving on to statistical and visualization approaches to conduct exploratory and descriptive analytics on data in answering the question “What happened in the past?”. From there, participants will explore the art of data preparation, including data cleaning, missing values, outlier detection, and feature transformation and engineering.

The second day will introduce predictive analytics to answer the question “What will happen in the future?” using machine learning algorithms. We will cover techniques for classifying and predicting data for the supervised learning algorithm, such as k-NN, Decision Tree, Random Forest, Naïve Bayes, Support Vector Machine (SVM), and logistic and linear regression, and provide guidance in deciding which ones to use. Finally, participants will learn data clustering techniques for the unsupervised learning algorithm, and be introduced to a set of statistical evaluation methods used in comparing the performance of various data manipulation techniques.

This workshop balances theory and practice. Participants will use practical concepts of machine learning applications to understand real-world situations.

The workshop will be delivered in English. French-speaking instructors will be present to respond to questions in the online chat room. Materials will be available in both English and French.

Topics

  • Data preparation
  • Machine learning theory
  • Machine learning process
  • Machine learning algorithms
  • Model Evaluation
  • Artificial Neural Network Learning Algorithms
  • Clustering

Schedule

  • February 15, 12:00-16:00hrs EASTERN
  • February 17, 12:00-16:00hrs EASTERN

Requirements

  1. Experience working with Python and data preparation.
  2. Participants are strongly encouraged to have a Compute Canada account, and a cloud project, well before the workshops begin. It can take several business days to obtain an account. https://ccdb.computecanada.ca/
  3. You will need your own laptop or desktop on which you have administrative privileges to install software.
  4. Participants must register using their institutional or organizational email address (not a personal email, ie. Gmail).

Connection details will be provided the day before each session only to registrants with an institutional/organizational email address

*****

Formation nationale de formation de la fédération Calcul Canada : Introduction à l’apprentissage automatique

Sommaire : Dans cette introduction à l’apprentissage automatique, nous utilisons la modélisation prédictive pour répondre à la question «Que se produira-t-il?».

Cet atelier interactif sur l’apprentissage automatique est une introduction aux algorithmes et aux réseaux neuronaux, où nous aborderons la question de quand et comment les utiliser.

Nous parlerons d’abord du pipeline de données et de ses procédés, pour poursuivre avec les méthodes statistiques et de visualisation qui nous permettent de découvrir et analyser les données pour savoir ce qui s’est produit dans le passé. Vous pourrez ensuite explorer l’art de la préparation des données, incluant le nettoyage, les valeurs manquantes, la détection des points aberrants et la transformation et la création des variables explicatives.

Le deuxième jour, nous étudierons les principes de l’analyse prédictive pour nous permettre de savoir ce qui se produira dans le futur. Nous parlerons de la classification et de la prédiction des données en apprentissage supervisé avec différentes techniques (k-NN, arbre de décision, Random Forest, Naïve Bayes, machine à vecteur de support (SVM), régression linéaire et logistique); nous vous donnerons aussi des indications sur comment sélectionner la technique appropriée à des cas particuliers. Finalement,vous apprendrez les techniques de regroupement pour l’algorithme d'apprentissage non supervisé et aurez un aperçu d’une série de méthodes d'évaluation statistiques servant à comparer la performance des techniques de traitement des données.

Cet atelier combine la théorie et les exercices pratiques. Vous aurez l’occasion d’appliquer les concepts d’apprentissage automatique pour comprendre des situations du monde réel.

Les ateliers se dérouleront en anglais, mais vous pourrez poser des questions en français par écrit. Le contenu de l’atelier sera disponible dans les deux langues.

Sujets

  • Préparation des données
  • Théorie
  • Processus
  • Algorithmes
  • Évaluation de modèles
  • Algorithmes de réseaux neuronaux
  • Utilisation des grappes de calcul

Horaire

  • 15 février, de midi à 16 h (heure de l’Est)
  • 17 février, de midi à 16 h (heure de l’Est)

Prérequis

  1. Connaissance pratique de Python et de la préparation des données.
  2. Nous vous encourageons fortement à posséder un compte avec Calcul Canada et à disposer d’un projet infonuagique bien avant le début des ateliers. Il peut y avoir une attente de plusieurs jours ouvrables avant que vous n’obteniez votre compte et votre projet. https://ccdb.computecanada.ca/
  3. Vous aurez besoin de votre propre ordinateur sur lequel vous disposez de privilèges administratifs pour installer des logiciels.
  4. Pour vous inscrire, vous devez utiliser une adresse de courriel fournie par votre établissement d’enseignement ou votre organisation. Les adresses de courriel personnelles (par exemple Gmail) ne sont pas acceptées.

La veille de chaque rencontre, vous recevrez par courriel les directives pour joindre l’atelier seulement si vous avez vous inscrit avec une adresse de courriel de votre établissement ou organisation.