L’année 2023 marque une avancée significative pour Red Hat avec sa plateforme innovante OpenShift Data Science (RoDS). Cette dernière a pour but de fournir un environnement de collaboration robuste et flexible intégrant de puissants outils open source. Une initiative qui promet de transformer et de faciliter considérablement le travail des data scientists du monde entier.

L’univers de Red Hat OpenShift

Avant de plonger dans les spécificités de RoDS, il convient de comprendre le rôle majeur de Red Hat en tant que leader incontournable de l’open hybrid Cloud. Red Hat aide ses clients à construire, exécuter et gérer des applications en tout lieu, qu’il s’agisse d’applications traditionnelles, de microservices natifs du cloud, des applications ISV et des services cloud, ainsi que de l’analyse de données et de l’IA/ML.

Toutes ces applications sont basées sur Kubernetes, mais pas n’importe lequel : celui de Red Hat OpenShift. Pour faire simple, OpenShift, c’est Kubernetes, mais avec une expérience haut de gamme, entièrement gérée. OpenShift peut fonctionner sur n’importe quel type de matériel capable de supporter Linux. Que vous disposiez d’un matériel physique, virtuel, dans un cloud privé ou public, ou même en bordure de réseau (Edge), OpenShift est la solution.

Mais alors, où se situe RoDS dans tout cela ? En réalité, RoDS n’est pas qu’une simple plateforme de data science. Il s’appuie sur OpenShift, une plateforme éprouvée en entreprise, et offre une multitude d’options de déploiement, allant des machines physiques aux machines virtuelles sur site, en passant par tous les grands hyperscalers tels qu’AWS, Microsoft Azure, IBM Cloud et Google Cloud.

Les piliers d’OpenShift Data Science

RoDS est basé sur deux projets majeurs : Open Data Hub et Operate First. Open Data Hub est un projet open source communautaire qui démontre comment construire et architecturer une plateforme IA et Machine Learning sur OpenShift. De son côté, Operate First est un sous-ensemble d’Open Data Hub, axé sur l’excellence opérationnelle à grande échelle pour les cas d’utilisation communautaires et universitaires.

Mais ce n’est pas tout, RoDS s’intègre également dans un écosystème de partenaires riches et diversifiés. On y retrouve des acteurs majeurs tels qu’Intel, Nvidia, IBM Watson, Starburst, Galaxy, Anaconda, Pachyderm, PyTorch, TensorFlow… Ces partenariats renforcent la valeur de RoDS et offrent une flexibilité inégalée aux utilisateurs.

Un environnement de travail collaboratif : Les projets et les bancs de travail

La force de RoDS réside également dans sa capacité à offrir un environnement de travail collaboratif. Il est possible de créer des projets de data science qui peuvent être gérés par différents collaborateurs. A l’intérieur de ces projets, on trouve des bancs de travail (workbenches) qui sont des espaces de travail dédiés.

Chaque banc de travail peut être personnalisé avec des images spécifiques (TensorFlow, PyTorch, etc.), des tailles de conteneur et de stockage spécifiques. Cela permet à chaque membre de l’équipe de travailler dans un environnement adapté à ses besoins et à sa préférence en matière d’outils.

Vers l’avenir : Que nous réserve RoDS ?

RoDS ne compte pas s’arrêter en si bon chemin. Pour la première moitié de l’année 2023, l’accent sera mis sur l’amélioration des opérations de Machine Learning (MLOps), avec un modèle de service et de surveillance amélioré, et une intégration des outils de développement tels que VS Code et RStudio.

Pour la seconde moitié de l’année, l’objectif est de renforcer l’aspect collaboratif avec une meilleure gestion des accès et une collaboration multi-utilisateurs. De plus, la prise en charge des outils de data science tels que JupyterHub et Elyra sera améliorée et des images de notebook supplémentaires seront mises à disposition.

En conclusion, l’année 2023 s’annonce palpitante pour Red Hat OpenShift Data Science. Avec ses outils puissants, sa flexibilité et son écosystème de partenaires, RoDS promet de révolutionner le travail des data scientists, tout en respectant les enjeux de confidentialité et de souveraineté des données.