Création et intégration

Intégrer des outils d'IA directement dans des environnements comme Photoshop, After Effect...

Runaway Research

Interface et Applications

Accessible à tous, sans expertise, Runaway peut-être utilisé dans les domaines variés, design, vidéos, 3D etc...

Flux de traitement 1

Autoencodage et diffusion

Autoencodage

Diffusion

Autoencodage

Diffusion

Performance

Qualité

Autoencodage

Transformer et interpréter efficacement les données complexes

L’autoencodage : Un auto-encodeur est un réseau de neurones artificiels utilisé pour l'apprentissage non supervisé de caractéristiques discriminantes. Pour le cas du traitement d’images, les caractéristiques discriminantes sont les caractéristiques principales d’une image qui la différencie de toutes les autres. L'objectif d'un auto-encodeur est d'apprendre une représentation (encodage) d'un ensemble de données (ici une vidéo) dans le but de réduire la dimension de cet ensemble (en gros c’est ce que fait un CRM aussi, réduire les dimensions caractéristiques d’un client à quelques données clés pour simplifier le traitement). L’image ci-dessous illustre un encodage et un decodage, la représentation propre au réseau de neurones se trouve au milieu, et est a priori incompréhensible pour un humain.

  • Distingue les traits essentiels
  • Réduit les dimensions des données
  • Crée une représentation codée complexe

Performence

Quality

Diffusion

L'Art de la Clarté à partir du Chaos

Cette étape consiste à partir d’une représentation z0 de la vidéo et d’y ajouter du bruit pour obtenir une représentation altérée zt, afin d’apprendre au modèle à débruiter des vidéos. Ci-dessous un exemple illustratif.

  • Révolutionnez la qualité vidéo
  • Perfectionnez les vidéos par l'apprentissage
  • Révélez chaque détail caché

Performance

Qualité

Autoencodage

Transformer et interpréter efficacement les données complexes

L’autoencodage : Un auto-encodeur est un réseau de neurones artificiels utilisé pour l'apprentissage non supervisé de caractéristiques discriminantes. Pour le cas du traitement d’images, les caractéristiques discriminantes sont les caractéristiques principales d’une image qui la différencie de toutes les autres. L'objectif d'un auto-encodeur est d'apprendre une représentation (encodage) d'un ensemble de données (ici une vidéo) dans le but de réduire la dimension de cet ensemble (en gros c’est ce que fait un CRM aussi, réduire les dimensions caractéristiques d’un client à quelques données clés pour simplifier le traitement). L’image ci-dessous illustre un encodage et un decodage, la représentation propre au réseau de neurones se trouve au milieu, et est a priori incompréhensible pour un humain.

  • Distingue les traits essentiels
  • Réduit les dimensions des données
  • Crée une représentation codée complexe

Performence

Quality

Diffusion

L'Art de la Clarté à partir du Chaos

Cette étape consiste à partir d’une représentation z0 de la vidéo et d’y ajouter du bruit pour obtenir une représentation altérée zt, afin d’apprendre au modèle à débruiter des vidéos. Ci-dessous un exemple illustratif.

  • Révolutionnez la qualité vidéo
  • Perfectionnez les vidéos par l'apprentissage
  • Révélez chaque détail caché
Flux de traitement 2

MiDaS

A partir de x, on applique un MiDaS, puis on réalise une diffusion pour obtenir le jeu de données ts, puis un encodage permet d’obtenir le jeu de données s.
MiDaS signifie “Mixed data sampling”, à savoir “échantillonnage de données hétérogènes”, dont on comprend que l’objectif est de sélectionner (échantillonner) ce qui est important dans un tas de données qui partent dans tous les sens (hétérogènes) et notamment lorsqu’un des attributs des données est le temps (une vidéo a une timeline contrairement à une image).
Ce type de traitement apparaît comme extrêmement vaste et vague, mais ici dans le modèle proposé par Runway Research, le MiDaS a un objectif bien précis : étudier la profondeur des images qu’on lui donne comme jeu d’entraînement.

MiDaS

Perception de
la profondeur

Le modèle d'IA traite de nombreuses images 2D successives, mais elles restent en 2D. Contrairement aux humains, l'IA ne recrée pas automatiquement la profondeur dans une vidéo 2D.

Apprentissage de
la profondeur

Il est crucial d'enseigner à l'IA le concept de profondeur d'image, en lui fournissant des vidéos et en expliquant ce qu'est une image en 3D.

Processus de Traitement Avancé

Après avoir enseigné la profondeur, une étape supplémentaire de diffusion est appliquée pour habituer l'IA à des données de qualité variable. Ensuite, un autoencodage est réalisé pour transformer les images en données compréhensibles par l'IA, intégrant les concepts précédemment appris de diffusion et d'encodage.

img_02
Flux de traitement 3

Décodage Visuel et Textuel par OpenAI

CLIP (Contrastive Language-Image Pre-training) est un outil d’OpenAI, un réseau de neurones capable, en apprentissage supervisé, de comprendre ce qui se trouve dans une image. Sa manière de fonctionner est résumée ci-dessous. Pour l’aspect Language_Image Pre-training : après encodage du texte et de l’image, le réseau de neurones obtient N attributs pour chacun des deux, respectivement appelés T1 à Tn, et I1 à In. Ensuite le réseau de neurones croise cela dans une matrice pour modéliser la correspondance entre texte et image. Pour l’aspect Contrastive : le contrastive learning est une technique de deep learning permettant d’apprendre les caractéristiques générales d’un ensemble de données sans label en apprenant au modèle quels points de données sont similaires ou différents. “Sans label” signifiant “sans étiquette”, car une grande partie de l’apprentissage par les modèles d’IA est basée sur des données (images, etc.) qui ont été vues par des humains et labellisées (étiquetées). Le contrastive learning permet de s’affranchir de cela.

Donc à ce stade, on est passé du jeu de données d’entraînement x aux données c, qui sont grâce à CLIP des descriptions textuelles des images successives des vidéos de x. On a donc des phrases comme par exemple “chat roux de face en haut à gauche de l’image”, et quelques secondes de la vidéo plus tard une autre image avec “chat roux de dos en bas à droite de l’image”, ce qui permet à l’IA de suivre ce qui se passe.

training
contrastive
Création de contenus (inference)

Comment fonctionne Runway Research

Ce processus est en 5 étapes, les 1 et 2 sont dans le bas de l’image, les 3,4, et 5 dans le haut de l’image. Lorsque l’on fournit à l’IA une vidéo donnée (entouré à gauche, vidéo d’une vache dans un enclos) et un prompt pour la customiser (entouré à droite le texte demandant une vache robot), voici comment le système fonctionne :

00

L’IA applique un MiDaS à la vidéo pour analyser son contenu en profondeur (ce qui donne le jeu de données s).

00

Elle applique CLIP au texte pour le lier à des images qu’il a en magasin (ce qui donne le jeu de données c).

00

Elle mobilise ses connaissances N de jeux de données zt (compréhension basique d’images 2D, avec du bruit ajouté pour améliorer la robustesse du système) qu’il confronte au jeu de données s.

00

Elle prend les données issues de l’étape 3, plus le jeu de données c issu de 1, qu’elle injecte dans l’intelligence de l’IA, les deux trapèzes violet. Dans cette étape l’IA applique des DDIM (Denoising Diffusion Implicit Models), qui est un peu le coeur du système de production de contenus. Il s’agit d’une nouvelle génération d’algorithmes, après les DDPM et les GAN, trop compliqué pour de la vulgarisation. Mais en gros c’est l’algorithme qui produit les vidéos demandées à partir de la vidéo initiale et du prompt de customisation, dans “le langage” de l’IA, il s’agit du jeu de données z0.

00

Enfin, il ne reste plus qu’à prendre ce jeu de données z0, et de le désencoder (voir trapèze beige), c’est-à-dire de le faire passer du “langage” de l’IA pour décrire des vidéos à une vidéo regardable par un humain, que l’on voit en haut à droite, une vidéo d’une vache robot dans un enclos boueux.

Conclusion

Synthèse de l'apprentissage

Les trois précédents paragraphes nous ont montré comment cette IA produit trois jeux de données :

  • zt : un jeu de données correspondant à une compréhension basique par l’IA des aspects graphiques d’images 2D
  • s : un jeu de données qui a analysé la profondeur des vidéos pour simuler les capacités de l’oeil humain (et produire des vidéos réalistes)
  • c : une description textuelle des images des vidéos x

Une fois tout cela obtenu, étant donné que zt, s, et c sont issus par trois traitement différents du même jeu de données initial x, alors il suffit maintenant de donner ces trois jeux à un nouveau réseau de neurones (ici il s’agit des deux trapèzes violets) qui procédera à leur encodage, et ce afin d’obtenir le jeu de données μ0(xt, t), qui représentera les connaissances de ce modèle d’IA. L’IA aura traduit “dans son langage” toutes les informations humaines qu’on lui aura enseigné !