Runway a mis de côté Midjourney et Stable Diffusion et a présenté le premier clip d’art IA texte-vidéo. La société affirme qu’il est entièrement généré par des invites de texte.
La société modélise des scènes du monde réel.
L’art de l’IA qui a émergé l’année dernière utilisait un modèle texte-image. L’utilisateur entre une invite de texte décrivant la scène, et l’outil essaie de créer l’image en utilisant ce qu’il sait sur les “graines” du monde réel, les styles artistiques, etc. Des services comme Midjourney effectuent ces tâches sur des serveurs cloud, tandis que Stable Diffusion et Stable Horde utilisent des modèles d’IA similaires exécutés sur votre PC domestique.
Mais la conversion de texte en vidéo est la prochaine étape. Il existe différentes manières d’y parvenir. Pollinations.ai a accumulé plusieurs modèles que vous pouvez essayer. L’un d’eux consiste simplement à prendre quelques scènes liées et à les assembler pour créer une animation. L’autre crée simplement un modèle 3D de l’image et permet de la zoomer.
La piste adopte une approche différente. La société propose déjà des outils vidéo alimentés par l’IA. Inpainting pour supprimer des objets des vidéos (pas des images), du bokeh alimenté par l’IA, des transcriptions et des sous-titres, et plus encore. La première génération de ses outils de conversion de texte en vidéo vous permettait de créer une scène du monde réel et de l’utiliser comme modèle pour superposer une vidéo générée par du texte. Cela se fait généralement sous forme d’image. Par exemple, prenez une photo d’un golden retriever et utilisez l’IA pour la transformer en une photo d’un Doberman.
C’était la première génération. La deuxième génération de pistes peut utiliser des images et des vidéos existantes comme base, comme l’a tweeté la société. Mais la technologie est également capable de générer entièrement automatiquement de courts clips vidéo à partir d’invites de texte.
Les deux clips sont courts (plusieurs secondes au maximum), très granuleux et souffrent de faibles fréquences d’images, comme l’indique le tweet de la piste. On ne sait pas quand Runway publiera des modèles pour un accès anticipé ou un accès général. Tels que l’IA texte-vidéo pure, la conversion texte + image en vidéo. Il semble que plus vous donnez d’entrées au modèle, plus vous avez de chance. L’application d’une “superposition” vidéo à un objet ou à une scène existante semble donner la vidéo la plus fluide et la résolution la plus élevée.
Runway propose déjà un plan “Standard” de 12 $/mois qui permet des projets vidéo illimités. Cependant, certains outils, tels que la formation de votre propre portrait ou générateur d’animaux, nécessitent des frais supplémentaires de 10 $. On ne sait pas combien Runway facturera pour son nouveau modèle.
quelle piste faire Cependant, en quelques mois seulement, il montre la transition de l’art de l’IA texte-image à l’art de l’IA texte-vidéo.