Montrez n’importe quelle photo à un être humain et il sera capable de vous prédire ce qui se passe ensuite dans l’image avec une assez bonne précision. La femme sur son vélo va continuer à avancer ; le chien va attraper le frisbee, etc. Cette compétence, évidente pour nous, nécessite pourtant une quantité énorme d’informations pour enseigner la même chose aux ordinateurs. Et c’est justement ce que tentent de faire des chercheurs.

Des chercheurs du MIT qui tentent de résoudre ce problème ont abouti à des résultats très impressionnants, en utilisant des réseaux de neurones spécialement créés pour transformer des images en vidéos, permettant essentiellement à l’ordinateur de prédire ce qui se passe ensuite. Leur modèle a toutefois beaucoup de limites – les vidéos sont très courtes et souvent cauchemardesques. Mais cela reste quand même un exploit impressionnant dans l’évolution de l’A.I., et une autre étape vers des ordinateurs qui comprennent le monde un peu plus comme les humains.

Vous devriez regarder aussi ça :
Test - Le projecteur XGIMI Elfin Flip

Voici à quoi cela ressemble :

mit-ai-videos-a-partir-d-images-1

Il est assez facile de voir ce qui a été réalisé ici et ce qui reste à améliorer. Dans les vidéos de plage par exemple, on peut voir les vagues qui se brisent, et à la gare, le système sait que le train est susceptible de continuer à avancer. Cependant, lorsqu’on lui demande de prédire comment un humain marche à travers un parcours de golf, le résultat final n’a vraiment rien à voir avec un être humain.

Les vidéos sont floues, tachées, et irréalistes. Les chercheurs eux-mêmes notent que les prédictions de l’ordinateur ne correspondent généralement pas à « la bonne vidéo, » mais au moins « les mouvements sont plausibles. »