Qu’est-ce que la réalité augmentée ?

Qu’est-ce que la réalité augmentée ?

samedi 10 juillet 2021

Cédric Bensoussan

Définition de la réalité augmentée

La réalité augmentée est la superposition de la réalité et d’éléments (sons, images 2D, 3D, vidéos, etc.) calculés par un système informatique en temps réel.

Elle désigne souvent les différentes méthodes qui permettent d’incruster de façon réaliste des objets virtuels dans une séquence d’images. Elle s’applique aussi bien à la perception visuelle (superposition d’images virtuelles aux images réelles) qu’aux perceptions proprioceptives comme les perceptions tactiles ou auditives. Ces applications sont multiples et touchent de plus en plus de domaines, tels que les jeux vidéo, l’éducation par le jeu, les chasses au trésor virtuelles, le cinéma et la télévision (post-production, studios virtuels, retransmissions sportives…), les industries (conception, design, maintenance, assemblage, pilotage, robotique et télérobotique, implantation, étude d’impact, etc.) ou le champ médical.

La réalité augmentée est l’un des phénomènes émergents permis par le développement et la démocratisation des technologies de l’information et de la communication (TIC) à la fin du xxe siècle (tendances attentivement suivies par les prospectivistes) et elle participe à certaines formes augmentées du travail collaboratif et de l’économie collaborative telles que conceptualisées par Michel Bauwens.

Les principes de la réalité augmentée

La technologie insère des images de synthèse sur les images du monde réel grâce à l’appareil photo d’un téléphone portable ou à des lunettes vidéo spécifiques. De petites caméras situées au milieu et à l’extérieur de chaque verre envoient des images vidéo en continu à deux écrans à cristaux liquides sur la face interne des lunettes par l’intermédiaire d’un processeur mobile. Une fois reliées à un téléphone intelligent ou à un ordinateur, les lunettes combinent les données informatiques avec la réalité filmée en direct, créant un champ de vision stéréoscopique unique sur l’écran LCD, où les images de synthèse se superposent avec celles du monde réel.

Agrémenter d’objets fictifs une séquence vidéo issue d’un plan fixe ne pose guère de problèmes. Les applications visées demandant souvent énormément de réalisme, il est indispensable que l’ajout d’objets dans une scène ne perturbe pas la cohérence du contenu filmé. Le fait de déplacer la caméra implique cependant un mouvement dans l’image de la scène filmée. Pour assurer la cohérence entre les deux flux réels et virtuels, un lien rigide doit être maintenu entre les deux mondes. Afin de donner l’illusion que ces objets fictifs appartiennent au même monde, il est nécessaire de bien les placer, bien les orienter et de respecter des facteurs d’échelle par rapport aux objets réellement filmés. Bien placer les objets virtuels par rapport aux objets de la scène nécessite de connaître la position de la caméra par rapport à la scène.

Le problème de la localisation de la caméra est donc important et peut être résolu par diverses approches. On peut utiliser un système de capteurs, comme des capteurs magnétiques qui mesurent la distorsion du champ magnétique pour calculer leur position, des capteurs optiques, des codeurs sur les moteurs du pied des caméras ou encore, évidemment, le flux vidéo.

Dans le cas de l’utilisation de capteurs externes au système de prise de vue, les informations de ce système (angle, position, focale) sont récupérées à l’aide de capteurs et l’incrustation est directement reproduite à la bonne échelle sur l’image à augmenter.

Cependant, si l’on considère uniquement les informations acquises par la caméra, le problème de réalité augmentée se ramène à un problème de vision par ordinateur. Dans certains contextes applicatifs comme le cinéma, l’ensemble de la séquence vidéo est disponible avant le traitement. Dans cette optique de post-production, des traitements lourds en termes de temps de calcul sont envisageables. Des techniques permettant à la fois la reconstruction 3D d’un certain nombre de points de la scène et la localisation 3D de la caméra sont mises en œuvre par des techniques d’autocalibrage ou d’ajustement de faisceaux. Des logiciels commerciaux reposant sur ce principe sont d’ores et déjà disponibles (on peut citer Boujou de la société 2d3 — issue de l’université d’Oxford, MatchMover de la société Realviz — issue du projet Robotvis de l’INRIA Sophia Antipolis, D-Fusion de la société Total Immersion ou encore en version web RevelActions de la société ActenGo). Ces méthodes sont cependant très dépendantes de la qualité de la mise en correspondance des primitives 2D (bruit d’extraction, distribution spatiale, nombre d’erreurs d’appariement…) et l’utilisateur est parfois mis à contribution.

Dans le cadre d’applications interactives (audiovisuel dans les « conditions du direct », industrie, jeux vidéo interactifs, médical, militaire) le recours à des techniques d’autocalibrage n’est pas possible. Des techniques permettant la localisation de la caméra à partir de l’image courante (et éventuellement des précédentes) sont nécessaires. Si un modèle de la scène (ou d’une partie de celle-ci) est disponible, le calcul de points de vue est évidemment une solution idéale à ce problème. Dans le cas où la structure 3D de la scène est (partiellement) inconnue, d’autres approches, reposant par exemple sur le calcul du déplacement de la caméra, sont envisageables.

Les avantages de ces approches interactives sont multiples :

  • elles permettent une intégration réelle-virtuelle en temps réel (c’est-à-dire à la cadence vidéo), car les calculs sous-jacents sont relativement peu coûteux ;
  • il n’est pas non plus nécessaire de faire un étalonnage « lourd » du système comme c’est le cas si on utilise d’autres types de capteurs, ni de disposer a priori de la séquence complète ;
  • elle peut fonctionner sur des plates-formes PC standards ce qui implique un coût relativement faible.

Dans tous les cas, une fois la caméra localisée par rapport à la scène, ces informations servent à adapter le modèle informatique de la scène, de manière à être capable de calculer les caractéristiques des objets virtuels que l’on veut y insérer. Ces objets virtuels subissent alors des transformations géométriques qui permettront de les « plaquer » dans l’image source et les y intégrer de la manière la plus naturelle possible.

WK