LSI et SEO : tout savoir

L’analyse sémantique latente, ou « Latent Semantic Indexing » en anglais (LSI), est une technique d’analyse de texte développée par des chercheurs de Bell Labs à la fin des années 80, qui permet de découvrir les relations contextuelles et sémantiques entre différents termes (mots-clés) dans un ensemble de documents.

Google utilise-t-il pas LSI (Latent Semantic Indexing)
Dans un contexte SEO, LSI est souvent évoqué pour expliquer comment les moteurs de recherche comprennent et classent le contenu de différentes pages web.

Comprendre la méthode LSI permet d’appréhender la base du fonctionnement d’un moteur de recherche. Notons cependant que cette approche reste limitée dans un contexte SEO.

Principe

L’indexation sémantique latente repose sur une technique de traitement du langage naturel, la décomposition en valeurs singulières. Le but est de réduire les dimensions d’un ensemble de données textuelles pour parvenir à mieux identifier les relations cachées entre les termes et les documents. Voici les étapes simplifiées de ce processus.

1 – Création d’une matrice terme-document

Dans cette matrice, chaque ligne représente un terme (mot-clé) et chaque colonne représente un document (page). La valeur de chaque cellule indique la fréquence du terme dans le document correspondant.

Page 1Page 2Page 3
Mot-clé 1203
Mot-clé 2240
Mot-clé 3111
Mot-clé 4421

2 – Décomposition en valeurs singulières

Cette matrice est décomposée en trois matrices de moindre dimensions, ce qui permet de capturer les relations sémantiques entre les termes et les documents.

La matrice U

Elle représente les relations entre les termes et les concepts latents découverts lors de la décomposition en valeurs singulières (SVD). Un concept latent est une idée ou un thème sous-jacent qui relie différents éléments de la matrice. Ces concepts ne sont pas directement observables mais peuvent être inférés à partir des relations entre les termes.

Chaque ligne de la matrice U correspond à un terme (mot-clé) de la matrice terme-document originale, et chaque colonne correspond à un concept latent. Les valeurs indiquent à quel point chaque terme est associé à chaque concept latent (dans le tableau fictif ci-dessous les valeurs sont comprises entre 0 et 1). En d’autres termes, cette matrice nous permet de voir comment les termes se regroupent autour de thèmes ou sujets sous-jacents.

Concept latent 1Concept latent 2
Mot-clé 10.420.69
Mot-clé 20.170.22
Mot-clé 30.480.46
Mot-clé 40.780.47

La matrice Σ

C’est une matrice diagonale contenant les valeurs singulières de la matrice terme-document. Ces valeurs singulières représentent l’importance relative des concepts latents. Les valeurs singulières sont ordonnées de la plus grande à la plus petite et elles indiquent combien de variance (ou d’information) chaque concept latent capture des données originales. Les concepts avec des valeurs singulières plus élevées sont plus significatifs pour décrire les relations dans les données. En pratique, cela permet de sélectionner les concepts les plus importants et de réduire les dimensions en éliminant ceux qui ont des valeurs singulières faibles.

Concept latent 1Concept latent 2Concept latent 3
6.04.03.0

La matrice VT

Elle décrit les relations entre les concepts latents et les différentes pages. Chaque colonne correspond à un document de la matrice originale, et chaque ligne correspond à un concept latent identifié. Les valeurs montrent à quel point chaque document est associé à chaque concept latent. Ainsi, cette matrice permet de voir comment les documents se regroupent en fonction des concepts latents. Si plusieurs documents ont des valeurs élevées dans une ligne particulière, cela suggère qu’ils traitent des mêmes thèmes ou sujets sous-jacents.

Page 1Page 2
Concept latent 10.650.72
Concept latent 10.330.63
Concept latent 10.910.75
Concept latent 10.120.40

3 – Réduction dimensionnelle

Les matrices produites peuvent avoir des dimensions très élevées, rendant l’analyse complexe et coûteuse en ressources. La réduction dimensionnelle consiste à réduire le nombre de dimensions (ou concepts latents) tout en conservant l’essentiel de l’information présente dans les données.

En réduisant le nombre de dimensions, on simplifie les données, ce qui permet de les analyser plus facilement et plus rapidement. Les dimensions moins importantes (avec des valeurs singulières faibles) peuvent contenir du bruit ou des informations peu pertinentes. Les éliminer permet de se concentrer sur les concepts les plus significatifs.

C’est la matrice Σ qui permet d’identifier les concepts latents les moins importants dans la matrice initiale.

Plutôt que de simplement compter combien de fois un terme apparaît dans un document (occurrence directe), la réduction dimensionnelle permet de comprendre le contexte sémantique des termes et des documents. Il devient possible d’identifier les relations thématiques entre les termes et les documents, même si ces termes ne co-occurrent pas souvent ensemble. Par exemple, deux termes peuvent ne pas apparaître souvent dans les mêmes documents, mais ils peuvent tous deux être fortement associés au même concept latent, indiquant une relation sémantique.

Google utilise-t-il encore la méthode LSI ?

Cette approche, bien qu’innovante pour son époque, ne correspond plus réellement aux besoins et aux capacités des moteurs de recherche actuels. Les algorithmes de Google, comme BERT et RankBrain, peuvent traiter des quantités de données beaucoup plus importantes et de manière plus sophistiquée.

Des techniques modernes permettent de comprendre non seulement les relations entre les termes, mais aussi le contexte complet et les intentions derrière les requêtes de recherche, et ce grâce à une approche plus large, loin de se limiter à des comparaisons mot-clé par mot-clé.

Comprendre les limites de l’approche LSI pour le SEO

Bill Slawski exprime une opinion critique sur le sujet. Selon lui, cette approche est trop directe. Brevets à l’appui, il insiste sur le fait que cette méthode obsolète n’est plus utilisée par Google depuis des années.

Bien que l’indexation sémantique latente soit une technique utile pour comprendre les relations contextuelles et sémantiques entre les termes dans un ensemble de documents, l’idée de l’utilisation de « mots-clés LSI » comme moyen d’optimisation SEO est remise en question depuis plusieurs années.

L’alternative ? Une approche basée les vecteurs de contexte, qui permet de comprendre le sens des mots en fonction de leur utilisation dans différentes situations. C’est d’ailleurs sur cette approche que se base l’algorithme BERT développé par Google.

Des algorithmes dérivés de type S-BERT (sentence-BERT), ont même été conçus spécifiquement pour générer des représentations vectorielles de phrases qui peuvent être utilisées pour mesurer la similarité sémantique avec encore davantage de précision.

Retrouvez les meilleures définitions dans le glossaire SEO de La Mandrette !

Fantin Deliège, expert SEO

L’auteur : Titulaire d’un master en communication, Fantin a occupé plusieurs postes (rédacteur SEO, chargé de projet) avant de devenir consultant. En poste chez La Mandrette depuis 2021, il met en œuvre les actions SEO sur les projets clients.