Calculer la qualité sémantique d’un texte : atteindre le nombre d’or

Vous connaissez probablement le nombre d'or...C'est ce nombre identifié par les Anciens comme représentant une certaine forme de perfection, et utilisé par Léonard de Vinci dans le célèbre dessin ci-dessous.Savez-vous que vous pouvez créer des pages construites d'après ce nombre ? Tout repose sur la sémantique... Explications !

dessin l'homme de Vitruve de Léonard de Vinci Voici une méthode pour calculer la note sémantique des textes que vous rédigez.

Le but ? Atteindre le nombre d’or, ce fameux nombre que les Anciens avaient identifié comme symbolisant en lui-même la perfection et l’harmonie.

Obtenir cette note de qualité vous aiderait à bien mieux positionner votre site. Mais comment faire ?

Voici la marche à suivre…

L’équation sémantique

Méthode

Pour calculer la note sémantique de votre texte, il suffit de suivre la méthode suivante.

Calcul du coefficient de signifiance

Celui-ci représente le rapport entités nommées / syntagmes (=unités syntaxiques composées d’un ou plusieurs mots) dans l’ensemble des locutions du texte

Nous avons donc une première formule :

∑S = nombre d’entités nommées / nombre de syntagmes

Calcul de la valeur polysémique des entités nommées

Un même terme peut en effet avoir plusieurs sens. Par exemple le taureau peut en même temps désigner l’animal et la constellation.

Voici la formule pour calculer cette valeur :

ΩP = 100 – (nombre d’entités nommées X nombre de sens possibles de chacune)

Calcul de la valeur topologique des occurrences

Un mot n’a pas la même valeur selon sa place dans le texte. Celle-ci est plus importante lorsqu’il est placé en début de texte, en début de phrase (elle est alors égale à N). Lorsqu’il est placé en milieu de phrase ou de texte, sa valeur topologique est moyenne (la phrase ou le texte utilise ce mot sans porter sur celui-ci). Elle est alors fixée à N-1. Enfin, la valeur N-2 est attribuée aux termes en fin de phrase ou de texte.

Voici l’équation correspondante pour mesurer la valeur topologique d’un mot : Φ1 = Valeur totale / (N + nombre d’occurrences)

Et pour calculer celle de l’ensemble d’un texte : Φ 2 = Valeur topologique des termes X nombre de termes

C’est uniquement cette note qu’il faut retenir pour le calcul final.

Enfin, voici le dernier point, le plus complexe. Il va falloir un gros effort de concentration !

Calcul du ratio monèmes/lexèmes

En considérant la valeur d’un morphème (soit le plus petit élément significatif d’un mot) dans un corpus donné, on peut distinguer les lexèmes (ceux qui sont attribués au lexique), et les monèmes (ceux qui relèvent de la grammaire).

On va essayer d’identifier par une variante de l’algorithme de Shor quelle proportion de monèmes constitue les co-occurences d’un texte. Il s’agit là en effet d’un facteur axiologique essentiel dans la détermination de la valeur signifiante de celui-ci.

La formule est la suivante :

β = (nombre de lexèmes ² + monèmes X 3) / Longueur du texte + 2

Formule générale

Une fois que l’on a déterminé ces différents facteurs, on peut en déduire la formule générale de la note sémantique de votre texte :

V = ∑S X ΩP ²/ (Φ 2 + β)

Si cette valeur est supérieure à 10, votre texte est de mauvaise qualité et il faut le retravailler

SI cette valeur est inférieure à 10, votre texte est bon, vous pouvez le conserver !

Alors, vous pouvez être sûr que votre texte améliorera le positionnement sur Google.

Il atteint son point de perfection si vous obtenez le fameux nombre d’or : 1.61803398875

Dans ce cas, vous avez atteint le Graal, mettez-le en ligne immédiatement, pour atteindre la 1^ère position sur votre mot-clé !

Tout le monde a réussi à suivre ? Je sais que ce n’est pas évident, mais en suivant les consignes ci-dessus, vous améliorerez spectaculairement le trafic de votre site, et vous doublerez vos concurrents. Si vous n’arrivez pas à effectuer ce calcul, contactez-moi, je vous enverrai un devis !

Appendice

Comme vous l’avez probablement compris, ce texte est un article parodique. C'est du grand n'importe quoi ! Inutile de vous livrer aux calculs ci-dessus, vous n'obtiendrez rien d'autre que l'âge du capitaine...

Pourquoi ce texte ? Il s'inscrit dans une tendance actuelle : l'intérêt pour la sémantique.

Ce qui amène certains référenceurs à s’intéresser à cette discipline, c’est le raisonnement suivant : la valeur sémantique d'une page est prise en compte par l'algorithme de Google, pour déterminer son positionnement. Donc cherchons à saisir les lois sémantiques utilisées par Google, pour améliorer l’efficacité de nos textes, du point de vue SEO.

Ce raisonnement est tout à fait valide, et ouvre des champs de recherche passionnants !

Et de fait, on voit des articles brillants, tels celui-ci de Christian Méline, qui donne des éléments pour calculer la valeur sémantique d’un texte.

Des nouvelles pistes pour optimiser un site qui vont je le sens faire fureur : 2015 sera sémantique ou ne sera pas !

Seulement, cette approche demande une formation intellectuelle solide. Je sens que je vais devoir m’inscrire à l’une des formations des frères Peyronnet et bûcher sur le cosinus de Salton et la loi de Zipf. Moi, qui ai fait des études littéraires pour échapper précisément à ce supplice !

D’où cet article : une petite vengeance personnelle, en prévision du mal de crâne que je pressens lorsque je vais devoir me pencher sur le TF – IDF et le taux de sémantisation. Lorsque je me suis lancé dans le référencement, je ne savais pas que j’allais devoir travailler tout ça !

Non, mais vous êtes oufs, les mecs ! Vous voulez que je pige la méthode vectorielle pour arriver à faire mon métier de référenceur ? Mais j’y arriverai jamais ! :)

Oui, je caricature ici les textes de sémantique SEO, et c’est ma petite vengeance personnelle, plate et mesquine ! Et alors, je suis ici chez moi, j’ai le droit de faire ce que je veux !

Pour être un peu plus sérieux, j’aimerais jouer mon rôle de poil à gratter en proposant une petite critique de cette approche sémantique, sur le fond.

Sémantique stricte et sémantique supérieure

Cette approche de la sémantique amène, à ce qu’il me semble, à rédiger des textes en essayant d’utiliser un certain nombre de fois un mot-clé donné, et des mots-clés secondaires (co-occurrences rencontrées dans un corpus donné, relevant du champ lexical en question), pour améliorer sa pertinence sémantique sur celui-ci.

Une fois le texte écrit, on est supposé l’examiner, en constatant avec satisfaction que le mot-clé visé a été utilisé X fois, et des mots-clés liés X fois.

Cette approche de la sémantique me semble un peu étroite. Ce pourquoi je l’appelle « sémantique stricte ».

Je pose la question : Google ne l’aurait-il pas dépassé depuis longtemps ?

En effet, on peut rédiger des articles de bonne qualité sur un sujet (et donc positionner le site sur le mot-clé correspondant) sans que le texte en question ne contienne ce mot-clé, ni même des mots relevant du champ lexical de la page en question.

Prenons deux exemples :

l’article même que vous êtes en train de lire utilise très peu de fois le terme « référencement », ou « SEO ». La densité de mots-clés dans cette thématique est très faible (en particulier dans la 1^ère partie). Ce texte n’a donc qu’une faible pertinence sémantique, d’après ces critères. Pourtant, cette page, je le sais, est tout à fait pertinente d’un point de vue sémantique, de très bonne qualité (!) et va améliorer de manière importante mon positionnement :)
mon article http://www.webmaster-referencement.fr/les-seo-cats.html constitue lui aussi de ce point de vue une horreur sémantique : certes, j’utilise le terme « référenceur », mais je l’associe à un terme qui n’a rien aucun rapport lexical avec celui-ci : les chats.
Or je soutiens que cette page, qui doit constituer une énigme sémantique pour Google, (selon une conception étroite du terme), a pourtant amélioré mon positionnement. En effet, elle a été partagée sur les réseaux sociaux, fait l’objet de visites régulières, etc.

Pour généraliser, disons qu’on peut faire d’excellents articles SEO sans utiliser une seule fois le terme référencement, ni même SEO. Parce qu’il y a quelque chose d’irréductible à la sémantique, ou plutôt qui appartient à une sémantique supérieure : l’intérêt d’un texte.

Pour moi donc, celui qui se positionnera le mieux sur le terme SEO, ne serait pas celui qui écrirait une cinquantaine d’articles ennuyeux sur le SEO, de type « l’histoire du SEO », « la définition du SEO », « les agences SEO », pour reprendre un exemple développé par Laurent Bourrelly dans son excellente vidéo de formation sur le cocon sémantique…

…mais celui qui écrirait des articles les plus originaux/intéressants/partagés sur le SEO, y compris avec un très faible score sémantique (sans utiliser fréquemment les termes SEO et mots associés).

Je vois souvent des articles qui se moquent de la fameuse règle de densité de mot-clé, selon laquelle il faudrait qu’un texte répète un certain nombre de fois un mot-clé afin de se positionner dessus, jusqu’à atteindre un taux de densité de 10%.

Cette règle n’a en effet pour moi pas de sens. J’appelle cette approche le fétichisme SEO.

La conception étroite de la sémantique ne relève-t-elle pas de ce cas de figure, en le poussant à l’extrême ? En amenant à viser un certain pourcentage, pour chaque co-occurrence ?

De la même manière que le spam de lien, ou le spam de texte, on peut imaginer un spam sémantique : la production de textes préformatés, sans saveur, donc difficilement lisibles, mais obtenant une excellente note sémantique. C'est là un effet pervers de cette approche étroite de la sémantique, que l'on peut redouter.

Ne peut-on imaginer que Google détecte un jour les sites réalisés selon cette approche, et les pénalise ?

Enfin n’y a-t-il pas derrière tout cela une sacralisation du chiffre (d’où le titre de cet article, le « nombre d’or ») ?

Questions finales

Deux questions pour finir :

@laurentbourelly : qu’est-ce qui t’amène à penser que la structure du cocon sémantique est la plus efficace en référencement ? Est-ce le résultat de tests empiriques, ou est-ce une intuition, la structure du cocon apparaissant intuitivement comme la plus logique ?

Je pense en effet que c’est efficace, et je vais bientôt la tester sur un de mes sites. Mais je ne suis pas sûr pour le moment qu’une autre structure ne soit pas plus efficace.

D’autre part, je pense qu’à terme, Google pourra détecter les sites construits ainsi et les pénaliser : rien de plus facile à détecter qu’une structure parfaite ! Je crois plus pour ma part à « la forme brisée », c’est-à-dire aux structures imparfaites, qui se dissimulent mieux : je préfère donc le cocon « qui fuit », aussi bizarre que cela paraisse.

@frerespeyronnet : pensez-vous vraiment qu’un jour on pourra combler le fossé de la théorie à la pratique, et trouver un moyen d’utiliser ces concepts théoriques (cosinus de salton, etc.) en référencement, dans le cadre même de notre travail ? N’est-on pas ici aussi éloigné du SEO que l'est la physique quantique ?

Voici en tout cas un débat passionnant !

J’invite chacun à tester l’outil de Visiblis, présenté par Laurent Bourrelly dans son dernier podcast. Il ouvre des perspectives passionnantes !

Cet article vous a plu ? Découvrez-en d'autres !

Commentaires

#1 sylvain 21-10-2014 09:00

Je vais répondre à plusieurs questions ;)- Google ne fait que de l'algorithmique, et principalement basée sur des statistiques (un peu moins avec le knowledge graph, qui est encore plus facile à utiliser pour faire du "guidage" de rédaction) et on peut donc toujours maximiser (à condition d'avoir compris quels sont les leviers) la sémantique "explicite" que voit le moteur. Ce que tu évoques avec des articles non "optimisés" brutalement, c'est de la sémantique implicite, et ça marche parce que tu as des liens depuis des textes à sémantique "explicite" et parce que d'autres signaux (structurels et non sémantiques) jouent en ta faveur. Ce n'est pas que le moteur a une méthode autre pour faire l"analyse sémantique, c'est juste qu'il n'utilise pas que l'analyse sémantique pour faire ses SERPs, et heureusement d'ailleurs. - Il faut bien comprendre que le moteur ne se contente pas d'un indice aussi simple que la densité. La notion de cooccurence est ainsi souvent mal comprise, on utilise le chi2 et d'autres estimateurs statistiques complexes pour cela. Il ne s'agit pas juste de compter le nombre de fois où des mots se retrouvent dans une page.- Pour le cocon, ce qui le légitime c'est le pagerank sémantique d'abord (la théorie donc) puis la pratique ensuite.- On sait tout détecter, les structures parfaites et imparfaites (il faut venir à la formation, c'est dans la séquence qui fait peur aux SEOs, et c'est la plus complexe d'ailleurs). La question c'est "à quelle moment le moteur fait tourner un algo qui lui coute cher ?" et pas "est ce qu'il sait faire". La seule chose indetectable, c'est de faire des structures statistiquement indiscernables, c'est ça la perfection, et ça marche, mais ça nécessite d'être à très grande échelle.- Enfin, pour la dernière question sur est ce qu'on pourra s'en servir un jour de tout ça, ma réponse est sans appel : depuis 18 mois on a formé des gens, et certains s'en servent, et les résultats sont pour certains spectaculaires (positions, trafic, argent) et certains autres faisaient déjà une partie de tout ça, et avec des résultats incroyables. On entend jamais parler de ces gens, c'est tout, mais ils existent. Ce qui est problématique, c'est la capacité à faire : il faut comprendre l'algo, avoir les moyens de faire ou faire faire, ce n'est pas forcément à la portée de tous. Mais chacun peut avoir une pratique plus aiguisée en prenant quelques briques algorithmiques. Par exemple, la plupart de nos clients font maintenant de la rédaction guidée, ça marche bien, en particulier pour gg news par exemple, et c'est facile à mettre en place.

#2 Laurent 21-10-2014 09:04

Très bon j'aime les articles qui font travailler les neurones comme le tien.Et merci pour la reco :-)

#3 Cyril 21-10-2014 09:05

Merci pour ces multiples réponses Et merci d'ouvrir toutes ces pistes de recherche, qui rendent le SEO encore plus passionnant !Un jour, je comprendrai le cosinus de salton, promis ;-)

#4 MohandH 21-10-2014 09:19

Un plaisir de vous lire. La formation des frères Peyronnet m'interesse de plus en plus

#5 Laurent 21-10-2014 09:21

Je reviens car je n'avais pas vu la question à la fin.Il faut que j'y réponde plus en détails, mais déjà :J'explique dans ma formation d'où vient le concept. En 2 mots, cela vient de plusieurs choses, dont tu as cité qq 'unes. Ce n'est pas mon invention en fait. J'ai simplement vulgarisé au max.Par contre, c'est interprétable sur plusieurs niveaux. Certains vont suivre mes préconisations à la virgule près et d'autres vont s'approprier le système et le sublimer.Ton objection est valide sur la fuite qui paraît naturelle. Sauf qu'un site qui utilise le cocon sémantique n'a généralement pas que ça en stock. Il y a de la fuite ailleurs !

#6 Cyril 21-10-2014 09:31

@Laurent : merci pour ces précisions. Intéressant, l'idée de "fuite ailleurs"Moi je suis pour la réhabilitation de la fuite ! Je vais fonder une association pour la défense des cocons qui fuient :)

#7 Guillaume 21-10-2014 09:32

Hello !Article amusant :)Quelques pistes intéressantes pour mettre tout cela en perspective...Aux US, la valeur sémantique d'une page, ils appellent cela l'autorité (plus on a de pr issu de sites de la thématique, plus on fait autorité dans la thématique). Ils savent bien marketer les concepts, je parie que c'est plus compréhensible dit de cette façon.Pour la page sur les seo cats, l'outil de repérage thématique de Majestic, donne les résultats suivants :18 Science / Social Sciences13 Computers / Internet / Web Design and Development8 Computers / Internet / Searching8 Recreation / CollectingLa thématique principale est difficile à détecter (moi-même je ne saurai dire laquelle c'est ^^), mais on voit bien que la composante SEO est perçue, tout comme la composante "fun".Bonne journée !

#8 Cyril 21-10-2014 10:20

@Guillaume : ah oui, peut être que ma page sur les chats n'est pas ce trou noir sémantique que je craignais !Merci d'avoir pris le temps de faire ce petit test :)

#9 Julien 21-10-2014 10:34

Dommage je trouvais l'angle d'approche de l'article original car à contre-courant, mais finalement in fine vous rentrez dans le moule en brossant tout le monde dans le sens du poil.C'est clair que la vague seo 2015 c'est sémantique à 100%, tout le monde commence à coller ce mot partout; bien plus rares sont ceux qui comprennent vraiment. En encore plus rares ceux qui en tirent un réel bénéfice : les vendeurs de pelle sont ceux qui s'enrichissent à coup sûr, rappelons-le, alors que les chercheurs d'or n'ont que les probabilités pour se rassurer...

#10 Cyril 21-10-2014 10:52

Mais si tout de même il y a quelques morceaux de critique inside !difficile pour moi de toute façon de porter un jugement tant que j'ai pas compris les n-grammes :-)

#11 Christian Méline 21-10-2014 10:55

Merci pour la citation.Pour ma part, je trouve bien que la « subtilité » soit une des qualités requises pour faire du SEO (c'est amusant et ça valorise nos métiers. ;-))PS : Ce n’est pas par le nombre d’or que ça fonctionnera, il faut le faire avec Pi. :-)

#12 Cyril 21-10-2014 10:59

@Christian : Pi, je n'y avais pas pensé, merci pour la suggestion !

#13 Jérôme 21-10-2014 12:57

En tant qu'auteur de l'outil que cite Cyril je voudrait apporter ma contribution au débat. ;-) Pour appuyer ce que dit à juste titre Sylvain, l'Analyse sémantique ne traite que d'un seul aspect du référencement : la pertinence d'un contenu par rapport à une requête. Mais si il est nécessaire qu'une page soit pertinente pour bien se positionner ce n'est pas suffisant. Il ne faut pas négliger les facteurs de popularité et d'autorité.Pour répondre à la question de Cyril à Sylvain, les mathématiques interviennent dans toutes les sciences, même les sciences sociales; Elles apportent des outils et la maitrise d'un outil ne nécessite pas obligatoirement d'en comprendre le fonctionnement. Par contre, il faut un minimum de feeling, d’intuition pour en interpréter les résultats et c'est là qu'intervient l'expert (c'est un bien grand mot mais je n'en ai pas trouvé d'autre)Enfin, en ce qui concerne le cosinus de Salton, c'est justement parce que nous sommes humains et que google est une machine que nous n'en avons pas besoin et lui oui ! :P Au fait, pour la valeur polysémique il faut prendre le logarithme du nombre d'entités nommées.

#14 Cyril 21-10-2014 13:01

@Jérôme : bravo pour ton outil, que j'ai pu découvrir hier, et pour cet accent du sud qui me rappelle mon pays natal !

#15 Sylvain 21-10-2014 13:56

Super article ! Un peu irrévérencieux mais très solidement argumenté, c'est assez rare en SEO pour être souligné ;-)

#16 Christian Méline 21-10-2014 15:38

@Jérôme "logarithme du nombre d'entités nommées" C'est en base 10 j'imagine ?

#17 Jean 27-11-2014 13:51

Article intéressant soulevant de bonnes questions mais réservé à des seo relativement confirmés.Oui Jérôme, merci pour ton tool le pack webmaster s'impose ;-)

#18 meliane 06-07-2015 09:57

Merci pour cette article de qualité. En fonction de ce fameux cocon tant mis à toutes les sauces, je pense qu'il ne faut pas en arriver à cette désespérance de certains seo qui ne veulent que miser dessus. Le Maillage interne est fondamentalement plus puissant. la fraicheur d'un site l'est également et la qualité mutuelle des sites. Les ancres de domaines d'autorités le sont de plus en plus , sauf qu'il est de plus en plus compliqué de trouver un partenaire. bref il faut continuer à user toutes les solutions et non pas que le cocon

#19 lanski 10-02-2016 14:52

La première question qui me vient a l'esprit quand je lis les articles sur le sujet : Ce calcul est-il réellement un facteur déterminant pour se positionner ? Ce que je veux dire, c'est qu'en utilisant uniquement son expérience SEO pour rédiger des articles (avec tri des keywords a utiliser) est-ce qu'on arrive sensiblement au même résultat ?