Richesse lexicale des candidats

Un billet un peu plus technique aujourd'hui... J'essaie de ne pas en abuser pour ne pas plomber l'audimat ! On me pose souvent la question : qui de nos candidats a le vocabulaire le plus riche ? Comme dirait Ségo : Bonne question, merci de me l'avoir posée... Car la réponse est tout sauf simple. La richesse lexicale d'un texte est une notion intuitive et très subjective. On y réfléchit depuis bien longtemps en littérature, mais elle est extrêmement difficile à formaliser. De plus, notre perception est peut-être bien sujette en la matière à des illusions d'optique. Mon éminent collègue Etienne Brunet a ainsi montré que le vocabulaire de Zola donnait l'impression de la complexité par l'usage de mots assez rares, mais qu'au total, cet usage était assez ponctuel, et contrebalancé par un vocabulaire relativement simple dans le reste de ses textes...

Comment quantifier la richesse lexicale d'un texte de façon rigoureuse ? L'idéal serait de disposer d'un indice qu'on pourrait calculer automatiquement, et qui permettrait de positionner n'importe quel texte sur une échelle, par exemple entre 0 et 1. Malheureusement, on s'y essaie depuis les années 1940, et tous les indices qu'on a proposés s'avèrent biaisés : ils dépendent en effet de façon drastique de la taille des textes. Ils permettent de comparer des textes de tailles voisines, mais deviennent trompeurs quand les tailles sont très différentes.

Pour vous donner un exemple, l'indice le plus simple que l'on puisse imaginer, c'est de compter le nombre total de mots du texte étudié ainsi que le nombre de mots différents, et de faire le rapport entre les deux. Prenons par exemple le discours de Ségolène Royal à Villepinte : un total de 12819 mots pour 2707 mots différents. Pour clarifier les choses, on parle d'occurrences et de formes : 12819 occurrences, 2707 formes. Le rapport fomes/occurrences (dont j'ai déjà parlé ici à propos des splogs — en anglais type/token ratio) est de 0,21. Son discours de voeux du 4 janvier comportait 1119 formes pour 3483 occurrences, soit un rapport de 0,32. Est-ce à dire que son discours de voeux était plus riche que le discours de Villepinte ? C'est là que le bât blesse : on ne peut rien conclure, car les textes sont de tailles différentes, et les textes courts ont toujours tendance à avoir un rapport formes/occurrences plus élevé que les textes longs...

L'indice en question est donc inutilisable pour comparer directement deux textes, sauf s'ils sont de tailles très voisines. Mais le paysage change si l'on dispose d'un nombre important de textes. On peut alors reporter le nombre d'occurrences et le nombre de formes de chaque texte sur un graphique, et chaque texte peut être rapporté à la tendance globale. C'est ce que j'ai fait pour tous les discours de la base Discours 2007, pour les quatre «grands» candidats. Chaque point représente un des discours :

On constate pour chacun des candidats l'atténuation du rapport formes/occurrences que je mentionnais plus haut : les courbes de tendances s'infléchissent lorsque la taille des textes augmente (pour les techniciens: je les ai modélisées par une loi de puissance). Mais la position relative des courbes de tendance nous montre des différences entre auteurs. La courbe de Le Pen est clairement au-dessus des autres (et les points qui représentent ses textes se détachent à peu près tous du reste).

On peut donc affirmer que les discours de Jean-Marie Le Pen sont nettement plus «riches» lexicalement que ceux des trois autres candidats, qui se tiennent, quant à eux, dans un mouchoir de poche. Bien entendu, «riche» n'implique aucun jugement de valeur, ni de compréhensibilité. Cela veut simplement dire qu'ils contiennent plus de mots différents.

Etonnant, non, pour le candidat que l'on décrit comme le plus «populiste» ?

Recherche

Recherche

Articles RÉCents

Liens

commentaires

Recherche

Recherche

Articles RÉCents

Newsletter

Liens

Richesse lexicale des candidats

commentaires