- MOTS VIDES (STOP WORDS) : Google elimine par defaut les mots vides (le la les ou encore .com http ..) ou les ponctuationsVous pouvez forcer le calcul sur ces mots : +motvidelemmatisation ou stemming rélaisée automatiquement par google dans la REQUETE et la REPONSELa lemmatisation désigne l'analyse lexicale du contenu d'un texte regroupant les mots d'une même famille. Chacun des mots d'un contenu se trouve ainsi réduit en une entité appelée lemme (forme canonique). La lemmatisation regroupe les différentes formes que peut revêtir un mot, soit : le nom, le pluriel, le verbe à l'infinitif, etc.
Les mots (lemmes) d'une langue utilisent plusieurs formes en fonction de leur genre (masculin ou féminin), leur nombre (un ou plusieurs), leur personne (moi, toi, eux, ...), leur mode (indicatif, impératif, ...) donnant ainsi naissance à plusieurs formes pour un même lemme.
La lemmatisation d'une forme d'un mot consiste à en prendre sa forme canonique. Celle-ci est définie comme suit :
pour un verbe : ce verbe à l'infinitif,
pour les autres mots : le mot au masculin singulier.