- MOTS VIDES (STOP WORDS) : Google elimine par defaut les mots vides (le la les ou encore .com http ..) ou les ponctuations
- MOTS VIDES (STOP WORDS) : Vous pouvez forcer le calcul sur ces mots : +motvide
- MOTS VIDES (STOP WORDS) : lemmatisation ou stemming rélaisée automatiquement par google dans la REQUETE et la REPONSE
- MOTS VIDES (STOP WORDS) : La lemmatisation désigne l'analyse lexicale du contenu d'un texte regroupant les mots d'une même famille. Chacun des mots d'un contenu se trouve ainsi réduit en une entité appelée lemme (forme canonique). La lemmatisation regroupe les différentes formes que peut revêtir un mot, soit : le nom, le pluriel, le verbe à l'infinitif, etc.
Les mots (lemmes) d'une langue utilisent plusieurs formes en fonction de leur genre (masculin ou féminin), leur nombre (un ou plusieurs), leur personne (moi, toi, eux, ...), leur mode (indicatif, impératif, ...) donnant ainsi naissance à plusieurs formes pour un même lemme.
La lemmatisation d'une forme d'un mot consiste à en prendre sa forme canonique. Celle-ci est définie comme suit :
pour un verbe : ce verbe à l'infinitif,
pour les autres mots : le mot au masculin singulier.