Un ngram, également appelé N-gramme, est une analyse statistique du contenu textuel ou vocal destiné à n (un nombre) d'une sorte d'élément dans le texte.
L'élément de recherche peut être constitué de toutes sortes d'éléments, tels que des phonèmes, des préfixes, des phrases ou des lettres. Bien que le programme N-gram soit un peu obscur en dehors de la communauté des chercheurs, il est utilisé dans une variété de domaines et a de nombreuses implications pour les développeurs qui codent des programmes informatiques qui comprennent et répondent au langage parlé naturel.
Dans le cas de Google Books Ngram Viewer, le texte à analyser provient du grand nombre de livres numérisés par Google dans les bibliothèques publiques pour alimenter leur moteur de recherche Google Books. Pour Google Books Ngram Viewer, ils font référence au texte que vous allez rechercher en tant que corpus . Ngram Viewer est agrégé par langue, bien que vous puissiez analyser séparément l'anglais britannique et américain ou les combiner.
Comment fonctionne Ngram
-
Accédez à Google Books Ngram Viewer à l'adresse books.google.com/ngrams.
-
Tapez n'importe quelle phrase ou phrases que vous souhaitez analyser. Séparez chaque phrase par une virgule. Google suggère, "Albert Einstein, Sherlock Holmes, Frankenstein" pour vous aider à démarrer. Les éléments sont sensibles à la casse, contrairement aux recherches Web de Google.
-
Tapez une plage de dates. La valeur par défaut est 1800 à 2000.
-
Choisissez un corpus. Vous pouvez rechercher des textes en langue étrangère ou en anglais. Outre les choix standard, vous remarquerez peut-être des éléments tels que "Anglais (2009) ou Anglais américain (2009)" en bas. Ce sont des corpus plus anciens que Google a mis à jour depuis, mais vous pouvez avoir des raisons de faire vos comparaisons avec d’anciens ensembles de données. La plupart des utilisateurs peuvent les ignorer et se concentrer sur les corpus les plus récents.
-
Définissez votre niveau de lissage. Le lissage fait référence au degré de lissage du graphique à la fin. La représentation la plus précise serait un niveau de lissage de 0, mais ce paramètre peut être difficile à lire. La valeur par défaut est 3. Dans la plupart des cas, vous n'avez pas besoin de l'ajuster.
-
appuyez sur la Rechercher beaucoup de livres bouton.
Google vous permet d’avancer un peu avec le Ngram Viewer. Si vous souhaitez rechercher poisson le verbe au lieu de poisson le nom, vous pouvez le faire en utilisant des balises. Dans ce cas, vous recherchez "fish_VERB"
Google fournit une liste complète des commandes que vous pouvez utiliser et une autre documentation avancée sur son site Web.
Qu'est-ce que Ngram?
Google Livres Ngram Viewer générera un graphique représentant l'utilisation d'une phrase particulière dans les livres au fil du temps. Si vous avez entré plus d'un mot ou une phrase, des lignes de couleurs différentes contrastent avec les différents termes de recherche. Ceci est assez similaire à Google Trends, seule la recherche couvre une période plus longue.
Étude de cas
Considérez l’étude de cas des tartes au vinaigre. Ils sont mentionnés dans Laura Ingalls Wilder Petite maison dans la prairie séries. Explorer la recherche sur le Web de Google pour en savoir plus sur les tourtes au vinaigre révèle qu’elles sont considérées comme faisant partie de la cuisine du Sud des États-Unis et qu’elles sont réellement faites de vinaigre. Ils se souviennent de moments où tout le monde n’avait pas accès aux produits frais à tout moment de l’année. Mais est-ce toute l'histoire?
Rechercher dans Google Ngram Viewer pour tarte au vinaigre et vous rencontrerez quelques mentions de la tarte au début et à la fin du XIXe siècle, beaucoup de mentions dans les années 1940 et un nombre croissant de mentions ces dernières années. Cependant, avec un niveau de lissage de 3, vous verrez un plateau sur les mentions des années 1800. Parce que peu de livres ont été publiés pendant cette période et que nos données sont lisses, cela déforme le tableau. Il y avait probablement un livre qui mentionnait la tarte au vinaigre, et on venait juste d'en prendre la moyenne pour éviter un pic. En réglant le lissage sur 0, nous pouvons voir que c'est exactement le cas. La pointe est centrée sur 1869, et il y en a une autre en 1897 et 1900.
Il est peu probable que personne ne parle de tourte au vinaigre le reste du temps: il y avait probablement des recettes qui flottaient partout, mais les gens ne l'avaient tout simplement pas écrire à leur sujet dans les livres, et c'est une limitation importante de ces recherches Ngram.