Comment ça marche ?
Il suffit de rentrer un ou plusieurs mots et de choisir la langue qui vous intéresse. Vous avez le choix entre l’anglais, le français, le chinois, le russe, l’espagnol ou l’allemand. Vous notez la période que vous avez choisie et Google Ngrams se met au travail.
« Pour lire seulement les textes de l'année 2000, sans s'arrêter pour manger ni pour dormir, il faudrait 80 ans, soit une vie entière, à un être humain. La séquence de lettres du corpus dans sa totalité est 1 000 fois plus longue que notre génome, et si on écrivait le tout sur une ligne, celle-ci ferait 10 fois l'aller-retour de la Terre à la Lune ! », rapporte Jean Veronis, qui tient un blog sur les technologies du langage.
Pour un public averti
Si Google Ngrams risque d’être passionnant pour le grand public, les scientifiques ne sont pas convaincus de son utilité. « L'arrivée de cette base de données est une étape importante. Mais cela sera insuffisant. Nous, linguistes, avons besoin de savoir de quel type d'ouvrage il s'agit. Et surtout du contexte. Pour l'anglais, il faudrait accéder à des groupes de neuf mots pour faire de la phraséologie ou lever les ambiguïtés de certains termes. Pour le français, il faudrait des ensembles d'au moins treize mots », déclare une linguiste à l'université de Birmingham.
Le droit d’auteur version Google
Mais rappelons-nous qu’en 2003, lorsque Google a lancé son projet de numériser tous les livres publiés à ce jour dans le monde, tout le monde a crié au scandale. Google Ngrams n’est que l’un des prolongements logiques de ce travail titanesque.
Patrimoine de l’Humanité 2.0
Parions que d’autres applications verront le jour dans les années qui viennent. Et pourquoi pas la reconnaissance automatique des images, ainsi toutes les peintures, tous les dessins, toutes les photos, toutes les vidéos du patrimoine de l’Humanité seraient identifiés et numérisés dans des bases de données de Google sans avoir recours à aucun mot clef, ce n’est pas de la science fiction, c’est déjà offert depuis des années dans les applications de Google Labs. Après les polémiques sur les droits d’auteurs des Google Books, il faudra penser aussi au droit à l’image.