Ngram, также обычно называемый N-граммом, представляет собой статистический анализ текстового или речевого контента, чтобы найти N (число) какого-либо элемента в тексте.
Элементом поиска могут быть всевозможные вещи, такие как фонемы, префиксы, фразы или буквы. Хотя N-грамм несколько неясен вне исследовательского сообщества, он используется в самых разных областях, и он имеет большое значение для разработчиков, программирующих компьютерные программы, которые понимают и реагируют на естественный разговорный язык.
В случае с Google Books Ngram Viewer текст, подлежащий анализу, исходит из огромного количества книг, которые Google отсканировал из публичных библиотек, чтобы заполнить свою поисковую систему Google Книги. Для Google Книг Ngram Viewer они ссылаются на текст, который вы собираетесь искать как тело , Ngram Viewer агрегируется по языку, хотя вы можете отдельно анализировать английский и английский английский или объединить их вместе.
Как работает Ngram
-
Перейдите в Google Books Ngram Viewer на books.google.com/ngrams.
-
Введите любую фразу или фразы, которые вы хотите проанализировать. Разделите каждую фразу запятой. Google предлагает: «Альберт Эйнштейн, Шерлок Холмс, Франкенштейн», чтобы вы начали. Элементы учитывают регистр, в отличие от поисковых запросов Google.
-
Введите диапазон дат. Значение по умолчанию - от 1800 до 2000.
-
Выберите корпус. Вы можете искать тексты на иностранном языке или на английском языке, и в дополнение к стандартным вариантам вы можете заметить такие вещи, как «Английский (2009) или Американский английский (2009)» внизу. Это старые корпорации, которые с тех пор обновлены Google, но у вас может быть некоторая причина для сравнения с старыми наборами данных. Большинство пользователей могут игнорировать их и сосредоточиться на последних корпусах.
-
Установите уровень сглаживания. Сглаживание относится к тому, насколько гладкий график находится в конце. Наиболее точным представлением будет уровень сглаживания 0, но этот параметр может быть трудночитаемым. По умолчанию установлено значение 3. В большинстве случаев вам не нужно его настраивать.
-
нажмите Поиск книг кнопка.
Google позволяет немного развернуть программу Ngram Viewer. Если вы хотите найти рыбу вместо глагола вместо существа, вы можете сделать это, используя теги. В этом случае вы будете искать «fish_VERB»
Google предоставляет полный список команд, которые вы можете использовать, и другую расширенную документацию на своем веб-сайте.
Что показывает Нграм?
Программа просмотра книг Google Books выводит график, который представляет использование определенной фразы в книгах во времени. Если вы ввели более одного слова или фразы, вы увидите строки с цветовой кодировкой, чтобы сравнить различные условия поиска. Это довольно похоже на Google Trends, только поиск охватывает более длительный период времени.
Примеры использования
Рассмотрим пример изучения уксусных пирогов. Они упоминаются в книге Лауры Ингаллса Уайлдера Маленький домик на прерии серии. Изучение с помощью веб-поиска Google, чтобы узнать больше об уксусных пирогах, показывает, что они считаются частью американской южной кухни и действительно сделаны из уксуса. Они прислушиваются к временам, когда не все имели доступ к свежей продукции в любое время года. Но что это за история?
Поиск Google Ngram Viewer для уксусный пирог и вы столкнетесь с некоторыми упоминаниями о пироге как в начале, так и в конце 1800-х годов, много упоминаний в 1940-х годах и все большее число упоминаний в последнее время. Однако, с уровнем сглаживания 3, вы увидите плато над упоминаниями в 1800-х годах. Поскольку за это время не так много книг, и потому что наши данные настроены на плавное, это искажает картину. Вероятно, была одна книга, в которой упоминался уксусный пирог, и он просто усреднил, чтобы избежать всплеска. Устанавливая сглаживание на 0, мы видим, что это точно так. Спайк сосредоточен в 1869 году, а в 1897 и 1900 годах появился еще один шип.
Маловероятно, что в течение долгого времени никто не говорил об уксусных пирогах: были вероятные рецепты, плавающие повсюду, но люди просто не записывать о них в книгах, и это важное ограничение этих поисков Ngram.




