Самые интересные новости о компьютерах, софте, интернете…

Е-книги породили «культуромику» и «цитатную слежку»

Проекты оцифровки книг дали побочный результат в виде новой науки, которую её создатели окрестили культуромикой. Обширная база данных позволяет изучать изменения печатной речи на протяжении десятков и даже сотен лет и оценивать влияние на неё различных факторов, например, цензуры с математической точки зрения, сообщает журнал Science.
В базе данных Google сейчас 15 миллионов оцифрованных книг, что составляет примерно 12% от общего числа книг, которые были когда-либо напечатаны на каком-либо языке со времён создания печатного станка. Содержимое этих книг было уложено в другую базу данных, построенную на n-грамм-модели, к которой был предоставлен доступ гарвардским исследователям.
Всю эту массу информации можно изучать самыми разными способами. Например, можно выяснить, насколько часто употреблялось то или иное слово или имя в тот или иной период в литературе той или иной страны.
И учёные уже получили ряд результатов. Например, они выяснили, что за последние сто лет количество английских слов почти удвоилось. Открыли, что примерно половина напечатанных английских слов отсутствует в каком-либо словаре. Убедились, что во времена нацизма из германской литературы практически исчезли имена известных деятелей науки и культуры еврейского происхождения. Узнали, что у человечества постепенно пропадает интерес к Зигмунду Фрейду, и что с 2005 года людей больше интересует Чарльз Дарвин.
Самое примечательное, что всё это (точнее, не всё, а только треть — примерно 5,2 млн книг) теперь может «пощупать» любой желающий с помощью онлайн-инструмента Ngram Viewer, разработанного в Лаборатории Google. К примеру, можно оценить частоту использования слова «Ленин» в русскоязычных книгах с 1920 по 2008 годы или же убедиться в том, что в СССР секса и в самом деле практически не было вплоть до перестройки.
Как можно заметить, технология очень напоминает анализ поисковых запросов и цитируемости в сетевых публикациях, что позволяет отслеживать новые тенденции в обществе либо персональные вкусы пользователей для таргетированной рекламы. Среди любопытных стартапов такого рода — компания Tynt, которая следит за цитатами из сетевых публикаций — например, когда пользователь копирует себе в блог наиболее понравившийся кусок статьи или новости. Это позволяет оценить, какие части публикации наиболее удачны — а заодно и узнать побольше о самом пользователе.
Источник информации: ВебПланета