Библиотеку будущего будет курировать искусственный интеллект

0
107

В июле 1848 года французский еженедельник L’illustration напечатал первую фотографию к газетной статье. На ней были изображены парижские баррикады, установленные во время июньского восстания.

Библиотеку будущего будет курировать искусственный интеллект

Почти два столетия спустя фотожурналистика «одарила» библиотеки огромным количеством материалов со снимками. И без нового подхода к их сортировке библиотекари-люди в скором времени могут просто не успеть их классифицировать и раскладывать по полкам. Вот почему в Библиотеке Конгресса (Вашингтон) проходит эксперимент, в рамках которого искусственный интеллект помогает распознавать и классифицировать архивы газет.

Более 860 000 страниц в сутки: скорость поражает

Бен Ли, куратор проекта и специалист по инновациям, руководит внедрением системы под названием «Газетный Навигатор». Отличием новой системы от существующих (например, «Chronicling America») является самообучение — программа накапливает массивы данных и со временем улучшает качество своей работы.

Для начала работы Ли задействовал волонтеров, которые загрузили в систему начальные данные и описали их, чтобы программа «поняла» суть работы. И такой подход принес плоды: всего за 19 дней «Газетный Навигатор» сумел обработать и классифицировать все газетные страницы, которые были в библиотеке — 16 358 041 штуку. При этом как «проблемные» (вызвавшие неточности при сканировании) программа отметила всего 383 страницы.

Как работает и каковы перспективы

«Газетный Навигатор» основан на той же технологии, которую инженеры использовали для создания «Google Книг». В основе технологии оптическое распознавание, или OCR, которое позволяет качественно определять отпечатанные и рукописные символы даже со скан-копий. Благодаря этому упростился и поиск: достаточно задать слово или предложение, и система найдет все материалы, в которых есть искомые данные.

Также Ли улучшил технологию, создав модель обнаружения объектов, которая могла бы выделить семь различных типов контента:

  • фотографии,
  • иллюстрации,
  • карты,
  • комиксы,
  • редакционные мультфильмы,
  • заголовки
  • и рекламные объявления.

«На самом деле мы надеемся, что технология пригодится всем, у кого есть архивы газет, журналов или чего-то подобного. Каждый сможет собрать свою базу — естественно, в нужном масштабе.

Да, система не идеальна — есть некоторые ошибки в классификации, например, алгоритм может спутать кадр из мультфильма с фотографией. Мы надеется, что наш проект привлечет в том числе опытных программистов и специалистов по ИИ и машинному обучению, которые помогут его развить», — рассказывает Ли.

Фото: sciencetechniz.com