Нейросети «Яндекса» научились расшифровывать архивные записи с дореволюционной орфографией

Компания «Яндекс» научила нейросети расшифровывать архивные записи со сложной дореволюционной орфографией. Все заинтересованные могут опробовать технологию в действии прямо сейчас в сервисе «Поиск по архивам», который открывает доступ к более чем 2,5 миллиона страниц исторических документов с текстовой расшифровкой.

В официальном сообщении по этому поводу указывается, что новый алгоритм, построенный на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы, а также понимает особую структуру архивных документов.

Разработчики рассказали, что им удалось обучить нейросеть на массиве данных из сотен тысяч рукописных строк из реальных текстов 18-19 веков, а ещё из десятков миллионов сгенерированных примеров. Экспертам была поручена разметка и расшифровка материалов для обучения, а также контроль за качеством распознавания. Всё дело в том, что рукописи неподготовленному человеку сложно разобрать, а новая технология «Яндекса» почти сразу превращает всё в печатный текст. Именно поэтому в базе сервиса можно быстро найти документы с упоминанием фамилии, населённого пункта или любых других поисковых запросов.

«Для расшифровки одной страницы архивного рукописного текста профессионалу может потребоваться до получаса времени. Наш сервис справляется с этим за несколько секунд. В перспективе технологию можно использовать и для решения других задач в продуктах Яндекса», — заявила руководитель поиска «Яндекса».

Предполагается, что «Поиск по архивам» повысит эффективность работы историков, социологов, демографов, генеалогов, а ещё должен помочь тем, кто ищет сведения о своей семье. Разработчики признались, что первым представленным в сервисе фондом стал Главархив Москвы — именно на его материалах разработчики обучали нейросеть. После чего база пополнилась документами из архивов Оренбургской и Новгородской областей. Со временем количество хранилищ и доступных оцифрованных документов будет только увеличиваться.

Источник: overclockers.ru

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *