Сотрудники Института вычислительных технологий Сибирского отделения РАН (СО РАН) разработали систему, позволяющую переводить издания со старой орфографией в современную почти без участия человека.

Издание СО РАН «Наука в Сибири» уточняет, что алгоритм может выполнять рутинную работу редакторов и даёт дополнительные инструменты для анализа текстов.

«Представьте, что вы решили оцифровать, а затем опубликовать книгу, которая была издана в дореволюционное время. Новейшие мощные сканеры, способные работать без участия человека, сами перелистывают страницы, современное программное обеспечение преобразовывает отсканированные страницы в текст, но он будет, естественно, в исходной старой орфографии, — уточняет издание. — Это неудобно для потенциальной обработки документа, ведь большинство алгоритмов автоматического анализа работают только с произведениями в современной орфографии. Для этого и нужна система автоматического приведения текста в привычный для читателя вид».

За основу взят «Справочник по старой орфографии русского языка» П. И. Давыдова. На основе перечисленных в нём норм дореволюционного правописания — с учётом послереволюционных новаций — был разработан переводчик.

Разработчики отмечают, что алгоритм «создан с целью заменить не эксперта, а скорее корректора, для работы с большими объёмами текстов».

Программа пока не способна правильно анализировать случаи, которых нет в справочниках. Но она будет дорабатываться.