Введите Ваш e-mail чтобы подписаться
Нейросети "Яндекса" распознали 24 тысячи выпусков газеты "Советский спорт" – пользователям доступны не только сканы практически всех выходивших с 1922 по 2022 год номеров газеты, но и возможность поиска по текстовым запросам, сообщила компания в среду.
"Для работы с "Советским спортом" распознающую тексты нейросеть потребовалось адаптировать под особую вёрстку газетных страниц. Это огромные развороты формата А2 со множеством колонок, врезок и рекламных блоков с мелкими буквами на специфической бумаге низкой плотности", – сказано в сообщении.
Улучшенная технология распознавания, которая применялась для работы с выпусками "Советского спорта", в перспективе позволит лучше ориентироваться в других типах сложной вёрстки. Например, они часто встречаются в рукописных архивах. Также с ними регулярно сталкиваются пользователи функции перевода по фото в "Яндекс Переводчике" и умной камеры в приложении "Яндекс" с "Алисой", сообщает компания.
"Яндекс" запустил поиск по архивам в начале 2023 года. Сервис помогает находить упоминания людей, населённых пунктов и событий в расшифрованных нейросетями рукописных документах XVIII–XX веков. Помимо выпусков "Советского спорта" в базе сервиса представлено более 7 миллионов страниц исторических документов из архивов Москвы, Московской, Иркутской, Оренбургской и Новгородской областей, а также нескольких муниципальных архивов.
Обеспечить онлайн-доступ к архивам отечественной прессы, как минимум центральной, времён до Интернета – важнейшая, актуальная задача. В настоящее время периодика, издававшаяся до 2000 примерно года, когда у газет стали появляться свои сайты, практически недоступна. Зал периодических изданий РГБ прекратил работу в основном здании библиотеки в центре Москвы, архив вывезен в подмосковный филиал, пользоваться им архаическим способом, заказывая подшивки газет из хранилища, крайне затруднительно.