Головна Новини

Учні середніх шкіл допомогли ШІ навчитися читати старі рукописні тексти

В Італії 120 учнів середньої школи допомогли вирішити багатовікову проблему: як надати дослідникам доступ до Ватиканських секретних архівів, в яких детально описуються дії Ватикану ще у восьмому столітті.

В Італії 120 учнів середньої школи допомогли вирішити багатовікову проблему: як надати дослідникам доступ до Ватиканським секретних архівів, велику колекцію документів, в яких детально описуються дії Ватикану ще у восьмому столітті.

Це повинно виглядати досить добре в своїх додатках в коледжі.

Полиці секретних архівів Ватикану складають близько 85 кілометрів (53 миль) і містять 35 000 томів каталогів. Але документи, які дослідники сканували і завантажили, займають менше одного дюйма. Транскрібіруемих документи, доступні для пошуку через комп'ютер? Ще рідше. Це тому, що Ватикан, схоже, не хотів ділитися інформацією. Не те щоб вони могли, так чи інакше - навіть сьогоднішнє програмне забезпечення оптичного розпізнавання символів (OCR) просто не може впоратися з нерівностями рукописного тексту.

Тому, якщо дослідники хочуть переглянути документи, у них немає вибору, окрім як особисто відвідати Архіви (якщо Ватикан схвалить їх запит на доступ).

Тепер у команди дослідників з Архіву та Університету Рома Тре є дослідний проект, призначений для вирішення цієї проблеми. І вони використовують штучний інтелект (AI) для транскрибування документів. Їх дослідження було опубліковано в журналі ERCIM News, журналі Європейського дослідницького консорціуму з інформатики та математики.

Проблема: комп'ютери не найкращі при читанні людського почерку. Таким чином, перший крок в так званому проекті In Codice Ratio полягав в тому, щоб студенти навчали його. Використовуючи онлайн-платформу, побудовану дослідниками, студенти «проголосували» за те, що рукописний персонаж, відібраний з двох сторінок Ватиканських реєстрів (збірка листів від Папи Римського), відповідав варіацій персонажа, ідентифікованого палеографії (хтось, хто вивчає старий почерк).

Наприклад, студент може побачити, що схоже на рукописний лист M, супроводжуване серією схвалених експертами рукописних M. Якби учень подумав, що два зразка M підібрані досить близько, вони проголосували «Так». Якщо немає, «Ні» «Досить« Так »голосів, і що рукописний персонаж отримав ярлик: М. Йому треба було 120 студентів всього за кілька годин для роботи через весь набір тренувань.

Але AI потребував більшої підготовці. Потім дослідники навчили їх ІІ ідентифікувати рукописних персонажів, використовуючи метод, який вони називали «сегментування головоломки».

Замість того, щоб розглядати почерк як ряд слів або навіть комбінацію букв, ІІ шукав удари. Наприклад, рукописний M не буде схожий на одного персонажа - це буде три удари близько один до одного. Грунтуючись на тому, що він знав з набору даних, підготовленого старшокласниками, ці штрихи можуть бути M або, можливо, III.

Щоб допомогти ІІ «прочитати» ці штрихи, дослідники подали йому набір даних в 1,5 мільйона слів на латині, мова, на якому написані тексти. Потім, коли він побачив три штриха, він міг визначити, що вони, ймовірно, позначили M, а не III, оскільки останній навряд чи з'являвся в латинському слові.

Коли дослідники протестували свій ІІ з використанням чотирьох сторінок Ватиканських регістрів, він правильно переписав 65 відсотків слів. Це далеко не ідеальне, але це теж марно. На думку дослідників, ці транскрипції досить точні, щоб дати палеографам «міцну основу», яка могла б прискорити процес транскрипції. І вони вже працюють над поліпшенням системи.

Це було б особливо корисно, тому що Ватикан надає доступ тільки до трьох документів в день. Тому дослідник може подумати, що вони знають, які документи вони хочуть бачити і відвідати Ватикан, щоб зрозуміти, що ці документи не допомагають.

Якщо все буде транскрибовано, можливо, дослідники wordlwide можуть в кінцевому підсумку знайти всю колекцію для ключового слова ( «Мікеланджело» або щось ще) і подивитися, які документи включають його, а потім попросити про доступ до них. Або, може бути, отримати інформацію, необхідну їм з секретних архівів Ватикану, не здійснюючи поїздки до Ватикану.

Джерела: The Atlantic, arXiv

Автор: Крістін Хаузер
putin-khuylo
Вакцинуйся!
ОСТАННІ КОМЕНТАРІ