80 лет Великой Победе!

В Новосибирске студентка создала приложение для анализа тибетских текстов

Это инновационное решение предназначено для исследователей, архивистов и библиотекарей, и способствует сохранению тибетского текстового наследия, важной частью культурного достояния бурятского народа. Уникальная программная платформа, разработанная студенткой НГУ, открывает новые возможности для изучения и сохранения ценных текстов.

Новый фреймворк, созданный студенткой Новосибирского государственного университета, представляет собой инновационный инструмент, который будет широко использоваться в научных и культурных сферах. Автоматизированная обработка документов на тибетском языке с помощью этого приложения значительно упростит работу исследователей и библиотекарей, а также способствует сохранению уникального культурного наследия.

Важно отметить, что разработка студентки НГУ имеет большой потенциал для дальнейшего развития и расширения функционала. Ее работа в области машинного обучения и обработки текстов может стать отправной точкой для новых инноваций в сфере дигитализации и сохранения культурного наследия.

Исследование, проведенное студенткой направления "Фундаментальная и прикладная лингвистика" гуманитарного института НГУ Анной Мурашкиной, сфокусировано на системе, ориентированной на старопечатные документы, выполненные с использованием тибетского слогового письма, которое восходит к древнеиндийскому письму брахми. Эта система была разработана в Институте вычислительной математики и математической геофизики Сибирского отделения РАН.

"Старопечатные документы, рукописи и ксилографы содержат уникальные сведения о философии, религии, медицине, истории и искусстве, играя ключевую роль в изучении культурных традиций региона. Анна Мурашкина использовала изображения страниц классических тибетских текстов XVIII-XX веков из архивов в своем исследовании.

Эта работа открывает новые перспективы для изучения и сохранения культурного наследия и позволяет более глубоко понять историю и традиции тибетского народа через анализ его древних текстов.

В Тибете ценные знания передаются из поколения в поколение, но с течением времени они подвергаются угрозе из-за различных факторов. Физическое разрушение бумажных носителей приводит к потере ценной информации и затрудняет доступ к этим уникальным материалам. Сегодня в Тибетском фонде Института монголоведения, буддологии и тибетологии СО РАН хранится огромное количество хроник, которые могут быть утрачены. Исследовательница подчеркнула, что одним из наиболее надежных способов сохранения и систематизации исторических документов является их оцифровка.

Для улучшения процесса оцифровки древних тибетских рукописей, я начала с выполнения лингвистической разметки строк тибетского текста из фонда ИМБТ СО РАН вручную. Этот этап позволил мне разработать систему оценки качества оптического распознавания символов (OCR), учитывая особенности тибетской графики.

Затем, после проведения сравнения существующих архитектур, я выбрала модель сверхточной нейросети, которая требовала дообучения. В результате этих шагов был создан полный модульный алгоритм оптического распознавания символов, включающий этапы предобработки, сегментации, распознавания и постобработки.

Этот инновационный подход открывает новые перспективы для ученых, предоставляя им возможность более эффективно оцифровывать и анализировать древние тибетские рукописи.

Источник и фото - ria.ru