На Камчатке с помощью ИИ планируют создать корпус корякского языка

freepik
В рамках коллаборации между Камчатским государственным университетом имени Витуса Беринга и Школой лингвистики Национального исследовательского университета «Высшая школа экономики» инициирован амбициозный проект по созданию параллельного корпуса текстов на корякском языке, основанный на применении передовых технологий искусственного интеллекта. Этот проект направлен на сохранение и актуализацию уникального языкового наследия, находящегося под угрозой исчезновения.
Корякский язык, принадлежащий к чукотско-камчатской языковой семье, характеризуется ограниченным числом носителей, проживающих в удаленных и труднодоступных поселениях. В последние десятилетия наблюдается тенденция к утрате его популярности среди молодежи, которая все чаще предпочитает русский язык. В условиях демографического кризиса и низкой языковой трансмиссии, корякский язык сталкивается с серьезной угрозой полного исчезновения.
Языковой корпус представляет собой структурированную цифровую базу данных, содержащую тексты, классифицированные по различным грамматическим и семантическим параметрам. Эти данные находят широкое применение в обучении переводчиков, разработке голосовых ассистентов и других системах, основанных на обработке естественного языка. Однако в случае с корякским языком, обладающим ограниченным объемом доступных текстов, стандартные методы обучения нейронных сетей оказываются неприменимыми. В связи с этим исследователи вынуждены использовать специализированные модели, адаптированные для работы с малыми объемами данных, а также прибегать к ручному аннотированию текстов.
Проект основывается на проведении полевых исследований в северных районах Камчатского полуострова, где осуществляется запись живой речи носителей языка. Полученные аудиоматериалы подвергаются тщательной транскрипции и лингвистическому анализу, что позволяет создать репрезентативный корпус текстов, отражающий современное состояние корякского языка. Уже на данном этапе проекта были разработаны и внедрены различные цифровые ресурсы, направленные на популяризацию и изучение корякского языка: мобильное приложение Koryak tuyu, онлайн-словарь, прогнозы погоды на корякском языке и книга комиксов. Кроме того, проводятся аппаратные исследования артикуляторных особенностей корякского языка, что способствует более глубокому пониманию его фонетической и фонологической структуры, сообщает progorodsamara.ru.



