Сотрудники Высшей школы информационных технологий и автоматизированных систем помогли организовать оцифровку картотеки архангельских говоров, которая хранится на кафедре русского языка и речевой культуры Высшей школы социально-гуманитарных наук и международной коммуникации, и разместили её на сервере университета, сообщает пресс-служба САФУ.
Более 60 лет студенты САФУ (ранее АГПИ, ПГУ) под руководством преподавателей вуза собирали диалектный материал в экспедициях по Архангельской области. Собранные материалы хранились на бумажных носителях, в виде рукописных карточек и тетрадей, которые могли обветшать. Пользовались ими только те, у кого был физический доступ к картотеке. Теперь богатство народного языка доступно всем. Результаты экспедиций в северные глубинки, начатые полвека назад, обрели нетленность. Это поможет вернуть в обиход многие исконно русские слова и уйти от иностранных заимствований.
Работа выполнялась в рамках гранта Российского научного фонда сотрудниками и студентами двух высших школ и трех кафедр: кафедры русского языка и речевой культуры, кафедры информационных систем и информационной безопасности и кафедры высшей и прикладной математики. Грантовый проект «Тематический словарь с электронной поддержкой» был направлен на издание трёх томов словаря с тематическим подразделением диалектов и на создание информационной системы в интернете.
Была разработана система, состоящая из четырёх цифровых продуктов: веб-ресурс «Электронный тематический словарь архангельских говоров» на сайте САФУ, компьютерное приложение «Копилка слов» для ввода новых данных, мобильное приложение «АрхДиалект» для будущих диалектических экспедиций, разрабатывается десктопное приложение «Сканер» для оцифровки рукописного текста. То есть команда не только создала цифровой аналог архива, но и обеспечила будущий цифровой сбор информации.
«Электронный тематический словарь архангельских говоров» содержит информацию из более 5000 рукописных карточек. Слова распределены на категории по районной принадлежности и по частям речи: существительные, прилагательные, глаголы и так далее. Наглядно ознакомиться с диалектами своего района можно через лексический атлас — это карта области с нанесёнными границами районов. Предварительно выбранные слова отображаются в границах регионов Архангельской области, в которых они используются. Реализована защита от некорректного ввода.
Как рассказала одна из авторов разработки, старший преподаватель кафедры высшей и прикладной математики ВШИТиАС Екатерина Латухина, команда решила не пользоваться фреймворками, то есть готовыми структурами для создания приложений, что упростило развертывание системы.
— Словари диалектов есть и в других областях, например, в Вологодской и Томской. Но мы сделали систему, исходя из своих целей, по запросу наших коллег с кафедры русского языка. Они рассказали, что они хотят, мы предложили им решение. Предварительно провели сравнительный анализ ресурсов, которые есть у нас и за рубежом. Там тоже есть диалекты в разных языках. Мы смотрели их решения, взяли некоторые идеи. Например, идею лексического атласа, который позволяет проводить диалектический анализ и другие виды анализа, — объяснила Екатерина Александровна.
В планах — автоматизировать занесение информации с помощью доработки десктопного приложения «Сканер», а также оцифровать большой архив аудиозаписей голосов жителей области — носителей архангельских говоров.
— Аудиозаписи хранятся на старых носителях, их нужно оцифровать и попробовать автоматически распознавать. Простая нейросеть или простой расшифровщик не справится с этим. Всё осложняется тем, что в картотеках не просто рукописный текст. Учёные использовали специальные символы для записи, которые не может распознать нейросеть. Часто слова знакомые, но звучат незнакомо для машинного интеллекта. Поэтому нужно обучать свою нейросеть, собирать материал для этого. Наша разработка существенно упрощает процесс оцифровки архива. Но, несмотря на то, что мы автоматизируем, всё равно остаётся много ручной работы учёных-филологов, — рассказала Екатерина Александровна.
Как говорит Екатерина Латухина, работа над информационной системой — хороший способ вовлекать студентов в научную деятельность и создавать востребованные программные продукты. Есть некоторые решения для классификации диалектных слов и другие идеи, которые станут темами будущих выпускных квалификационных работ.
— Если мы это не сделаем, никто не сделает. Готовых решений для многих задач не существует. Нужна тонкая настройка с учётом всех языковых особенностей, в том числе тех, которые используются у нас на Русском Севере, — заключила она.
Как рассказала автор проекта, доктор филологических наук Лариса Викторовна Ненашева, завершена и книгоиздательская часть проекта. Выпущены три тома тематического словаря: «Одежда, обувь, головные уборы, украшения, ткани», «Жилые и хозяйственные постройки и их части», «Традиционные северные блюда и напитки и способы их приготовления».
— Есть особое, уникальное положение севернорусских говоров в диалектной системе русского языка. Они сохраняют архаические языковые особенности, в них запечатлены реалии быта и культуры его носителей, мифологические и религиозные представления, — подчеркнула Лариса Викторовна.
Диалектный корпус поможет специалистам в исследованиях русского фольклора, в работах по этнографии, социальной истории, народному костюму и быту, а также в организации музейно-этнографической деятельности.
Результаты исследования смогут найти применение в преподавании русской словесности в вузе и в школе; в организации краеведческой работы; в просветительских проектах, направленных на популяризацию северной духовной культуры; в подготовке культурно-массовых мероприятий посвящённых языку Русского Севера; в организации музейно-этнографической деятельности.