Філологи КНУ створили Електронний корпус текстів української мови

22.01.2016 Група дослідників лабораторії комп’ютерної лінгвістики кафедри сучасної української мови Інституту філології на чолі з доктором філологічних наук Наталією Дарчук за п'ять років створила електронне зібрання текстів українською мовою, що не поступається аналогічним ресурсам у Польщі, Австрії, Великій Британії та Німеччині. Проект http://www.mova.info — відкритий та безкоштовний, корисний не лише фахівцям-лінгвістам, а й письменникам, журналістам і науковцям як в Україні, так і за кордоном.




Корпус української мови – це електронне зібрання текстів, упорядковане, організоване й оформлене так, щоб ним мали змогу користуватися як науковці-професіонали, так і пересічні користувачі, які намагаються вдосконалити своє знання української мови. Тексти призначені не для читання, а для з’ясування важливих питань «яке слово краще вжити у тому чи іншому випадку?», «яке словосполучення буде більш доречним?», «як часто у текстах використовується та чи інша словоформа?».

Близько 50 млн. слововживань введено до Корпусу протягом п’яти років. Підкорпус публіцистики становить 17 млн. слововживань; художньої прози – 24 млн.; поезії – 1 млн.; наукового стилю – 3 млн.; офіційно-ділового – 2 млн., фольклору – 32 тис. Кожен уведений текст маркується за жанровими особливостями й типом тексту. Навіть найвибагливіший користувач Корпусу знайде текст на свій смак.

Найближчими роками планується розширити Корпус до 100 млн. слововживань, доповнивши його українською мовою з різних регіонів України та діаспори, текстами XIV–XVIII ст., зробити підкорпус усних текстів та дати підґрунтя для роботи літераторів з віршованими розмірами, ритмікою та строфікою поетичних текстів. Британський національний корпус нараховує 100 млн. слововживань, Корпус австралійської періодики – 300 млн., Корпус чеської мови – 300 млн., Корпус німецької мови – 778 млн. слововживань.

Фахівці лінгвістичних і нелінгвістичних дисциплін за допомогою Корпусу можуть легко збирати та зберігати мовні факти, складати масштабні дослідницькі бази «під проблему»: для формування словника, укладання словникової статті, пошуку прикладів із слововживання в українській мові – для бакалаврських, магістерських чи кандидатських робіт. Українська лінгвістика тепер має зручний інструмент для розгляду дискусійних питань правопису, моніторингу тенденцій розвитку мови, змін у мовній системі, інновацій у різних підсистемах мови, правописних норм у сучасному мовленні.

Корпус текстів може бути джерелом для укладання різних словників, зокрема:
• алфавітно-частотних – слів і словоформ;
• граматичних – з морфологічною або синтаксичною інформацією, напр., про синтаксичні моделі – дієслівні, субстантивні, атрибутивні;
• морфемних і словотвірних – із частотними характеристиками, за якими можна вивчати комбінаторно-дистрибутивну будову слів або словотвірне значення кожної афіксальної морфеми в текстах;
• тезаурусів;
• словників неолексем.

І це цілком можливо, оскільки у базі для цього передбачено параметри:
1) граматичні (частина мови і категоріальні значення, напр., рід, число, відмінок, особа тощо);
2) структурні (моделі морфної структури слів різних частин мови; моделі керування – дієслівні, іменні, атрибутивні тощо);
3) лексико-семантичні (системні відношення: синонімія, антонімія, омонімія, ідеографія);
4) статистичні.

Система отримала схвальні відгуки від колег-лінгвістів із усієї України, адже Корпус дає можливість знаходити відповіді на несподівані питання та ставити нові проблеми перед лінгвістикою майбутнього.

Центр комунікацій

Повернутися до списку

Анонс подій

15.11.2022
Марафон_KNU: Об'єднані наукою
Запрошуємо Вас взяти участь у науковому Марафоні_KNU: Об'єднані наукою, приуроченого до Всесвітнього дня науки в ім'я миру та розвитку, який відбудеться  15-25 листопада 2022 року в офлайн форматі на території головного корпусу Університету детальніше...
14.11.2022
Конкурс науково-технічних розробок за державним замовленням на 2023-2024 роки
Міністерство освіти і науки України оголосило конкурсний відбір науково-технічних (експериментальних) розробок за державним замовленням, виконання яких розпочнеться у 2023 році коштом державного бюджету детальніше...
11.11.2022
Конкурс проєктів досліджень та розробок молодих учених
Міністерство освіти і науки України оголосило щорічний конкурс проєктів фундаментальних наукових досліджень, прикладних наукових досліджень та науково-технічних (експериментальних) розробок молодих учених детальніше...
18.10.2022
Pre-accelerator in Ukraine powered by EIT Jumpstarter
Ви український інноватор, який має ідею, аби запустити свій бізнес? Тоді запрошуємо взяти участь у Pre-accelerator in Ukraine — powered by EIT Jumpstarter детальніше...
18.10.2022
Youth Entrepreneurship Program
Науковий парк Київського національного університету імені Тараса Шевченка долучився до великого європейського проекту InterHEI The interdisciplinary HEI Entrepreneurship Fostering Program — Youth Entrepreneurship Program! детальніше...
12.10.2022
Конкурс українсько-австрійських науково-дослідних проєктів на 2023-2024 роки
До 21 листопада 2022 року триває конкурс спільних українсько-австрійських науково-дослідних проєктів на 2023-2024 роки, що організовує Міністерство освіти і науки України та австрійське Агентство з питань освіти та інтернаціоналізації детальніше...
Всі події