Філологи КНУ створили Електронний корпус текстів української мови

22.01.2016 Група дослідників лабораторії комп’ютерної лінгвістики кафедри сучасної української мови Інституту філології на чолі з доктором філологічних наук Наталією Дарчук за п'ять років створила електронне зібрання текстів українською мовою, що не поступається аналогічним ресурсам у Польщі, Австрії, Великій Британії та Німеччині. Проект http://www.mova.info — відкритий та безкоштовний, корисний не лише фахівцям-лінгвістам, а й письменникам, журналістам і науковцям як в Україні, так і за кордоном.




Корпус української мови – це електронне зібрання текстів, упорядковане, організоване й оформлене так, щоб ним мали змогу користуватися як науковці-професіонали, так і пересічні користувачі, які намагаються вдосконалити своє знання української мови. Тексти призначені не для читання, а для з’ясування важливих питань «яке слово краще вжити у тому чи іншому випадку?», «яке словосполучення буде більш доречним?», «як часто у текстах використовується та чи інша словоформа?».

Близько 50 млн. слововживань введено до Корпусу протягом п’яти років. Підкорпус публіцистики становить 17 млн. слововживань; художньої прози – 24 млн.; поезії – 1 млн.; наукового стилю – 3 млн.; офіційно-ділового – 2 млн., фольклору – 32 тис. Кожен уведений текст маркується за жанровими особливостями й типом тексту. Навіть найвибагливіший користувач Корпусу знайде текст на свій смак.

Найближчими роками планується розширити Корпус до 100 млн. слововживань, доповнивши його українською мовою з різних регіонів України та діаспори, текстами XIV–XVIII ст., зробити підкорпус усних текстів та дати підґрунтя для роботи літераторів з віршованими розмірами, ритмікою та строфікою поетичних текстів. Британський національний корпус нараховує 100 млн. слововживань, Корпус австралійської періодики – 300 млн., Корпус чеської мови – 300 млн., Корпус німецької мови – 778 млн. слововживань.

Фахівці лінгвістичних і нелінгвістичних дисциплін за допомогою Корпусу можуть легко збирати та зберігати мовні факти, складати масштабні дослідницькі бази «під проблему»: для формування словника, укладання словникової статті, пошуку прикладів із слововживання в українській мові – для бакалаврських, магістерських чи кандидатських робіт. Українська лінгвістика тепер має зручний інструмент для розгляду дискусійних питань правопису, моніторингу тенденцій розвитку мови, змін у мовній системі, інновацій у різних підсистемах мови, правописних норм у сучасному мовленні.

Корпус текстів може бути джерелом для укладання різних словників, зокрема:
• алфавітно-частотних – слів і словоформ;
• граматичних – з морфологічною або синтаксичною інформацією, напр., про синтаксичні моделі – дієслівні, субстантивні, атрибутивні;
• морфемних і словотвірних – із частотними характеристиками, за якими можна вивчати комбінаторно-дистрибутивну будову слів або словотвірне значення кожної афіксальної морфеми в текстах;
• тезаурусів;
• словників неолексем.

І це цілком можливо, оскільки у базі для цього передбачено параметри:
1) граматичні (частина мови і категоріальні значення, напр., рід, число, відмінок, особа тощо);
2) структурні (моделі морфної структури слів різних частин мови; моделі керування – дієслівні, іменні, атрибутивні тощо);
3) лексико-семантичні (системні відношення: синонімія, антонімія, омонімія, ідеографія);
4) статистичні.

Система отримала схвальні відгуки від колег-лінгвістів із усієї України, адже Корпус дає можливість знаходити відповіді на несподівані питання та ставити нові проблеми перед лінгвістикою майбутнього.

Центр комунікацій

Повернутися до списку

Анонс подій

24.10.2025
МОН України оголошує додатковий конкурсний добір на науково-технічні (експериментальні) розробки за державним замовленням
Міністерство освіти і науки України оголошує додатковий конкурсний відбір науково-технічних (експериментальних) розробок за державним замовленням зі спеціальними умовами, виконання яких розпочнеться у 2026 році за рахунок коштів державного бюджету детальніше...
08.10.2025
Семінар УкрІНТЕІ 07.10.2025 "Державна онлайн-реєстрація НДДКР: нові положення, функції та вимоги"
Відбувся семінар УкрІНТЕІ 07.10.2025 "Державна онлайн-реєстрація НДДКР: нові положення, функції та вимоги" детальніше...
07.10.2025
Конкурс спільних українсько-словацьких науково-дослідних проєктів 2025
Міністерством освіти і науки України оголошено Конкурс спільних українсько-словацьких науково-дослідних проєктів для реалізації у 2026-2027 рр. детальніше...
25.09.2025
МОН оголосило основний конкурс МОН для університетських наукових проєктів на 2026 рік з окремою підтримкою прифронтових ЗВО
25 вересня 2025 року стартує проведення основного конкурсу проєктів фундаментальних наукових досліджень та прикладних наукових досліджень, виконавцями яких є працівники закладів вищої освіти та наукових установ, що належать до сфери управління МОН, які беруть участь у проведенні комплексних... детальніше...
18.09.2025
Для переможців конкурсу НФДУ 2025.06 «Наука для зміцнення обороноздатності і національної безпеки України» ведено моніторингову картку проєкту
У Автоматизованій системі «Конкурс проєктів НФДУ» було запроваджено нову опцію — «Моніторинг» Для переможців конкурсу НФДУ 2025.06 «Наука для зміцнення обороноздатності і національної безпеки України»

детальніше...
16.09.2025
МОН оголосило оновлений конкурс наукових проєктів для молодих учених
17 вересня 2025 року стартує конкурсний добір проєктів фундаментальних наукових та прикладних досліджень, виконавцями яких є молоді вчені закладів вищої освіти та наукових установ у сфері управління МОН. Конкурс оголошено наказом Міністерства освіти і науки України від 16 вересня 2025 року № 1253. детальніше...
Всі події