Автоматичний частотний словник сполучуваності Ліни Костенко та Миколи Вінграновського

УДК 811.161.2’42:004
DOI: https://doi.org/10.17721/2520-6397.2023.1.01


Наталія ДАРЧУК, д-р філол. наук, проф., Київський національний університет імені Тараса Шевченка, Київ, Україна

ORCID: 0000-0001-8932-9301


АВТОМАТИЧНИЙ ЧАСТОТНИЙ СЛОВНИК СПОЛУЧУВАНОСТІ ЛІНИ КОСТЕНКО ТА МИКОЛИ ВІНГРАНОВСЬКОГО (pdf)

Стаття присвячена описові лінгвістичного забезпечення автоматичного укладання електронного словника словосполучень тексту, а також порівняльному лінгвістичному аналізові отриманих авторських словників словосполучень поетичного тексту Ліни Костенко (загальний обсяг 30057 слововживань) і Миколи Вінграновського (загальний обсяг 20317 слововживань), розміщені в Корпусі сучасної української мови. Мета аналізу – виявлення спільного та відмінного у функціонуванні словосполучення зі встановленням параметризації авторського стилю. Актуальність теми очевидна через необхідність встановлення граматичної та лексичної валентності слів, типової частиномовної сполучуваності, законів комбінаторики словосполучень різних типів і розрядів. Новизна полягає і в самому підході, тобто в можливості автоматично створювати алфавітно-частотний словник, і в способі реалізації: словник словосполук є частиною синтаксичного представлення речення у вигляді моделі – графічного зображення дерева залежностей, яке також є цікавим інструментом характеристики синтаксичних категорій – предикативності, сурядності тощо. Завдання парсера полягало у виявленні всіх різновидів сполучуваності – предикативної, підрядної і сурядної – кожного слова в тексті. Оскільки лексикограматична природа слова визначає його здатність сполучатися з іншими словами, словосполучення поділяються на іменникові, прикметникові, займенникові, числівникові, дієслівні та прислівникові. У статті розглянуто прості бінарні словосполучення з прийменником чи без нього, що можуть бути поширені в ускладнені, бо під час визначення їхнього складу потрібний аналіз змістової структури. Перспектива проєкту у подальшому використанні під час семантичного аналізу тексту, а також як готового продукту для лінгвістичних досліджень із синтаксису української мови.

Ключові слова: парсер, словосполучення, дерево залежностей, частота.