Национальный корпус русского языка как инструмент лингвистики
Зарегистрируйся в два клика и получи неограниченный доступ к материалам,а также промокод на новый заказ в Автор24. Это бесплатно.
В настоящий момент функционирует большое количество корпусов, которые представляют собой массивы текстовой информации на разных языках, вместе с тем возможность их использования исследователем ограничивается вследствие серьезных проблем.
Доступные корпусы в сети Интернет ориентированы на рассмотрение грамматических или лексических явлений, а единицы коммуникации, которые не имеют стандартных способов выражения, дискурсивные явления, прагматическая специфика текстов, речевых актов не размечаются в них, так как создание такого рода автоматической разметки, во всяком случае, на данном этапе развития компьютерной лингвистики, невозможно. По этой причине ряд исследователей отрицают пользу корпусов в изучении дискурса и текста.
Главной проблемой использования корпусов в сопоставительных исследованиях является разная структура и объем корпусных массивов, время создания и типы текстовых документов. В процессе сопоставления английских, русских и французских корпусов выявляются все обозначенные проблемы. Созданный после BNC, Национальный корпус русского языка превышает BNC по объему, представляя более развитую структуру подкорпусов, что открывает новые возможности для анализа. Перечень подкорпусов Национального корпуса русского языка представлен в табл. 1 с указанием их объемов.
Таблица 1
Перечень подкорпусов Национального корпуса русского языка
Подкорпус Количество текстов Количество предложений Количество словоупотреблений % словоупотреблений
Основной корпус 76882 17574752 209198275 57,3%
Снятая омонимия 2147 516852 5944188 1,6%
Газетный корпус 181175 8553495 113292003 31%
Диалектный корпус 197 20273 194283 0,1%
Обучающий корпус 229 65666 664751 0,2%
Параллельный корпус 370 1609609 24022437 6,6%
Поэтический корпус 41448 638861 6738474 1,8%
Устный корпус 3034 1604626 10122579 2,8%
Мультимедийный корпус 31741 148619 648576 0,2%
Всего: 335076 30215901 364881378 100%
В основной корпус входят прозаические письменные тексты XVIII − начала XXI столетия
Зарегистрируйся, чтобы продолжить изучение работы
. Часть его представляет собой глубоко аннотированный корпус, в котором для каждого предложения построена полная морфологическая и синтаксическая структура или дерево зависимостей. В газетном корпусе представлены статьи из средств массовой информации 1990-2000-х годов. Параллельные корпуса дают возможность найти все переводы для определенного слова или словосочетания на русский язык или с русского языка. Параллельные корпуса имеются для таких языков, как английский, немецкий, французский, испанский, итальянский, украинский, белорусский.
Корпус диалектных текстов включает запись диалектной речи различных регионов России с сохранением их грамматической специфики и предусматривает специальный поиск с учетом диалектной морфологии. В корпус устной речи входят расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов. Мультимедийный корпус представлен фрагментами кинофильмов 1930-2000-х годов, снабженными видео- и аудиорядом
50% курсовой работы недоступно для прочтения
Закажи написание курсовой работы по выбранной теме всего за пару кликов. Персональная работа в кратчайшее время!