Анализ корпусов текстов на основе платформы TXM и интегрированных расширений
Зарегистрируйся в два клика и получи неограниченный доступ к материалам,а также промокод на новый заказ в Автор24. Это бесплатно.
Введение
Корпусная лингвистика - это быстро развивающаяся методология, которая использует статистический анализ больших наборов письменных или устных данных (корпусов) для исследования языковых явлений. На протяжении десятилетий, начиная, возможно, с грамматических исследований датского ученого Отто Есперсена в 1920-х годах, большая часть эмпирических исследований языка была основана на ручном анализе нескольких текстов. В этих ранних исследованиях аналитики по необходимости были ограничены небольшими объемами текста, которые они могли собирать, обрабатывать и эффективно анализировать. Корпоративная лингвистика, особенно в последние два десятилетия, дала мощный толчок и значительный поворот в эмпирических исследованиях языка. Благодаря лингвистике корпусов аналитики теперь могут сравнительно легко исследовать тексты, состоящие из миллионов слов, они также осознали увлекательные идеи, которые могут быть получены в результате применения методов корпуса к текстуальному анализу: идеи, которые были пропущены при анализе только для людей. Как отмечает Ханстон, можно без преувеличения сказать, что корпусная лингвистика «произвела революцию в изучении языка». Что же такое корпусная лингвистика? И каков его основной ресурс? По словам Бейкера, «[c] orpus лингвистика становится все более популярной областью лингвистики, которая включает анализ (обычно) очень больших коллекций текстов, хранящихся в электронном виде, с помощью компьютерного программного обеспечения». Мак Энери и Харди говорят, что корпусная лингвистика имеет дело с «некоторым набором машиночитаемых текстов, который считается подходящей основой для изучения определенного набора исследовательских вопросов». Таким образом, корпусная лингвистика - это методология или подход, используемый для исследования лингвистических явлений, а не подполе в лингвистике, сравнимая с такими областями, как семантика, синтаксис, социолингвистика, судебная лингвистика и т.д. почерпнутые из определений корпусной лингвистики, предложенных Бейкером и МакЭнери и Харди выше: корпус - это большое «тело» текстов, хранящихся в электронном виде. Актуальность: Для любого конкретного исследования аналитик неизменно работает с корпусом или набором корпусов, сначала загружая его в программное обеспечение корпуса, а затем применяя в нем определенные методы, такие как подсчет частоты или списки соответствия, для получения результатов. Таким образом, очевидно, что развитию корпусной лингвистики способствовала роль компьютеров. Цель: анализ корпусов текстов на основе платформы TXM и интегрированных расширений. Задачи: - изучить состояние развития компьютерной лингвистики стране и мире и, в частности, в области анализа противоправных текстов; - проанализировать существующие системы и средства анализа корпусов; - описать существующие аналитические инструменты TXM и внедренные функции Действительно, основные достижения в лингвистике корпуса неразрывно связаны с достижениями компьютерных технологий. Английский, несомненно, является языком, который больше всего выиграл от применения корпусов для языковых исследований, и причина не надуманная: сама область зародилась и развивалась в англоязычных странах, в первую очередь в Великобритании и Соединенных Штатах Америки. Следовательно, инструменты были изначально разработаны с учетом изучения английского языка. Но сейчас есть компиляции и анализ корпусов на нескольких других языках, таких как китайский, французский, голландский, датский, мальтийский, арабский, урду, хинди и т.д. - факт, который полностью диверсифицирует сферу и придает практике действительно глобальный вид. Основное внимание в этой главе уделяется исследованию роли, которую методы корпусов играют в изучении языков. В оставшейся части этой главы обсуждаются некоторые ключевые теоретические вопросы, связанные с лингвистикой корпуса, объясняется, как разработать и построить корпус, и как анализировать корпус (используя один или два примера исследования корпуса для объяснения процесса) ГЛАВА 1. ОСНОВНЫЕ ПОНЯТИЯ КОРПУСНОГО АНАЛИЗА ТЕКСТА
Ключевые теоретические вопросы корпусной лингвистики
«Корпус русского литературного языка» создан с целью обеспечить исследования, связанные с современным русским литературным языком. Корпус может быть использован для составления словарей, грамматик, учебников, справочников и являться базой для компьют...
Открыть главуДизайн и построение корпуса
Чтобы начать изучение любого лингвистического элемента в корпусе, сначала должен быть корпус. Скомпилированные корпуса (по самой своей природе как тексты, обрабатываемые и сохраняемые в цифровой форме) могут использоваться многими другими исследовате...
Открыть главуАнализ корпуса
После компиляции и хранения в электронном виде корпус может быть подвергнут всем видам лингвистического анализа. Анализ корпуса облегчается с помощью программных средств анализа корпуса, которые с 1980-х годов постоянно совершенствовались. В настояще...
Открыть главуМетоды корпусной лингвистики
Корпоративная лингвистика создала ряд исследовательских методов, которые пытаются проследить путь от данных к теории. Уоллис и Нельсон (2001) впервые представили то, что они назвали перспективой 3А: аннотации, абстракция и анализ. Аннотация состоит в...
Системы и средства корпусного анализа
UIMA (Unstructured Information Management Architecture) - система анализа корпусов, важной чертой которой, помимо широкого набора средств анализа корпусов, является наличие продуманной системы взаимосвязанных интерфейсов, определяющих различные виды ...
Что такое платформа TXM
Платформа TXM сочетает в себе мощные и оригинальные методы анализа структурированных и аннотированных текстовых корпусов с использованием модульных компонентов и компонентов с открытым исходным кодом (Heiden 2010, Heiden et al., 2010, Pincemin et al....
Открыть главуКорпусной анализ в TXM
Для анализа подкорпусов и их отношений между собой в TXM используется две характеристики: показатель специфичности и анализ соответствий. Эффективным и наглядным инструментом количественной оценки соотношений специальных подкорпусов относительно друг...
Обработка текста или извлечение текста в TXM
TXM позволяет работать непосредственно с текстом, который был ранее скопирован в буфер обмена системы другим приложением - путем выделения + копирования (обработка текста, программа просмотра PDF, браузер, почтовая программа). TXM также работает с те...
Открыть главуЗаключение
Большая часть внимания современной компьютерной лингвистики уделяется пониманию. С распространением Интернета и обилием легкодоступного письменного человеческого языка способность создавать программы, способные понимать человеческий язык, будет иметь множество широких и захватывающих возможностей, включая улучшенные поисковые системы, автоматическое обслуживание клиентов и онлайн-образование. Ранняя работа в области понимания включала применение байесовской статистики к задаче оптического распознавания символов, как это проиллюстрировали Бледсо и Брауинг в 1959 году, когда большой словарь возможных букв был создан путем «обучения» на примерах букв и затем на вероятности того, что любой из них выученные примеры совпали, новый ввод был объединен для принятия окончательного решения. Другие попытки применить байесовскую статистику к языковому анализу включали работу Мостеллера и Уоллеса (1963), в которой анализ слов, используемых в «Записках федералиста», использовался для попытки определить их авторство (заключая, что Мэдисон, скорее всего, является автором большинство статей). Программа синтаксического анализа основного языка в этом проекте называлась SHRDLU , которая могла вести отчасти естественный диалог с пользователем, давая ему команды, но только в рамках игрушечной среды, разработанной для этой задачи. Эта среда состояла из блоков разной формы и цвета, и SHRDLU был способен интерпретировать такие команды, как «Найдите блок, который выше, чем тот, который вы держите, и поместите его в коробку». и задавать такие вопросы, как «Я не понимаю, о какой пирамиде вы имеете в виду». в ответ на ввод пользователя. [37]Несмотря на то, что такая обработка естественного языка впечатляет, она оказалась намного более сложной за пределами ограниченного объема игрушечной среды. Точно так же проект, разработанный НАСА под названием LUNAR, был разработан, чтобы дать ответы на естественно написанные вопросы о геологическом анализе лунных пород, возвращенных миссиями Apollo. Такого рода проблемы называются ответами на вопросы. Глава заканчивается заключительным замечанием, в котором говорится о перспективах месторождения В данной работе мы опираемся на платформу TXM являющуюся эффективным программным комплексом корпусного анализа, позволяющим проводить анализ корпусов (анализ соответствий, кластеризация, построение лексических таблиц, поиск сложных лексических конструкций, выделение подкорпусов по различным параметрам). Платформа TXM использует словоупотребления в качестве структурных единиц анализа. Для повышения эффективности таких используемых TXM методов, как анализ специфичности и анализ соответствий, целесообразно ввести в рассмотрение новые единицы анализа, опирающиеся на процедуры автоматизированной обработки текстов на естественных языках В результате проведенного в рамках настоящей работы исследования были выполнены следующие задачи: 1. Проведен детальный обзор существующих на сегодняшний день систем и средств анализа корпусов, их технические возможности, а также приведены примеры самых крупных корпусов с использованием данных инструментов. Описана платформа TXM, ее методы и расширения, которые были применены в ходе анализа корпуса противоправных и нейтральных текстов. 2. Проведен анализ корпуса текстов нейтральной и противоправной тематики с помощью методов анализа соответствий и специфичности. Сделаны выводы о возможности применения корпуса в машинном обучении в задачах классификации текстов на предмет выявления потенциально противоправного содержания. 3. Показана возможность выделения дифференцирующих признаков для противоправных текстов различных тематик для задачи последующего автоматического определения такого рода текстов. Таким образом, можно утверждать о возможности использования средств корпусного анализа для решения задачи распознавания текстов противоправного содержания. В рамках дальнейших исследований возможно расширение методов качественного и количественного анализа корпуса текстов с целью создания более надежной модели определения противоправной составляющей в текстах.
Список литературы
1. Заботкина, В. И. Методы когнитивного анализа семантики слова. Компьютерно-корпусный подход.- М.: Языки славянских культур, 2020 год. 2. Задорожний, В. Г. Методы вариационного анализа.. - М.: Регулярная и хаотическая динамика, Институт компьютерных исследований, 2017 год. 3. Захарова, Т. А. Метод совместного анализа (конджойнт-анализ). Инновационный подход к изучению структуры предпочтений. М.: КДУ, 2016 год. 4. Козлов, В.В. Методы качественного анализа в динамике твердого тела / В.В. Козлов. - М.: Регулярная и хаотическая динамика, Институт компьютерных исследований, 2019 год. 5. Амиева А. М. , Филимонов В. В. , Сергеев А. П. Основные методики исследования структуры текста. Передача, обработка, восприятие текстовой и графической информации. – Екатеринбург, 2015. С. 251-263. 6. Тестелец Я. Г. Глава IV. Предложение и клауза. Введение в общий синтаксис. —М. : РГГУ. 7. Филимонов В. В. , Живодеров А. А. , Горбич Л. Г. Экспрессия и упорядоченность в письменной речи, Известия Уральского Федерального Университета. Серия 1, Проблемы образования, науки и культуры: – 2012 год 8. Введение в корпусную лингвистику [Электронный ресурс], Режим доступа: http://www. myshared. ru/slide/472948 9. Корпусная лингвистика [Электронный ресурс], Фонд знаний «Ломоносов». Режим доступа: http://lomonosov-fund. ru 10. Корпусная лингвистика [Электронный ресурс]. Режим доступа: http://corpora. iling. spb. Ru. 11. Корпус русского литературного языка [Электронный ресурс] // Режим доступа: http://www. narusco. ru 12. Лаборатория общей и компьютерной лексикологии и лексикографии филологического факультета МГУ имени М. В. Ломоносова [Электронный ресурс] // Режим доступа: http://www. philol. msu. ru