Обработка текста или извлечение текста в TXM
Зарегистрируйся в два клика и получи неограниченный доступ к материалам,а также промокод на новый заказ в Автор24. Это бесплатно.
TXM позволяет работать непосредственно с текстом, который был ранее скопирован в буфер обмена системы другим приложением - путем выделения + копирования (обработка текста, программа просмотра PDF, браузер, почтовая программа). TXM также работает с текстами, организованными в каталогах текстовых файлов в различных форматах.
Может постепенно обрабатывать от простого текста к тексту с кодировкой XML-TEI с богатой структурой. TXM предлагает непрерывный набор модулей импорта, охватывающих большинство часто используемых стандартных форматов:
TXT: для любого простого текста, поступающего из текстовых редакторов, PDF-файлов, веб-сайтов и т. д ;
XML: для слегка структурированных текстов (только предложения или абзацы для пример) или даже обогащенный (с помощью тегов XML, которые кодируют определенные слова с лексическими свойствами);
TEI: для текстов, закодированных в соответствии с рекомендациями консорциума TEI и предназначенных для использования в долгосрочных проектах, с другими инициативами или совместимость с системами архивирования.
TXM позволяет адаптировать затраты на кодирование корпуса в соответствии с реальными потребностями исследования, особенно когда эти потребности обнаруживаются в процессе анализа корпуса. В этих условиях TXM помогает как при кодировании, так и при эксплуатации корпусов
Зарегистрируйся, чтобы продолжить изучение работы
.
Управляет большим разнообразием форматов и конфигураций корпусов.
TXM не ограничивается текстовыми корпусами. Это позволяет работать с транскрипцией записей (где транскрипция может кодировать, в частности, говорящих и точки временной синхронизации с исходным исходным видео или аудио), на параллельных корпусах, где тексты связаны с переводом (многоязычные корпуса) или версионированием. Такое разнообразие является гарантией устойчивости корпусной модели платформы.
TXM импортирует простой текст, закодированный в Unicode: международном стандарте кодировки символов всех систем письма, используемых в мире. TXM импортирует тексты, закодированные в XML: международном стандарте W3C для кодирования текстовых данных. TXM уже импортирует более десятка приложений рекомендаций консорциума TEI. При этом TXM сопровождает развитие этих стандартов, что является гарантией стабильности его возможностей управления корпусом с течением времени.
Его поисковая система работает со словами, а не только со строками символов. Его внутренняя поисковая машина, называемая «Corpus Query Processor» (CQP), позволяет выполнять поиск - для отображения или для подсчета - последовательностей слов, а не символов. Поэтому он особенно подходит для фразеологической работы и для поиска словосочетаний. Для этого слова доступны не только через их графическую (или поверхностную) форму, но и через всю информацию, связанную с ними в виде их леммы или их грамматической категории
50% курсовой работы недоступно для прочтения
Закажи написание курсовой работы по выбранной теме всего за пару кликов. Персональная работа в кратчайшее время!