Возможности применения ИТ в лингвистике

[[File:Ni 379037b83f5c8870884e98866f0bb0f7.jpg|thumb|260px|left|ИТ

]]Возможности применения ИТ в лингвистике.

Сегодня использование ИТ значительно увеличивает эффективность функционирования любой сферы человеческой деятельности. Лингвистика не является исключением. Какими бы далекими областями, на первый взгляд, ни казались ИТ и лингвистика, неоспоримая связь между ними подтверждается хотя бы фактом существования компьютерной лингвистики (КЛ) – "направления в прикладной лингвистике, ориентированного на использование компьютерных инструментов – программ, компьютерных технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д., а также всей сферы применения компьютерных моделей языка в лингвистике и смежных дисциплинах". Более того, если учесть, что главным предметом исследования в лингвистике являются тексты и что именно современные ИТ открывают новые возможности для обработки и анализа текстов и предоставляют разнообразные средства создания, распространения, поиска и учета текстовой информации, связь и взаимодействие этих двух сфер становятся еще более очевидными. Основные лингвистические программы и ресурсы, представленные в сети интернет На сайте Русской виртуальной библиотеки представлен Каталог лингвистических программ и ресурсов в Сети, составленный С.В. Логичевым. Данный каталог включает в себя описание программ, связанных с анализом текстов и вычислительной лингвистикой, а также соответствующих ресурсов, доступных сегодня в глобальной сети Интернет. Упор при составлении каталога, по словам автора, делался на бесплатные программы, доступные для загрузки или использования в режиме on-line. Также описаны коммерческие версии некоторых наиболее интересных программ. Тематически каталог разбит на следующие разделы: программы анализа и лингвистической обработки текстов; программы преобразования текстов; психолингвистические программы; генераторы текстов; системы обработки естественного языка и машинного перевода; каталоги и коллекции ресурсов; словари и тезаурусы; поисковые машины и системы полнотекстового поиска; системы синтеза и распознавания речи. Рассмотрим наиболее интересные и полезные, на наш взгляд, программы.^ Программы анализа и лингвистической обработки текстов Link Grammar Parser – это синтаксический парсер (то есть синтаксический анализатор) английского языка. Работает со словарем, включающим около 60000 словарных форм. ^ Проекты Cibola/Oleada реализуют обширные компьютерные системы лингвистического анализа текстов. Компоненты системы включают средства работы с мультиязыковыми текстами, построения конкорданса для текстов на более чем 16 языках, статистического анализа, автоматического перевода, различные словари и тезаурусы. ^ Russian Morphological Dictionary – программа С.Сикорского для синтаксического и морфологического анализа русскоязычных текстов. Использует морфологический словарь, включающий 120000 слов. Mystem – компактный, быстрый и бесплатный морфологический парсер русскоязычных текстов, реализованный на основе словаря Зализняка. Лингвоанализатор – on-line версия программы математического анализа структуры текста. Целью анализа является определение близости любого из предлагаемых пользователем текстов к одному из авторских эталонов, определенных заранее. Программа анализирует входной текст и выдает имена трех писателей, которые могли бы быть его наиболее вероятными авторами. ^ Система StarLing позволяет работать с мультиязычными текстами большой длины, с транскрипционными знаками. Среди преимуществ: удобный поиск, возможность анализа и синтеза словоформ по словарю Зализняка, а также перевода по словарю Мюллера. Есть функции для сравнительно-исторических исследований. ^ Морфологический анализатор – on-line версия программы морофлогического анализа слов русского/английского языков. Позволяет получить для вводимого слова базовую форму и морфологическую информацию. Программа реализована на основе словарей Зализняка (рус.яз.) и Мюллера (англ.яз.).^ Программы для автоматической обработки текстов АОТ (автоматическая обработка текста). Среди предлагаемых продуктов представляют интерес: модуль графематического анализа текста, компоненты морфологического анализа для русского, немецкого и английского языков, модуль автоматического уничтожения омонимии, модуль семантического анализа текста, система лингвистического поиска, различные тезаурусы и словники. Textarc – революционная программа для визуализации и исследования текстов, являющаяся настоящим произведением искусства. Текст воспроизводится на экране компьютера в виде галактики, в которой слова играют роль звезд. Часто встречающиеся слова светятся ярко, а редкие – вовсе не видны. Строки текста выводятся в виде закручивающейся спирали по границе "галактики" точечным шрифтом (высотой в один пиксель). Программа позволяет видеть структуру текста, взаимосвязи между словами и контекстом, просматривать частотный и алфавитный индекс слов и конкорданс. При движении курсора по галактике слова вспыхивают и загораются лучами (указателями на контекст), а также звучат в разной тональности. LeoBilingua – программа, позволяющая генерировать билингва-текст (текст из двух синхронных половин на разных языках). ^ Инструментальные средства МедиаЛингва предназначены для создания систем автоматического аннотирования, классифицирования, поиска и морфологической обработки текстовой информации. ^ Программы преобразования текстов Программы преобразования текстов представлены такими разработками, как: HTML Batch Editor, Словогрыз, ClearText Reader's Edition, xReplacer, xMarkup v2.1.1., XML редакторы, Xchange Search&Replace, KDiff3, WinMerge, TextTransformer v1.4.1. Особое внимание обратим лишь на некоторые из них. Например, Словогрыз предназначен для поиска и замены текста по заданным маскам. Программа умеет находить и заменять в тексте не только строго заданные слова и фразы, но и текстовые элементы, определяемые произвольными поисковыми шаблонами. Позволяет сохранять/загружать сценарии преобразований. ^ KDiff3 и WinMerge – программы, позволяющие визуально сравнивать текстовые файлы. TextTransformer v1.4.1 – мощная программа, предназначенная для выполнения сколь угодно сложных преобразований над множеством текстовых файлов. Позволяет анализировать, изменять, создавать и удалять заданные элементы обрабатываемых текстов.^ Психолингвистические программы В разделе психолингвистических программ представлены: ПСИ-Офис версия 2.1 – система психолингвистического анализа текстов, включающая 3 компоненты: программа поиска вложенных слов в тексте, т.е. слов, "спрятанных" внутри и на переходах между словами; программа поиска повторяющихся фрагментов текста при анализе "автоматического письма" (такие тексты пишутся с целью анализа текущих подсознательных процессов); программа синтеза подсознательного компонента текста. ВААЛ-2000 – экспертная система лексического и контент-анализа текстов; прогнозирует эффект неосознаваемого воздействия текста на массовую аудиторию, анализирует тексты с точки зрения такого воздействия, выявляет личностно-психологические качества автора текста. Приемы журналистики & Public Relations – программа, представляющая собой консультанта, помогающего пользователю при написании различных текстов. Пользователь выбирает ряд параметров, характеризующих желаемый результат, а программа выдает ему рекомендации по написанию текста и иллюстрирует их примерами. Psyberia.ru и Лаборатория ПСИТОН содержат профессиональные психодиагностические и психолингвистические программы. Среди многочисленных генераторов текстов отметим, например: Болтун (виртуальный собеседник, который обладает зачатками искусственного разума; может реагировать на реплику пользователя своей репликой), Russian Word Constructor (RWC) (программа для генерации русскоязычных стихоподобных текстов ("инструмент поэта"); способна конструировать русские неологизмы на основе заданного словаря с лексико-статистической информацией), Весна (генератор псевдофилософских текстов). Системы обработки естественного языка и машинного перевода представлены в каталоге программами: Natural Language Projects at ISI, Автоматический словарь Мультитран, Translate.Ru, ^ LEO, PEREVODOV.NET, Проекты НИИ ИИ, Computer Aided Translation, Google Переводчик. . Каталоги и коллекции ресурсов включают в себя: Каталог программ по вычислительной лингвистике, Ресурсы, связанные с анализом текста, Справочно-информационный портал "Русский язык", Text Analysis Info, The Linguist List, LTI Projects. Портал "Русский язык", например, интересен тем, что содержит массу полезной информации и включает on-line словари русского языка, такие как: Полный электронный орфографический словарь русского языка под ред. В.В. Лопатина; Словарь трудностей произношения и ударения в современном русском языке; Новый словарь русского языка, Толково-словообразовательный словарь, Словарь нарицательных имён и др. Среди многочисленных словарей и тезаурусов стоит отметить представляющие для автора особый интерес (в связи с исследованием англоязычных искусствоведческих текстов) British National Corpus (коллекция более чем 100 миллионов слов современного английского письменного и устного языка), Acronym Finder (полный словарь акронимов и сокращений английского языка, содержит более 173 тысячи элементов), WordNet (электронный тезаурус, отражающий все возможные толкования слов английского языка и показывающий взаимосвязи между ними; для каждого слова можно найти синонимы, объединенные в смысловые группы и получить ссылки на родовые или производные понятия), Толковый словарь Merriam Webster (on-line версия знаменитого толкового словаря английского языка). Поисковые машины и системы полнотекстового поиска представлены Поисковой системой Яndex, Поисковой системой Ищейка, Verity Ultraseek, Quintura Search, ARM Engine 4.0 и многими другими. Интересны программы синтеза и распознавания речи, например: Sacrament Text-to Speech Engine v2.0 (система синтеза русской речи, созданная минской компанией "Сакрамент"; позволяет произносить тексты мужским и женским голосом, делая при этом интонационные паузы, изменяя по желанию пользователя тон и тембр речи), Govorilka (небольшая программа чтения текста голосом для Windows; настраивается на различные языки и голоса; использует редактируемые словари произношений; позволяет записать синтезированную речь в MP3-файл), CSLU Toolkit (набор инструментальных средств для создания приложений, обрабатывающих речевую и звуковую информацию; осуществляет синтез и распознавание речи, озвучивание текстов, обработку спектрограмм и звуковых сигналов) и другие. Таким образом, мы убедились в существовании огромного множества разнообразных программ и ресурсов, которые могут значительно облегчить работу с лингвистическим материалом. Лингвисту остается только выбрать подходящие для исследования программы и воспользоваться их преимуществами.