4. Определить спектр задач, решаемых на материале Национального корпуса русского языка.
Формы:
лекция с обсуждением. приемы реализации задач:1. Характеристика корпуса текстов с показом мультимедийной презентации.
2. Показать достоинства работы с корпусом текстов в презентации.
3. Продемонстрировать возможности поиска информации в корпусе на компьютере.
4. Индивидуальная работа над материалами из Национального корпуса русского языка.
Материалы для урока
Корпус данных
– особый вид базы данных. В отличие от базы данных, корпус данных претендует на отражение реальной картины, существующей в предметной области. Обычно корпус данных формируется из текстов. По запросу пользователя из корпуса извлекаются материалы. Единица извлечения материала определяется единицей хранения. Если единицей хранения является слово, то на запрос пользователя из корпуса будет извлекаться отдельное слово (как в орфографических словарях); если же единица хранения – словосочетание, то пользователь на запрос о слове получит ближайшие контексты интересующего его слова; при единице хранения предложении «ответом» пользователю будет целое предложение и т. п.В качестве материалов предлагаем главу о корпусной лингвистике из учебного пособия И.Г. Овчинниковой и И.А. Углановой «Компьютерное моделирование речевой коммуникации» (Пермь 2006). Приведем некоторые выдержки из данного пособия.
Корпусная лингвистика – одна из наиболее востребованных отраслей прикладного языкознания. Бурное развитие корпусной лингвистики обусловлено необходимостью создания ресурсов, обеспечивающих доступ к языковому материалу, качественно обработанному и репрезентативному. Одна из основных прикладных задач, стимулирующих бурное развитие корпусной лингвистики, – обеспечение систем машинного перевода, новое поколение которых использует корпусы текстов на разных языках как базы примеров и аналогий, пригодных для повторного использования при переводе новых документов. Корпусная лингвистика использует программное обеспечение, рассчитанное на обработку естественного языка. В процессе создания корпусов текстов на различных языках совершенствуются программы, позволяющие работать с естественным языком на компьютере (так называемые NLP – natural language processing). Такого рода программы широко используются за пределами корпусной лингвистики и научных исследований.
Корпусы текстов представляют сырой материал для создания и тестирования программ по переработке естественного языка. В данном случае под текстами понимаются и высказывания устной речи как в СМИ, так и в естественной коммуникации (например, соответствующие подкорпусы Британского национального корпуса). В целом все известные корпусы реализуют четыре варианта:
– национальный корпус, в котором представлены тексты из различных сфер коммуникации (монолингвальный корпус)
;– сравнительный (или контрастивный) корпус, объединяющий несколько национальных корпусов, организованных аналогично (с совпадающей репрезентативностью и общим корпус-менеджером);
– параллельный корпус, или корпус параллельных текстов, содержащих тексты на одном языке и их переводы на другой язык (или на несколько языков);
– корпус разговорной речи, который может существовать отдельно, а не только в качестве подмассива Национального корпуса. Корпусы разговорной (и шире – устной) речи могут включать только аудиозаписи (в частности, Корпус диалектов английского языка) или, напротив, только транскрипцию или орфографическую запись устной речи (как подмассив Британского национального корпуса). Оптимальным вариантом полагают параллельное размещение в корпусе аудиозаписей и их стенограммы (в транскрипции или орфографии).
Классификация корпусов В.П. Захарова
Каждый из вариантов пригоден для решения специфических задач. Например, сравнительный корпус позволяет изучать языки в контрастивном аспекте, в то время как параллельный корпус используется в качестве базы данных (базы примеров перевода) в современных системах машинного перевода. Обращение к нему в процессе контрастивного исследования нецелесообразно, поскольку в параллельных текстах на двух языках отражается неизбежная при переводе межъязыковая интерференция, что может существенным образом исказить результаты сопоставления.
Подробную классификацию корпусов предлагает В.П. Захаров в своем учебном пособии (Захаров 2005: 13). Приведем ее полностью.
Как видим, на основе корпусов можно моделировать любой из аспектов коммуникации. Основным достоинством моделей на основе корпуса является их валидность, достигаемая благодаря огромному количеству языкового материала, представленного в корпусе.
А. А. Писарев , А. В. Меликсетов , Александр Андреевич Писарев , Арлен Ваагович Меликсетов , З. Г. Лапина , Зинаида Григорьевна Лапина , Л. Васильев , Леонид Сергеевич Васильев , Чарлз Патрик Фицджералд
Культурология / История / Научная литература / Педагогика / Прочая научная литература / Образование и наука