Читаем Информационно-коммуникационные технологии в школьном обучении русскому языку и подготовке к ЕГЭ полностью

4. Определить спектр задач, решаемых на материале Национального корпуса русского языка.

Формы: лекция с обсуждением. приемы реализации задач:

1. Характеристика корпуса текстов с показом мультимедийной презентации.

2. Показать достоинства работы с корпусом текстов в презентации.

3. Продемонстрировать возможности поиска информации в корпусе на компьютере.

4. Индивидуальная работа над материалами из Национального корпуса русского языка.

Материалы для урока

Корпус данных – особый вид базы данных. В отличие от базы данных, корпус данных претендует на отражение реальной картины, существующей в предметной области. Обычно корпус данных формируется из текстов. По запросу пользователя из корпуса извлекаются материалы. Единица извлечения материала определяется единицей хранения. Если единицей хранения является слово, то на запрос пользователя из корпуса будет извлекаться отдельное слово (как в орфографических словарях); если же единица хранения – словосочетание, то пользователь на запрос о слове получит ближайшие контексты интересующего его слова; при единице хранения предложении «ответом» пользователю будет целое предложение и т. п.

В качестве материалов предлагаем главу о корпусной лингвистике из учебного пособия И.Г. Овчинниковой и И.А. Углановой «Компьютерное моделирование речевой коммуникации» (Пермь 2006). Приведем некоторые выдержки из данного пособия.

Корпусная лингвистика – одна из наиболее востребованных отраслей прикладного языкознания. Бурное развитие корпусной лингвистики обусловлено необходимостью создания ресурсов, обеспечивающих доступ к языковому материалу, качественно обработанному и репрезентативному. Одна из основных прикладных задач, стимулирующих бурное развитие корпусной лингвистики, – обеспечение систем машинного перевода, новое поколение которых использует корпусы текстов на разных языках как базы примеров и аналогий, пригодных для повторного использования при переводе новых документов. Корпусная лингвистика использует программное обеспечение, рассчитанное на обработку естественного языка. В процессе создания корпусов текстов на различных языках совершенствуются программы, позволяющие работать с естественным языком на компьютере (так называемые NLP – natural language processing). Такого рода программы широко используются за пределами корпусной лингвистики и научных исследований.

Корпусы текстов представляют сырой материал для создания и тестирования программ по переработке естественного языка. В данном случае под текстами понимаются и высказывания устной речи как в СМИ, так и в естественной коммуникации (например, соответствующие подкорпусы Британского национального корпуса). В целом все известные корпусы реализуют четыре варианта:

– национальный корпус, в котором представлены тексты из различных сфер коммуникации (монолингвальный корпус);

– сравнительный (или контрастивный) корпус, объединяющий несколько национальных корпусов, организованных аналогично (с совпадающей репрезентативностью и общим корпус-менеджером);

– параллельный корпус, или корпус параллельных текстов, содержащих тексты на одном языке и их переводы на другой язык (или на несколько языков);

– корпус разговорной речи, который может существовать отдельно, а не только в качестве подмассива Национального корпуса. Корпусы разговорной (и шире – устной) речи могут включать только аудиозаписи (в частности, Корпус диалектов английского языка) или, напротив, только транскрипцию или орфографическую запись устной речи (как подмассив Британского национального корпуса). Оптимальным вариантом полагают параллельное размещение в корпусе аудиозаписей и их стенограммы (в транскрипции или орфографии).


Таблица 1

Классификация корпусов В.П. Захарова




Каждый из вариантов пригоден для решения специфических задач. Например, сравнительный корпус позволяет изучать языки в контрастивном аспекте, в то время как параллельный корпус используется в качестве базы данных (базы примеров перевода) в современных системах машинного перевода. Обращение к нему в процессе контрастивного исследования нецелесообразно, поскольку в параллельных текстах на двух языках отражается неизбежная при переводе межъязыковая интерференция, что может существенным образом исказить результаты сопоставления.

Подробную классификацию корпусов предлагает В.П. Захаров в своем учебном пособии (Захаров 2005: 13). Приведем ее полностью.

Как видим, на основе корпусов можно моделировать любой из аспектов коммуникации. Основным достоинством моделей на основе корпуса является их валидность, достигаемая благодаря огромному количеству языкового материала, представленного в корпусе.

Перейти на страницу:

Похожие книги

Биология добра и зла. Как наука объясняет наши поступки
Биология добра и зла. Как наука объясняет наши поступки

Как говорит знаменитый приматолог и нейробиолог Роберт Сапольски, если вы хотите понять поведение человека и природу хорошего или плохого поступка, вам придется разобраться буквально во всем – и в том, что происходило за секунду до него, и в том, что было миллионы лет назад. В книге автор поэтапно – можно сказать, в хронологическом разрезе – и очень подробно рассматривает огромное количество факторов, влияющих на наше поведение. Как работает наш мозг? За что отвечает миндалина, а за что нам стоит благодарить лобную кору? Что «ненавидит» островок? Почему у лондонских таксистов увеличен гиппокамп? Как связаны длины указательного и безымянного пальцев и количество внутриутробного тестостерона? Чем с точки зрения нейробиологии подростки отличаются от детей и взрослых? Бывают ли «чистые» альтруисты? В чем разница между прощением и примирением? Существует ли свобода воли? Как сложные социальные связи влияют на наше поведение и принятие решений? И это лишь малая часть вопросов, рассматриваемых в масштабной работе известного ученого.

Роберт Сапольски

Научная литература / Биология / Образование и наука
Что знает рыба
Что знает рыба

«Рыбы – не просто живые существа: это индивидуумы, обладающие личностью и строящие отношения с другими. Они могут учиться, воспринимать информацию и изобретать новое, успокаивать друг друга и строить планы на будущее. Они способны получать удовольствие, находиться в игривом настроении, ощущать страх, боль и радость. Это не просто умные, но и сознающие, общительные, социальные, способные использовать инструменты коммуникации, добродетельные и даже беспринципные существа. Цель моей книги – позволить им высказаться так, как было невозможно в прошлом. Благодаря значительным достижениям в области этологии, социобиологии, нейробиологии и экологии мы можем лучше понять, на что похож мир для самих рыб, как они воспринимают его, чувствуют и познают на собственном опыте». (Джонатан Бэлкомб)

Джонатан Бэлкомб

Научная литература