Читаем Литературная Газета 6446 ( № 3 2014) полностью

Конечно, совокупность текстов интернета или любая их часть – тоже корпус и исследование языка с помощью поисковой системы – также корпусное исследование. Но корпусы, созданные лингвистами, отличаются от "естественных" очень многим. В них есть самые разные способы поиска, продуманные с точки зрения нужд лингвистики или обучения; в них сразу доступна информация об источнике каждого примера, о времени его создания; в них легко разобраться со статистикой, с объёмом исследуемых текстов; они дают возможность ограничить базу текстами определённого типа – конкретного временного периода, жанра или автора и др. Например, попробуем проанализировать статистику форм носков и чулков через Яндекс или Google. Тексты будут всё время повторяться («копипаст» на языке блогеров), в авторстве и датировке придётся долго разбираться отдельно для каждого случая. И догадайтесь – «кто» будет мешать лингвистическому анализу больше всего? Разнообразные Носковы и Чулковы! А в НКРЯ они не помеха, так как можно задать запрос: «Форма чулков , но не с заглавной буквы».


Один из лучших в мире

Национальный корпус русского языка – это общедоступный сайт, созданный в 2003 году группой учёных из Института русского языка имени В.В. Виноградова при поддержке Яндекса, предназначенный для научных исследований и обучения языку. Термин «национальный» соответствует международной лингвистической традиции: так принято называть корпус, в котором данный язык представлен исчерпывающим образом. Сейчас практически для всех языков с развитой лингвистикой созданы Национальные корпусы. Образцом для многих послужил Британский (BNC), также очень известен Чешский. Наш русский НКРЯ заметно младше этих корпусов, но, вне сомнений, один из лучших – если не лучший – в мире.

Итак, НКРЯ – это огромное собрание текстов самых разных жанров, по которым осуществляется специализированный поиск. НКРЯ состоит из многих корпусов, главный из которых – Основной. В нём объединены художественные произведения, публицистика XX–XXI веков, научная литература, официально-деловые тексты, тексты бытовых жанров. В выборе жанров важна сбалансированность, ведь полученная на основе корпуса статистика должна отражать реальный язык. Это значит, что если в XVIII веке в языке преобладали религиозные тексты, то так же будет и в Корпусе для текстов этого периода. В XIX веке придётся соблюдать баланс между огромным количеством художественных текстов и меньшим – публицистических, эпистолярных и научных. В XX веке будут преобладать тексты СМИ, а также научные и деловые; ближе к XXI появятся интернет-тексты, вплоть до ЖЖ, и, например, реклама. Решение о составе текстов за конкретный период – очень непростая научная задача.

Кроме Основного, в НКРЯ есть десять других корпусов. Мой любимый – Поэтический, в нём планируется собрать всю значимую русскоязычную поэзию. Здесь можно искать по особенностям рифмы, строки, строфики, клаузулы и др. Есть Параллельный корпус, предназначенный для сопоставления русского языка с иностранными. Специально для школы создан Обучающий корпус. В нём предусмотрена грамматическая разметка, соответствующая школьной программе, и адаптированный состав текстов. Например, я только что изучила с его помощью школьную классификацию наречий по значениям. Оказалось, что на весь русский язык всего четыре наречия «цели» (назло, бесцельно, чего, зачем) , тогда как «причины» побольше (недаром, поневоле, невольно, неспроста, незачем, почему, потому, поэтому, что и др.) .


Ориентация на узус

Согласно корпусной лингвистике, любое утверждение о языке должно быть проверено на очень большом – статистически релевантном – наборе текстов. И если раньше лингвистика была ориентирована на абстрактную официальную норму, то сейчас кажется гораздо более интересным изучение того, что происходит в языке на самом деле. Наш язык – живой организм, и за последние тридцать лет он заметно изменился, поэтому сейчас многие кодифицирующие положения нуждаются в проверке. Корпусное изучение узуса, то есть речевых обыкновений носителей языка, того, как мы все говорим и пишем, должно служить для подтверждения или корректировки традиционных положений. Так, для класть / ложить исследование показывает, что норма по-прежнему очень жёсткая. Но вот правило о том, что сказуемое при местоимении кто должно быть в единственном числе ( все, кто пришёл , но никогда не все, кто пришли ), корпусной проверки не выдерживает и, видимо, после всестороннего изучения, будет переформулировано.

Перейти на страницу:
Нет соединения с сервером, попробуйте зайти чуть позже