Конечно, совокупность текстов интернета или любая их часть – тоже корпус и исследование языка с помощью поисковой системы – также корпусное исследование. Но корпусы, созданные лингвистами, отличаются от "естественных" очень многим. В них есть самые разные способы поиска, продуманные с точки зрения нужд лингвистики или обучения; в них сразу доступна информация об источнике каждого примера, о времени его создания; в них легко разобраться со статистикой, с объёмом исследуемых текстов; они дают возможность ограничить базу текстами определённого типа – конкретного временного периода, жанра или автора и др. Например, попробуем проанализировать статистику форм
Один из лучших в мире
Национальный корпус русского языка – это общедоступный сайт, созданный в 2003 году группой учёных из Института русского языка имени В.В. Виноградова при поддержке Яндекса, предназначенный для научных исследований и обучения языку. Термин «национальный» соответствует международной лингвистической традиции: так принято называть корпус, в котором данный язык представлен исчерпывающим образом. Сейчас практически для всех языков с развитой лингвистикой созданы Национальные корпусы. Образцом для многих послужил Британский (BNC), также очень известен Чешский. Наш русский НКРЯ заметно младше этих корпусов, но, вне сомнений, один из лучших – если не лучший – в мире.
Итак, НКРЯ – это огромное собрание текстов самых разных жанров, по которым осуществляется специализированный поиск. НКРЯ состоит из многих корпусов, главный из которых – Основной. В нём объединены художественные произведения, публицистика XX–XXI веков, научная литература, официально-деловые тексты, тексты бытовых жанров. В выборе жанров важна сбалансированность, ведь полученная на основе корпуса статистика должна отражать реальный язык. Это значит, что если в XVIII веке в языке преобладали религиозные тексты, то так же будет и в Корпусе для текстов этого периода. В XIX веке придётся соблюдать баланс между огромным количеством художественных текстов и меньшим – публицистических, эпистолярных и научных. В XX веке будут преобладать тексты СМИ, а также научные и деловые; ближе к XXI появятся интернет-тексты, вплоть до ЖЖ, и, например, реклама. Решение о составе текстов за конкретный период – очень непростая научная задача.
Кроме Основного, в НКРЯ есть десять других корпусов. Мой любимый – Поэтический, в нём планируется собрать всю значимую русскоязычную поэзию. Здесь можно искать по особенностям рифмы, строки, строфики, клаузулы и др. Есть Параллельный корпус, предназначенный для сопоставления русского языка с иностранными. Специально для школы создан Обучающий корпус. В нём предусмотрена грамматическая разметка, соответствующая школьной программе, и адаптированный состав текстов. Например, я только что изучила с его помощью школьную классификацию наречий по значениям. Оказалось, что на весь русский язык всего четыре наречия «цели»
Ориентация на узус
Согласно корпусной лингвистике, любое утверждение о языке должно быть проверено на очень большом – статистически релевантном – наборе текстов. И если раньше лингвистика была ориентирована на абстрактную официальную норму, то сейчас кажется гораздо более интересным изучение того, что происходит в языке на самом деле. Наш язык – живой организм, и за последние тридцать лет он заметно изменился, поэтому сейчас многие кодифицирующие положения нуждаются в проверке. Корпусное изучение узуса, то есть речевых обыкновений носителей языка, того, как мы все говорим и пишем, должно служить для подтверждения или корректировки традиционных положений. Так, для