Читаем Биологически активные полностью

Существует много способов вычисления этой вероятности; ясно, что такого рода оценку можно сделать уже на основании величин расстояний от рассматриваемой точки до двух центров. На нашем графике нетрудно провести прямую, точки которой в равной степени удалены от каждого из них, и если точка, соответствующая некоторому объекту, расположится именно на ней, мы с помощью нашего решающего правила вообще ничего не сможем сказать о принадлежности объекта той или иной группе.

Очень, конечно же, большое значение имеет выбор параметров, на основании которых происходит распознавание. В рассмотренном примере этот выбор был удачным в том отношении, что параметры aи bнезависимы (рост и умственное развитие ребенка в данном возрасте необязательно взаимосвязаны). Кроме того, что еще важнее, оба параметра являются существенными, то есть действительно в среднем различны в двух группах, или, как еще говорят, несут информацию о принадлежности объекта одной из групп.

Что же случается, если избранные параметры не удовлетворяют этим требованиям? Проиллюстрируем это на примерах. Пусть мы вначале решаем нашу задачу, используя всего один параметр – рост. Соответствующие различным объектам точки и центры групп располагаются в этом случае на прямой. Мы убедимся, что качество классификации ухудшится. В самом деле, если какой-то мальчуган из старшей группы ростом не вышел, он будет отнесен неправильно (на прямой соответствующая точка расположится, не доходя середины отрезка между двумя центрами); при классификации же на основании двух параметров расстояние до «неправильного» центра окажется уже большим в силу сдвига соответствующей точки по второй оси, параметру a, поскольку по умственному развитию наш объект находится вполне на уровне своего возраста.

Что произойдет, если в качестве второго параметра мы возьмем не независимое от роста умение считать, а величину, связанную с ростом, – например, вес? Точки на нашем графике расположатся узкой восходящей полоской, причем у верхнего ее конца сосредоточатся красные, у нижнего – зеленые. Качество классификации почти не улучшится: второй параметр несет мало дополнительной информации, чаще всего у ребят большего роста окажется и больший вес.

Выбор для описания объекта взаимозависимых (коррелированных) параметров, однако, ошибка не самая страшная; это лишь затрудняет вычисления, но не оказывает отрицательного влияния на результат. В отличие от этого введение несущественных параметров, значения которых не зависят от того, какой группе принадлежит объект, очень сильно сказывается на качестве распознавания, часто делая процедуру вообще неработоспособной.

Действительно, предположим, что в качестве второго параметра мы избрали нечто, совершенно не содержащее малейшего намека на принадлежность ребенка той или иной группе – скажем, номер квартиры, в которой он проживает. В этом случае наш график будет выглядеть следующим образом: ближе к началу координат вертикальной полосой расположатся зеленые точки, к ней будет примыкать и частично пересекаться же полоса зеленых точек. Часто будет наблюдаться такая ситуация: точка близка «своему» центру по существенному параметру – росту, но сильно удалена по значению параметра несущественного – номеру квартиры. В результате различие в расстояниях от нее до каждого из центров станет незначительным, а из-за небольшой даже разницы средних значений второго параметра в двух группах возможны неправильные отнесения. Введение второго, несущественного параметра, таким образом, ухудшает качество предсказания «Под влиянием таких параметров может происходить разнесение объектов одного класса и сближение объектов разных классов. Это явление лежит в основе так называемой «теоремы о гадком утенке»... (Ее доказательство и название принадлежит японскому ученому Ватанабэ. – С.Г.). Своим названием теорема обязана одному из ее частных следствий, согласно которому в таком пространстве расстояние между гадким утенком и лебедем будет таким же, как между двумя лебедями». Это цитата из книги А.Б. Розенблита и В.Е. Голендера «Логико-комбинаторные методы в конструировании лекарств» – несомненно, одной из лучших на русском языке монографий по проблеме анализа связи структура – активность. Книга эта, написанная на самом современном научном уровне, доступна тем не менее во многих частях также и непрофессионалам. Кроме того, ее очень украшают встречающиеся там и сям симпатичные искорки юмора. Пример – прямо на второй странице: «Тираж 300 экземпляров»; естественно, было бы просто издевательством отсылать к ней читателя, желающего глубже ознакомиться с этими вопросами.

Непосредственная связь с магией

Не счесть всех постыдных поражений и глупейших конфузов, кошмарных провалов и опереточных таки ошибок, выпавших на долю тех мужественных и изобретательных людей, которые впервые взялись за внедрение методов теории распознавания образов в различных прикладных областях.

Перейти на страницу:
Нет соединения с сервером, попробуйте зайти чуть позже