Прежде всего перенос задачи на ЭВМ предполагает использование лишь вполне четких формулировок. Для этой цели разрабатываются специальные языковые средства. Чтобы иметь возможность принять вопрос: «Какими проявлениями биологической активности обладает данное соединение?» — машина должна располагать информацией о том, какие виды биологической активности бывают вообще, и иметь возможность однозначно определить, о каком именно соединении идет речь. Обе проблемы не кажутся на первый взгляд непреодолимыми; так оно, конечно, и есть. Их решение, однако, наталкивается на массу мелких, но досадных трудностей. Пролистаем бегло весьма специальное (тираж 220 экземпляров) издание «Тезаурус информационно-поисковый по биологически активным соединениям», составленный Е. М. Михайловским, В. В. Авидоном и Р. К. Казаряном. Это, как пишут сами авторы, «терминологический словарь-справочник, в котором систематизированы лексические единицы дескрипторного информационно-поискового языка по биологической активности химических соединений и важнейшие парадигматические связи между терминами».
Поясняя это определение более пространно и с помощью менее специальных «лексических единиц», можно сказать, что речь идет о перечне и систематизации терминов, принятых в данной автоматизированной системе обработки данных, четком установлении связей между ними. Система разрабатывается для нужд фармакологических исследований. Сами авторы подчеркивают, что тезаурус «не представляет собой какой-либо новой классификации лекарственных средств». Тем не менее одно из его назначений — закрепление некой принятой в дальнейшем систематики биологических свойств химических соединений.
Рассматриваются три аспекта их действия. Так, по фармакологическому эффекту все препараты можно подразделить на 217 групп; алфавитный их перечень возглавляют «Агрегации тромбоцитов активаторы», замыкают — «эритропоэза стимуляторы», а между ними находим «антидепрессанты», «жажды стимуляторы», «противобактериальные», «снотворные» и т. д. Некоторые группы подразделяются на более мелкие, например, «противокашлевые» на «противокашлевые наркотические» и «противокашлевые ненаркотические»; все три входят в число упомянутых 217.
Другой способ классификации — по механизмам биологического действия: «аденилатциклазы активаторы», «гормонов антагонисты»… «серотонинподобные»… и так далее, вплоть до трудночитаемого «UDP-N-ацетилглюкозамингликопротеид N-ацетилглюкозаминилтрансферазы ингибиторы»; всего 309 групп. Преобладают активаторы и ингибиторы различных ферментов.
Наконец, принята и классификация по месту действия (168 групп) «вестибулярный аппарат», «железы слюнные», «мозг спинной», «протопласт бактерий»… «ухо»… «яйца насекомых». С помощью такого словаря-систематики тем самым определено, какие виды биологической активности вообще существуют. Комбинируя термины, входящие в три описанных перечня, можно определять более узкие группы проявлений биологической активности. Например, сосудорасширяющие препараты — это те, которые принадлежат одновременно группе «спазмолитики» первого перечня и «гладкая мускулатура артерий» третьего перечня.
Очевидно, предполагается, что по мере накопления новых данных тезаурус будет систематически пополняться и видоизменяться.
При разработке языка для описания структуры химического соединения приходится сталкиваться с проблемами совсем иного рода.
Уж формулы как будто чуть ли не сами должны лезть в ЭВМ. Они-то, ЭВМ, в конце концов, и созданы для восприятия формул: один из наиболее популярных языков программирования — фортран образует свое название от английского FORmula TRANslation — «перевод формул».
К сожалению, речь идет вовсе не о структурных формулах, употребляемых в химии. То есть, конечно, можно в конце концов заставить ЭВМ работать и с такими формулами, но для этого понадобится создать соответствующий язык.
Таких языков было предложено несколько — в зависимости от особенностей задач, которые предстояло решать.
Какую информацию нужно ввести в машину для того, чтобы однозначно описать структуру какого-либо соединения? Пусть это будет, скажем, молекула этилового спирта.
Во-первых, должен быть дан перечень образующих ее атомов; пронумеруем их каким-нибудь образом. Например, номера (индексы) от 1 до 6 присвоим атомам водорода, 7 и 8 — углерода, 9 — кислорода:
Во-вторых, перечислим существующие в молекуле валентные связи; это можно сделать, указав пары индексов атомов, между которыми такие связи существуют: (1, 7), (2, 7), (3, 7), (4, 8), (5, 8), (6, 9), (7, 8), (8, 9). В рассмотренной молекуле этанола все связи одинарные; при необходимости можно, однако, привести отдельные наборы пар индексов, которые определяют положение одинарных, двойных, тройных связей.