Брэндон показал мне несколько тестов: алгоритм Эмиля просканировал несколько сотен тысяч сообщений, пользуясь разными вариантами лингвистического анализа, и сверил их с результатами работы службы поддержки и списком слов, отмеченных как нежелательные, чтобы определить, приемлемое перед ним сообщение или угроза. Результаты оказались крайне противоречивыми. Часто «сука» отмечалась как неуместное слово, вне зависимости от контекста. С «грудью» были проблемы, даже когда дело касалось куриных грудок. Система отмечала почти все случаи расистских слов – не нарушение по нашему руководству, так как невозможно определить, белый человек употребляет слово на «н» или черный. Но самое нелепое, что алгоритм браковал большинство хип-хоп песен, даже если они относились к крайне популярным, топу-40. (Эмиль сказал, что в будущем он введет в базу данных тексты песен в качестве исключений.) В итоге, когда дело дошло до согласования с нашими правилами, алгоритм подтверждал лишь 17 процентов ответов. Очевидно, что система Эмиля способна определять текст лишь на уровне слов. Она не способна понимать целые предложения.
– Со временем будет лучше. Надеюсь.
– Да, но думаю, пока нам нужно еще человек десять, если мы хотим поспевать в обработке запросов.
– Очевидно, что мы не можем расширять службу поддержки до бесконечности. Но пока продолжай в том же духе.
Он выделил мне еще сотрудников. Прежде чем вернуться в подвал, я спросил, можно ли взглянуть на список Эмиля.