Читаем Co-Intelligence: Living and Working with AI полностью

Co-Intelligence: Living and Working with AI

Но LLM учатся работать и с изображениями, приобретая способность как "видеть", так и создавать картинки. Эти мультимодальные LLM сочетают в себе возможности языковых моделей и генераторов изображений. Они используют архитектуры трансформеров для обработки текста, но также используют дополнительные компоненты для работы с изображениями. Это позволяет LLM связывать визуальные концепции с текстом и получать представление об окружающем визуальном мире. Дайте мультимодальному LLM ужасную нарисованную от руки картинку самолета, окруженного сердечками (как я только что сделал), и он скажет: "Я думаю, это милый рисунок самолета с сердечками вокруг него. Похоже, вы любите летать или кого-то, кто летает. Может быть, вы пилот или у вас есть близкий человек, который летает. А может, вы просто любите путешествовать и исследовать новые места". Затем он может использовать свои гораздо лучшие навыки рисования, чтобы создать еще более качественную версию картинки, что он и сделал. Большинство крупных LLM обретают мультимодальные способности, которые позволят им узнавать о мире новыми и непредсказуемыми способами.

Страшно? Умный? Страшно-умный?

После того как эти новые методы стали широко доступны, множество крупных и мелких компаний начали фокусироваться на создании LLM. Многие первые LLM были разработаны исследователями из Google и Meta, но в эту сферу вошло и множество небольших стартапов. Некоторые из них были основаны авторами статьи о трансформерах, которые покинули Google, чтобы запустить свои собственные проекты. Эти ранние LLM использовались для разных целей, и их способность создавать язык была интересной, но не особенно убедительной.

Например, рассмотрим GPT-3, выпущенного в 2021 году компанией OpenAI. Если вы попросите GPT-3 написать вам лимерик, вы получите следующее:

Был такой ИИ по имени Чарли.

Он был настоящим чудом.

Он вычислил и вывел

И никогда не ошибался

Пока однажды он не начал давать сбои.

Это ужасно во всех смыслах. В ней нет рифмы, в ней нет смысла, и она очень скучная. Но разработка LLM продолжалась до тех пор, пока в конце 2022 года компания OpenAI не выпустила ChatGPT, работающий на улучшенном LLM под названием GPT-3.5.

И в этом масштабе произошло нечто необычное - ChatGPT начал проявлять способности, которых никто не ожидал и не программировал в нем. Способности, которые делают его похожим на человека. В результате получился ИИ, который может писать рассказы, стихи, эссе, твиты и даже код. И он стал показывать замечательные результаты , близкие к человеческому уровню, на обычных тестах и экзаменах.

Но это всего лишь статистика. Настоящий вызов ИИ, как мы знаем, - это лимерики:

Когда-то существовала технология под названием ИИ,

Чей интеллект был весьма высок,

Он учился и развивался,

И знал, что делать,

Но все равно не смог бы рассказать хорошую шутку, даже если бы попытался.

Намного, намного лучше, и даже немного смешно. Но последняя строчка немного растягивает схему рифмы. К счастью, еще одной новой особенностью ChatGPT стало то, что теперь вы можете вести диалог с системой. Так что я могу пожаловаться на последнюю строчку ("Но "try" не рифмуется с "high"), и она ее исправит.

Мои извинения! Вот исправленный лимерик:

Когда-то существовала технология под названием ИИ,

Чей интеллект был весьма высок,

Он учился и развивался,

И знал, что делать,

Но так и не смог заставить нас смеяться или плакать.

Однако каким бы замечательным ни был GPT-3.5, его преемник, GPT-4, оказался еще более впечатляющим. Компания OpenAI протестировала GPT-4 на различных стандартизированных тестах, от школьных до выпускных и профессиональных, и обнаружила, что на сайте он значительно превзошел своего предшественника. Например, на экзамене по адвокатуре GPT-4 набрал 90 процентов, в то время как GPT-3.5 - только 10 процентов. GPT-4 также преуспел на экзаменах Advanced Placement, набрав 5 баллов в AP Calculus, Physics, U.S. History, Biology и Chemistry. Он даже сдал экзамен на звание сертифицированного сомелье (по крайней мере, письменную часть, поскольку модуля дегустации вин в AI пока нет). И квалификационный экзамен , чтобы стать нейрохирургом. А также все основные тесты на креативность. Справедливости ради стоит отметить, что с тестами для ИИ всегда возникают проблемы, поскольку ключ к ответу может находиться в его обучающих данных, что позволяет ему жульничать, заранее зная ответы. Однако, как мы обсудим в последующих главах, существует гораздо больше доказательств возможностей GPT-4, чем результаты тестов. Как в игрушках, LLM стали очень мощными и очень быстро.

Они до сих пор сочиняют лимерики:

Когда-то существовал искусственный интеллект, весьма остроумный,

Чей код оказался на удивление красивым.

Он рассказывал анекдоты и каламбуры,

Развлекал всех,

И даже сочинил эту частушку!

Но GPT-4 настолько способна, что мне было немного неловко просить ее просто сочинять лимерики. На самом деле я дал ему вышеприведенный раздел и попросил сказать, что он "думает" по этому поводу:

Перейти на страницу: