Но LLM учатся работать и с изображениями, приобретая способность как "видеть", так и создавать картинки. Эти мультимодальные LLM сочетают в себе возможности языковых моделей и генераторов изображений. Они используют архитектуры трансформеров для обработки текста, но также используют дополнительные компоненты для работы с изображениями. Это позволяет LLM связывать визуальные концепции с текстом и получать представление об окружающем визуальном мире. Дайте мультимодальному LLM ужасную нарисованную от руки картинку самолета, окруженного сердечками (как я только что сделал), и он скажет: "Я думаю, это милый рисунок самолета с сердечками вокруг него. Похоже, вы любите летать или кого-то, кто летает. Может быть, вы пилот или у вас есть близкий человек, который летает. А может, вы просто любите путешествовать и исследовать новые места". Затем он может использовать свои гораздо лучшие навыки рисования, чтобы создать еще более качественную версию картинки, что он и сделал. Большинство крупных LLM обретают мультимодальные способности, которые позволят им узнавать о мире новыми и непредсказуемыми способами.
Страшно? Умный? Страшно-умный?
После того как эти новые методы стали широко доступны, множество крупных и мелких компаний начали фокусироваться на создании LLM. Многие первые LLM были разработаны исследователями из Google и Meta, но в эту сферу вошло и множество небольших стартапов. Некоторые из них были основаны авторами статьи о трансформерах, которые покинули Google, чтобы запустить свои собственные проекты. Эти ранние LLM использовались для разных целей, и их способность создавать язык была интересной, но не особенно убедительной.
Например, рассмотрим GPT-3, выпущенного в 2021 году компанией OpenAI. Если вы попросите GPT-3 написать вам лимерик, вы получите следующее:
Он был настоящим чудом.
Он вычислил и вывел
И никогда не ошибался
Пока однажды он не начал давать сбои.
Это ужасно во всех смыслах. В ней нет рифмы, в ней нет смысла, и она очень скучная. Но разработка LLM продолжалась до тех пор, пока в конце 2022 года компания OpenAI не выпустила ChatGPT, работающий на улучшенном LLM под названием GPT-3.5.
И в этом масштабе произошло нечто необычное - ChatGPT начал проявлять способности, которых никто не ожидал и не программировал в нем. Способности, которые делают его похожим на человека. В результате получился ИИ, который может писать рассказы, стихи, эссе, твиты и даже код. И он стал показывать замечательные результаты , близкие к человеческому уровню, на обычных тестах и экзаменах.
Но это всего лишь статистика. Настоящий вызов ИИ, как мы знаем, - это лимерики:
Чей интеллект был весьма высок,
Он учился и развивался,
И знал, что делать,
Но все равно не смог бы рассказать хорошую шутку, даже если бы попытался.
Намного, намного лучше, и даже немного смешно. Но последняя строчка немного растягивает схему рифмы. К счастью, еще одной новой особенностью ChatGPT стало то, что теперь вы можете вести диалог с системой. Так что я могу пожаловаться на последнюю строчку ("Но "try" не рифмуется с "high"), и она ее исправит.
Мои извинения! Вот исправленный лимерик:
Чей интеллект был весьма высок,
Он учился и развивался,
И знал, что делать,
Но так и не смог заставить нас смеяться или плакать.
Однако каким бы замечательным ни был GPT-3.5, его преемник, GPT-4, оказался еще более впечатляющим. Компания OpenAI протестировала GPT-4 на различных стандартизированных тестах, от школьных до выпускных и профессиональных, и обнаружила, что на сайте он значительно превзошел своего предшественника. Например, на экзамене по адвокатуре GPT-4 набрал 90 процентов, в то время как GPT-3.5 - только 10 процентов. GPT-4 также преуспел на экзаменах Advanced Placement, набрав 5 баллов в AP Calculus, Physics, U.S. History, Biology и Chemistry. Он даже сдал экзамен на звание сертифицированного сомелье (по крайней мере, письменную часть, поскольку модуля дегустации вин в AI пока нет). И квалификационный экзамен , чтобы стать нейрохирургом. А также все основные тесты на креативность. Справедливости ради стоит отметить, что с тестами для ИИ всегда возникают проблемы, поскольку ключ к ответу может находиться в его обучающих данных, что позволяет ему жульничать, заранее зная ответы. Однако, как мы обсудим в последующих главах, существует гораздо больше доказательств возможностей GPT-4, чем результаты тестов. Как в игрушках, LLM стали очень мощными и очень быстро.
Они до сих пор сочиняют лимерики:
Чей код оказался на удивление красивым.
Он рассказывал анекдоты и каламбуры,
Развлекал всех,
И даже сочинил эту частушку!
Но GPT-4 настолько способна, что мне было немного неловко просить ее просто сочинять лимерики. На самом деле я дал ему вышеприведенный раздел и попросил сказать, что он "думает" по этому поводу:
Вильям Л Саймон , Вильям Саймон , Наталья Владимировна Макеева , Нора Робертс , Юрий Викторович Щербатых
Зарубежная компьютерная, околокомпьютерная литература / ОС и Сети, интернет / Короткие любовные романы / Психология / Прочая справочная литература / Образование и наука / Книги по IT / Словари и Энциклопедии