Читаем Co-Intelligence: Living and Working with AI полностью

Ученик шеф-повара начинает с хаотичной, неорганизованной кладовой, представляющей 175 миллиардов весов. Изначально эти гири имеют случайные значения и пока не содержат никакой полезной информации о том, как связаны слова. Чтобы пополнить свои знания и усовершенствовать набор специй, ученик шеф-повара проходит через процесс проб и ошибок, учась на изученных рецептах. Он обнаруживает, что некоторые вкусы встречаются чаще и лучше сочетаются друг с другом, например яблоки и корица, а некоторые вкусы встречаются реже, потому что их следует избегать, например яблоки и кумин. Во время обучения ученик шеф-повара пытается повторить блюда из рецептов, используя имеющиеся у него запасы. После каждой попытки ученик сравнивает свое творение с оригинальным рецептом и выявляет все ошибки и несоответствия. Затем ученик пересматривает ингредиенты в своей кладовой, уточняя связи между вкусами, чтобы лучше понять, насколько вероятно их использование вместе или в определенной последовательности.

Со временем, в результате бесчисленных итераций, кладовая подмастерья становится все более организованной и точной. Весы теперь отражают значимые связи между словами и фразами, а ученик превратился в мастера-повара. Получив задание, шеф-повар искусно выбирает нужные ингредиенты из своего обширного репертуара и обращается к своему изысканному набору специй, чтобы обеспечить идеальный баланс вкусов. Аналогичным образом ИИ создает человекоподобный письменный текст, который увлекателен, информативен и соответствует теме.

Обучение ИИ - это итеративный процесс, требующий мощных компьютеров для выполнения колоссальных вычислений, связанных с обучением на основе миллиардов слов. Эта фаза предварительного обучения - одна из основных причин, по которым создание ИИ обходится так дорого. Необходимость в быстрых компьютерах с очень дорогими микросхемами, которые должны работать месяцами на этапе предварительного обучения, во многом объясняет тот факт, что обучение более продвинутых ИИ LLM стоит более 100 миллионов долларов и потребляет большое количество энергии в процессе.

Многие компании, занимающиеся разработкой искусственного интеллекта, держат в секрете исходные тексты, на которых они обучаются, называемые учебными корпусами, но типичный пример учебных данных состоит в основном из текстов, взятых из Интернета, книг и научных статей, находящихся в открытом доступе, и других бесплатных источников, которые могут найти исследователи. При детальном изучении этих источников можно обнаружить несколько странных материалов. Например, вся база данных электронной почты компании Enron, закрытой за корпоративное мошенничество, используется как часть обучающего материала для многих ИИ, просто потому, что она была в свободном доступе для исследователей ИИ. Аналогичным образом, в обучающие данные включено огромное количество любительских романов, поскольку в Интернете полно романистов-любителей. Поиск высококачественного контента для обучающих материалов стал одной из главных тем в разработке ИИ , поскольку у жаждущих информации компаний, занимающихся разработкой ИИ, заканчиваются хорошие бесплатные источники.

В результате, скорее всего, большинство обучающих данных ИИ содержат информацию, защищенную авторским правом, как книги, используемые без разрешения, случайно или намеренно. Юридические последствия этого пока неясны. Поскольку данные используются для создания весов, а не напрямую копируются в системы ИИ, некоторые эксперты считают, что они не подпадают под действие стандартного закона об авторском праве. В ближайшие годы эти вопросы, вероятно, будут решаться судами и правовыми системами, но они создают облако неопределенности, как с этической, так и с юридической точки зрения, на этом раннем этапе обучения ИИ. Тем временем компании, занимающиеся разработкой ИИ, ищут больше данных для обучения ( , по одной из оценок, высококачественные данные, такие как онлайн-книги и научные статьи, будут исчерпаны к 2026 году) и продолжают использовать и менее качественные данные. Кроме того, активно ведутся исследования, направленные на то, чтобы понять , может ли ИИ предварительно обучаться на собственном контенте. Так уже поступают шахматные ИИ, которые учатся, играя в игры против самих себя, но пока неясно, будет ли это работать для LLM.

Перейти на страницу:

Похожие книги