12 вересня OpenAI презентувала першу модель штучного інтелекту із можливістю міркувати– o1 preview та mini, яка під час розробки мала кодову назву Strawberry. Що вона може, кому та на яких умовах доступна, розповідає "Ми – Україна".
Що таке OpenAI o1?
OpenAI із o1 відкриває нову лінійку моделей ШІ із здатністю думати і розмірковувати перед тим, як надати відповідь. Реакція на запит якомога швидше – вже не головна мета. o1 – це велика мовна модель (large language model – LLM). Її додадуть до ChatGPT, вона співіснуватиме з наявними моделями та не покликана замітити їх.
Своєю місією компанія бачить створення генералізованого штучного інтелекту (AGI), здатного виконувати усі інтелектуальні задачі так само, як і людина. У липні цього року там оприлюднили п'ятирівневу систему класифікації, згідно якої можна відстежувати прогрес на шляху до AGI.
Перший рівень у ній – чатботи ШІ з розмовною мовою. Другий рівень – reasoners – розмірковувачі, аргументатори. Такі системи мають вирішувати складні проблеми не покладаючись на зовнішні ресурси та на рівні, який можна порівняти з людьми з докторським ступенем.
Третій рівень – агенти або системи штучного інтелекту, які здатні протягом кількох днів без участі людини виконувати завдання та ухвалювати рішення. Четвертий рівень – новатори, моделі ШІ, здатні генерувати оригінальні ідеї та рішення, виявляти наявні проблеми та пропонувати інноваційні способи їх вирішення. П'ятий рівень – організації. Це вже генералізований штучний інтелект, моделі якого зможуть брати на себе організаційний функціонал: стратегічні рішення, оптимізація, керування робочими процесами.
Гендиректор компанії Сем Альтман раніше казав, про реалістичність досягнення AGI вже у цьому десятилітті. Ще донедавна ми перебували на першому рівні сходів, а тепер є підстави говорити про другий.
"Ми навчили ці моделей витрачати більше часу на обмірковування проблем, перш ніж на них відповісти, подібно до того, як це робить людина. Вони вчаться вдосконалювати свій процес мислення, пробувати різні стратегії та визнавати свої помилки. У наших тестах наступне оновлення моделі працює подібно до аспірантів у складних контрольних завданнях з фізики, хімії та біології", - описують у компанії.
Тобто якщо не докторський ступінь, як це передбачено на другій сходинці до генералізованого штучного інтелекту, то принаймні рівень його здобувача – це обіцяють розробники.
Що вміє OpenAI o1?
Фішка із міркуванням реалізується через "алгоритм навчання з підкріпленням". o1 може планувати наперед і виконувати низку дій протягом доволі тривалого періоду часу, що допомагаємоделі отримати відповідь.
"За допомогою навчання з підкріпленням o1 вчиться відточувати свій ланцюг думок і вдосконалювати стратегії, які використовує. Вчиться розпізнавати і виправляти свої помилки. Вчиться розбивати складні кроки на простіші. Вчиться пробувати інший підхід, коли поточний не працює. Цей процес значно покращує здатність моделі міркувати", - пояснюють в OpenAI.
На відміну від GPT-4, наприклад, нова модель не заточена під розмову, але виграє за іншими параметрами. В компанії звітують: o1 розв'язала 83% завдань відбіркового іспиту Міжнародної олімпіади з математики, тоді як GPT-4o – 13%.
Далі – більше. Компетенції із кодування: o1 – 89%, GPT-4o – 11%. Наукові запитання докторського рівня: o1 – 78%, GPT-4o – 46%, експерти – 69,7%.
Математика, хімія, фізика, біологія, бенчмарки визначення масштабного багатозадачного розуміння мови (MMLU) – усе на користь o1.
Презентації завжди цікаві, завдяки наочним демонстраціям. На одному з таких відео керівник дослідження Джеррі Турек просить o1 розгадати логічну головоломку про вік принца та принцеси. Модель розшифровує проблему, розуміючи різні змінні та визначаючи, які рівняння потрібні для вирішення задачі, і крок за кроком правильно розв'язує.
Якщо із математикою у цієї моделі ШІ все виглядає ефектно, можуть виникнути питання щодо лінгвістичної складової, адже вона не для балачок. На іншому відео користувач вводить текст корейською мовою. Не коректно, але так, що носій мови може зрозуміти написане. У GPT-4o переклад не вдався, а o1 вдалося продертися через завдання і зробити його.
Ітан Моллік , професор Вортонської школи Університету Пенсильванії, тестив o1-preview протягом місяця. Його пропозиція – оцінити її при розгадування кросворду. Він взяв вісім підказок з верхнього лівого кута складного кросворду (нижче на малюнку) та виклав їх у вигляді тексту, бо o1-preview не бачить зображень.
ШІ розмірковував 108 секунд, перш ніж відповісти. Як каже Моллік, його думки були "досить вражаючими", навіть якщо не одразу правильними. Наприклад, довелося давати підказку, бо шлях міркування ШІ пішов трохи не туди. Galaxy cluster, про що йшлося у кросворді – це Apps (Galaxy Apps – колишня назва Samsung Galaxy Store). o1-preview занурився у вивчення реальних галактик, обрав не те слово і навіть вибудував хибний ланцюжок подальших відповідей.
"Штучний інтелект так багато думає та виконує важку роботу, генеруючи повні результати, що моя роль як людини-партнера здається применшеною. Він просто робить свою справу і дає мені відповідь. Звісно, я можу переглядати його етапи міркувань, щоб виявити помилки, але я більше не відчуваю зв’язку з результатом штучного інтелекту або що я відіграю таку ж значну роль у формуванні того, куди йде рішення. Це не обов’язково погано, але це щось інше, - розмірковує Моллік, - У міру того, як ці системи покращяться й наближатимуться до справжніх автономних агентів, нам потрібно буде з’ясувати, як бути в курсі – і виловлювати помилки, і тримати руку на пульсі проблем, які ми намагаємося вирішити. o1-preview відсуває завісу над можливостями штучного інтелекту, яких ми могли й не бачити, навіть з його поточними обмеженнями".
Які недоліки у OpenAI o1, кому доступна і що далі?
OpenAI o1 може працювати повільніше, ніж інші моделі, в залежності від того, наскільки складним є запит. Тестувальники вказують, що модель може спотикатися та бачити те, чого немає, йти хибним шляхом, як це було із кросвордом професора Молліка.
Компанія також цілеспрямовано пішла на обмеження функції нового продукту. На відміну від GPT-4o, моделі o1 не можуть переглядати веб-сторінки, завантажувати файли, обробляти чи створювати зображення. Результати GPT-4o у цьому високі, хоч і суперечливі. Проте заточена o1 не під це, а GPT-4o для компанії поки лишається більш спроможною для вирішення задач більшості користувачі.
Є дві моделі o1 — o1-preview та o1-mini. В основному вони однакові, за винятком того, що версія o1-mini швидша (і менш точна), а версія o1-preview повільніша і точніша. Остання позиціонується як корисна при вирішення складних наукових задач, кодування, у математичній площині.
"Наприклад, o1 (preview, - авт.) може використовуватися дослідниками охорони здоров’я для анотування даних секвенування клітин, фізиками для створення складних математичних формул, необхідних для квантової оптики, а розробниками в усіх галузях для створення та виконання багатоетапних робочих процесів", - пояснюють в OpenAI.
Тут переходимо до найбільшого недоліку o1 – ціна та обмеження. Модель доступна у ChatGPT, але поки що тільки для підписників Plus ($20 на місяць) і Team ($30 на місяць). Обрати її можна серед наявного переліку. Але навіть за немалої оплати, користувачі обмежені за кількістю повідомлень: 30 на тиждень з o1-preview, 50 на тиждень з o1-mini для початку. Коли ліміт буде досягнуто, буде повідомлення і доведеться чекати наступних семи днів. Тижневий відлік починається з першого повідомлення і обнуляється кожні сім днів.
o1-preview і o1-mini з 19 вересня буде доступною для особливих "пакетів" – ChatGPT Enterprise (корпоративний) та Education (навчальні заклади). Обмеження щодо кількості повідомлень там діятимуть ідентичні.
Що ж до безоплатного використання, то компанія тільки-но збирається надати доступ користувачам ChatGPT Free до o1-mini. Проте коли саме – невідомо. Можна лиш припускати, що тоді, коли з'явиться наступна модель. Чутки щодо неї ходили тоді ж, коли обговорювали Strawberry – o1. Зараз вона відома під кодовою назвою Orion.
З опису та можливостей o1-preview і o1-mini зрозуміло, що для користувачів це "розумник", а не "балакун". Тобто це родич, а не наступник GPT-4. Тоді як в своїх планах Сем Альтман казав саме про наступну модель GPT та її навчання. Після виходу o1 все частіше кажуть, що вона зробить внесок у перевершення GPT-4 та запуск нового флагманського мовного продукту ШІ.
Нагадаємо, що раніше "Ми – Україна" розповідав про нові годинники, AirPods та iPhone16, яке представила Apple на останній великій презентації.