Цукерберг запустив новий штучний інтелект SAM: що він уміє і як ним користуватись

Цукерберг запустив новий штучний інтелект SAM: що він уміє і як ним користуватись

На ринку штучного інтелекту заявив про себе новий гравець. Після OpenAI, Microsoft і Google свою модель ШІ представила компанія Марка Цукерберга Meta. Проєкт має назву Segment Anything Model (SAM)і є “першим кроком до створення базової моделі сегментації зображень”. Наразі програма здатна розпізнавати окремі предмети на зображеннях, навіть якщо раніше не стикалася з ними. Детальніше про можливості нової моделі штучного інтелекту в матеріалі “Ми-Україна”.

Segment Anything Model: можливості й використання

Основно задачею Segment Anything Model є сегментація – визначення того, які пікселі зображення належать об'єкту. Це базове завдання комп'ютерного “зору”, яке використовується у багатьох задачах, від аналізу наукових зображень до редагування фотографій.

Також SAM здійснює "маскування" — це метод ідентифікації об'єкта на основі змін контрасту на його краях і відділення його від решти зображення.

Існує достатньо програм для виділення непотрібних об'єктів із зображень, і багато з них використовують моделі ШІ для пошуку та заміни об'єктів на фотографіях. Але Meta зробила крок уперед у цьому напрямку зі своєю власною технологією. Демоверсія SAM пропонує свого роду інструмент Photoshop "чарівна паличка" у покращеному варіанті.

Після обчислення нового зображення система чудово справляється із виділенням різних об'єктів на фотографії. На зображенні з людиною ШІ легко здатна виявити її обличчя, одяг, елементи оточення. Звісно, Meta не одна створює алгоритми машинного навчання визначення аспектів зображень.

Також продукт Meta, відрізняється функціональністю й зручністю використання. SAM виділяє дрібні об'єкти з багатолюдних фотографій, не гірше, а подекуди краще, ніж Magic Eraser від Google чи онлайн-інструмент Inpaint.

Цікаво, що Meta випускає SAM під відкритою ліцензією й надає повну інформацію про свій набір даних з 1 мільярда масок. Останній, за твердженням компанії, є “найбільшим набором даних для сегментації за всю історію”. Ця база  під назвою “SA-1B” є набором даних сегментації, який класифікує кожен піксель зображення, спрощуючи стилізацію або видалення об'єктів з фотографій.

Система навчається на 11 мільйонах зображень, у середньому по 100 масок на зображення. Це означає, що SAM містить у 400 разів більше масок, ніж будь-який наявний сьогодні набір даних. Завдяки цьому ШІ може узагальнювати нові типи об'єктів та зображень окрім тих, на яких він навчався. У результаті фахівцям більше не потрібно буде збирати власні дані сегментації для налаштування SAM під конкретні задачі.

У Meta кажуть, що хочуть побудувати повноцінну модель ШІ для сегментації зображень з підказками, яка навчається на різноманітних даних і може адаптуватися до конкретних завдань.

Отже, чинна версія Segment Anything Model:

  • Дозволяє користувачам сегментувати об'єкти одним клацанням миші або інтерактивно клацаючи точки для включення та виключення з об'єкта. Модель також може бути підказана рамкою (“box”), що виділяє конкретну область зображення;
  • Може виводити кілька дійсних масок, коли стикається з невизначеністю щодо сегментованого об'єкта;
  • Здатна автоматично знаходити та маскувати всі об'єкти на зображенні;
  • Може генерувати маску сегментації будь-якої підказки в режимі реального часу після попереднього обчислення вбудовування зображення, що дозволяє взаємодіяти з моделлю в реальному часі.

Інтерфейс демоверсії програми доволі простий. Після натискання вкладки Demo на головній сторінці сайту ви потрапляєте до галереї. Вибирайте зображення, яке вам сподобалось або завантажте своє власне. У лівому боці екрана будуть інструменти, якими можна здійснювати сегментацію обраного зображення. Програма підказуватиме вам, як саме їх використовувати.

Так, “Hover & Click” дозволяє клацати мишкою по об’єкту, який ШІ автоматично виділить з-поміж інших. Після виділення можна застосувати опцію “Multi-mask” для виявлення шарів (масок) на обраному фрагменті. 

Інструмент “Box” виділяє область навколо необхідного фрагменту й вирізати його. Вирізаний шматок зображення буде у вкладці “Cut-Outs”. 

Опція “Everything” демонструє маскування всього зображення, виділяючи всі наявні об’єкти окремими кольорами. Після цього кожну частину картинки можна вирізати.

Великі амбіції Meta: де планують застосовувати SAM

Запуском SAM у Meta засвідчили, що поворот компанії до штучного інтелекту є однозначним і невідворотним. Уже зараз керівництво обговорює, як компанія може використати генеративний ШІ для створення реклами поряд з іншими комерційними продуктами.

Крім того, Meta все ще працює над випуском публічного релізу свого конкурента ChatGPT під назвою LLaMA. Деяка інформація про нього вже просочилася до мережі.

Передбачається, що SAM можна буде використовувати як на звичайних комп’ютерах, так і в доповненій реальності для ідентифікації об'єктів. Це дуже важливо у контексті планів Meta щодо своїх гарнітур та VR-окулярів.

У майбутньому технології на кшталт SAM можуть стати як невід’ємною частиною життя людей. Так,  система виявлення DeepMind AI від Google довела свою ефективність у виявленні ракових клітин. А в США спецслужби роками тестують і покращують програмне забезпечення для розпізнавання осіб на громадянах США. Моделі ШІ для сегментації зображень можуть суттєво вплинути як на виявлення онкології, так і на пошук злочинців.

У Meta  переконані, що у майбутньому SAM можна буде використовувати для підтримки програм у багатьох областях, що вимагають пошуку та сегментації будь-якого об'єкта на будь-якому зображенні. Для творців контенту SAM може покращити творчі програми, такі як вилучення областей зображення для колажів або редагування відео. SAM також можна використовувати для наукового вивчення природних явищ на Землі або навіть у космосі.

SAM також можна буде застосовувати для ідентифікації предметів повсякденного побуту за допомогою окулярів доповненої реальності, які пропонуватимуть користувачам нагадування та інструкції. ШІ зможе вибирати об'єкт на основі погляду користувача, а потім піднімати його у тривимірну область.

“Заглядаючи вперед, ми бачимо тісніший зв'язок між розумінням зображень на рівні пікселів і семантичним розумінням візуального контенту вищого рівня, відкриваючи доступ до ще потужніших систем штучного інтелекту”, — кажуть дослідники ШІ з Meta.

Нагадаємо, окрім нових можливостей технології штучного інтелекту несуть і загрози на кшталт створення фейків та шахрайських схем.

Головне