Від порожнього келиха до кривих ґудзиків: як дрібні деталі видають згенеровані ШІ зображення

Почнімо з гри: відкрийте улюблений штучний інтелект і спробуйте змусити його намалювати повний бокал вина. Саме так! Повний-повнісінький, по самісінькі вінця. Зробіть це просто зараз і покажіть результат у коментарях під цим дописом.

Минулого разу ми розповіли, які оптичні аномалії можуть виказати, що те чи інше зображення було згенероване штучним інтелектом. Якщо коротко, йшлося про відтворення світла, тіней і віддзеркалень. Сьогодні ми спробуємо розібратися, на яких дрібницях нейромережі найчастіше вступають ногами в сметану. Спойлер — це не лише вино, а й логотипи, принти на одязі, шнурівки, прикраси, тексти, ґудзики, розетки, окуляри, ручки дверей, фрукти на столі, шеврони, годинники, олівці тощо.
***
Хоча штучний інтелект і навчається на величезних масивах даних, проте він не має такого життєвого досвіду, як людина, і не може повністю зрозуміти всі нюанси реального світу. Найчастіше це проявляється в малопомітних деталях. Саме тому так важливо пильно вдивлятися у зображення (принагідно нагадуємо нашу гру “Знайди Сову”, яка розвиває ці навички [1, 2, 3]).
Найпомітніше ці деталі проявляються в складній для відтверення анатомії людини. Наприклад, неправдоподібні руки та пальці — вони можуть бути задовгими або закороткими, нереалістично товстими або тонкими. Чи, скажімо, перетинатися, згинатися у неприродний спосіб. І це ми не кажемо вже про їх кількість.
Уявіть: на згенерованому зображенні людина тримає коробку, проте її руки розташовані так, що в реальному світі вона би вже давно випала. Або на колективному фото стоять кілька осіб, які тримаються за руки, але їхні пальці переплетені у такий спосіб, що творці фільмів жахів позаздрили би.
А тепер повернімося до вина. Найперше, хочемо вас заспокоїти, ШІ не поскупився, коли “налив” лише половину келиха. Цей дрібний “глюк”, як не дивно, пов’язаний із соціокультурним контекстом. Річ у тім, що нейромережі навчаються на величезній кількості ілюстрацій, які вони знаходять, зокрема, в інтернеті. І так уже склалося, що майже на всіх рекламних постерах, журналах та в інших джерелах із Європи та США бокали традиційно наполовину порожні. Така вже в них культура. І от ШІ все це бачить і відповідно наслідує. Авжеж, в Україні та деяких інших країнах чимало людей наливають повні бокали. Проте до глобальної вибірки ці регіональні відмінності не потрапляють.
Ще одна поширена помилка – це тарабарщина в текстах. Написи на згенерованих зображеннях можуть бути нечитабельними, з грубими помилками або абсолютно без сенсу. Це пов'язано з тим, що ШІ, який генерує зображення, найперше навчається на величезних масивах візуальної інформації. Текст у зображеннях часто розглядається як візуальний елемент, а не як послідовність символів із певним значенням. Тому штучний інтелект може навчитися відтворювати загальний вигляд тексту, але не завжди розуміє його семантику.
Крім того, ШІ часто неправильно відображає дрібні деталі, особливо якщо малює в малих розмірах. Зокрема ті, про які ми згадали на початку цього тексту. Різної форми ґудзики на сорочці? Скрипка з переплетеними струнами? Різного розміру або форми скельця в окулярах? Для ШІ це звична справа, але в реальному світі таке можна зустріти вкрай рідко. Звертайте увагу на те, чи будуть функціонувати зображені об’єкти: на книгах текст має бути читабельним, а не розмитим, сходи мають бути однакової висоти, колеса автівки не можуть бути різного діаметру і таке інше.
Одне слово — все має бути підпорядковане законам фізики і здоровому глузду.
«Цей текст створено у співпраці з «Детектором медіа» за підтримки Міністерства закордонних справ, у справах співдружності та розвитку Великої Британії та Zinc Network».