Generatory obrazu AI

18/01/2023

Jeden obraz wart jest więcej niż tysiąc słów. Wiadomo. Czy zatem generatory grafik oparte na AI da się wykorzystać w pracy? Pracy PR-owca, marketera, HR-owca, czy nawet CEO i każdej innej osoby, która przekazuje jakieś treści. Np. jako ilustracje do prezentacji, czy wpisów na blogu. Czasem tego właściwego obrazu nie ma akurat pod ręką. Czy można go sobie wobec tego samodzielnie wygenerować? Wokół platform pojawiają się kontrowersje i poważne oskarżenia.

 

Ostatnio testuję kilka rozwiązań. Przyznaję się od razu, że łączę przyjemne z pożytecznym. A testowanie w dużej mierze polega na generowaniu dość bajkowych grafik, które będą ilustracjami w kalendarzu pewnej młodej i bliskiej mi osoby o romantycznej duszy. Co istotne, testowałam tylko opcje podstawowe i darmowe.

Jakie programy / aplikacje brałam pod uwagę?

Jak oceniam działanie ich działanie?

  • Dalle-E 2 – najbardziej wg mnie przyjazny dla użytkownika, w okienko wpisujemy polecenie, a w odpowiedzi narzędzie proponuje 4 obrazy.
  • Stable Diffusion – kilka razy całymi godzinami nie działał, pokazując błąd; a potem działał na tej samej zasadzie co Dalle-E 2 (przy czym zaproponował tylko 1 grafikę).
  • Midjourney – wymaga stworzenia konta na discordzie; działa na zasadzie chatu. Wpisujemy polecenie, by po chwili uzyskać odpowiedź – 4 grafiki. Dla mnie formuła jest dość uciążliwa, bo w błyskawicznym tempie pojawiają się pytania i odpowiedzi dla innych użytkowników – trzeba szukać, przewijać. Dodatkowo ci inni użytkownicy mogą wykorzystać i przetwarzać wygenerowane dla nas grafiki. I robią to😊 W Midjourney warto też stosować proste polecenia, np. dotyczące formatów, czy jakości grafik – a to już jakby nie było elementy kodowania (prostego, ale jednak kodowania😉).

Okienko zapytań Dalle-E 2

 

Okienko zapytań Midjourney

Jakie były efekty?

Midjourney – znakomite. Zgodne z poleceniem. Gdy trzeba – realistyczne. Wyglądały naturalnie (a tak chciałam!) i miały w sobie sporo artyzmu.
Dalle-E 2 i Stable Diffusion – takie sobie. Robiły wrażenie „dziwnych”, utrzymanych w jakiejś niepokojącej stylistyce, albo płaskich, albo nienaturalnych. Popatrzcie niżej i porównajcie sami.

Porównanie obrazów wygenerowanych przez DALL-E 2, Stable Diffusion i Midjourney

Co jest istotne w Midjourney?

  • Sprawdził się do lirycznych ilustracji. Z biznesowymi szło mu gorzej. Mimo zmiany zapytań, doprecyzowywania, prób naprowadzenia na właściwy efekt. Np. przy pleceniu „przechodnie, nowoczesny styl” generował coś co przypominało fantazje o XXI w. zamieszczone w prasie z początku zeszłego stulecia. Archaicznie to było, a nie nowoczesne. Z kolei poproszony o cover photo na stronę internetową dodawał zbędne, przypadkowe napisy, a kolor miętowy rozumiał dosłownie – jako miętę, wzbogacając to jeszcze o czekoladę.
  • Midjourney daje możliwość generowania kolejnych wariantów na bazie wcześniejszych propozycji (i tak do skutku).
  • Średnio radzi sobie z palcami u ludzi – albo daje 4, albo 14.
  • Ma bezpłatny limit 25 zapytań. Potem trzeba wykupić wersję płatną (od 8 dolarów mies.)
  • Do celów komercyjnych można wykorzystać tylko wersję pro, płatną.

Linki

Przy Midjourney warto skorzystać z tutoriala, np. tego.

Szersze porównanie 3 aplikacji w wykonaniu profesjonalistów z petapixel.com tutaj.

A tutaj open AI generująca teksty, odpowiedzi na zapytania, teorie naukowe i wyniki działań matemtycznych: https://chat.openai.com/chat

I opracowane przez ten sam zespół narzędzie do wykrywania tekstów napisanych przez chat (przydatne np. dla nauczycieli, którzy sprawdzają prace swoich uczniów i chcą wiedzieć, czy były to prace samodzielne): https://huggingface.co /openai-detector/

Mnie przypomina to sytuację z dawnych lat, gdy uczniowie zaczęli stosować kalkulatory. Nauczyciel nie miał szans, by to wykryć. Mógł jedynie zabronić na lekcji. Ale z drugiej strony, czemu uczeń nie może sprawdzić wyniku? Gorzej gdy opiera się wyłącznie na kalkulatorze i sam nie umie dodawać  (ani napisać tekstu). Ale jest tu jeszcze trzecia strona – prawa autorskie. Wszystkie te narzędzia korzystają z milionów obrazków i tekstów zamieszczonych w internecie. Bez pozwolenia. A te materiały są przecież czyjąś własnością i czyimś dziełem.

Appendix

Warto zwrócić uwagę na wiele kontrowersji i oskarżeń, które pojawiają się wokół aplikacji opartych na sztucznej inteligencji. I to zaledwie w ciągu kilku miesięcy od ich rynkowej premiery.

Stability AI zostało pozwane za naruszenia praw autorskich przez Getty Images. Według GI bezprawnie skopiowało i przetworzyło miliony obrazów chronionych prawem autorskim i powiązane z nimi metadane. Więcej tutaj.

Z firmy Stability AI (Stable Diffusion), Midjourney i DeviantArt (DreamUp) zostały pozwane przez trzy artystki, które bronią praw milionów twórców. Właściciel Midjourney zresztą nie ukrywa, że kradnie z internetu miliony obrazków. Więcej o pozwie tutaj.

Na tym jednak kotrowersje się nie kończą. W cieniu nie pozostaje też narzędzie do generowania tekstów, czyli ChatGPT. Już w grudniu, miesiąc po premierze, pewien profesor przyłapał swoją studentkę na stosowaniu tego rodzaju plagiatu. Jego post tutaj.

Ale mało tego, pod adresem twórców ChatGPT pojawiły się poważne oskarżenia o budowanie narzędzia w oparciu o wyzysk w Afryce. Pracownicy z Kenii mieli za 2 dolary na godzinę doskonalić działanie algorytmu, czytając w internecie makabryczne treści (bo m.in. na takich opiera się internet, który jest dla chatu bazą danych). Chodziło o to, by w porę nauczyć algorytm eliminowania toksycznych treści, tak by nie dostawał ich w odpowiedzi na zapytanie użytkownik końcowy. Pisze o tym m.in. Time  i Rzeczposplita.

 

A oto kilka wygenerowanych dla mnie próbek:

 

Midjourney – cover photo na stronę agencji PR

 

Midjourney – cover photo na stronę agencji PR z kolorem miętowym i brązowym

 

Midjourney – przechodnie w dużym europejskim mieście, nowoczesny styl

 

Midjourney – Przechodnie w dużym europejskim mieście, nowoczesny styl – v. 2 – jak z okładki magazynu

 

Midjourney – liść paproci rośnie na jeziorze, noc, magiczna atmosfera

 

Midjourney – ciemnowłosa kobieta w czerwonym płaszczu jedzie na białym koniu

 

Midjoyrney – brama w starym stylu, bogata zdobiona; prowadzi do ogrodu; ponury nastrój

 

Midjourney – białowłosa kobieta podobna do Królowej Śniegu – zwracam uwagę na liczbę palców

 

Midjourney – piękna kobieta w zwiewnym stroju; na tronie; w wianku z kwiatów – zwracam uwagę na liczbę palców

 

Midjourney – kamienny zamek na wzgórzu; jesień

 

 

 

Chcesz poznać moją ofertę?

Zapraszam, skontaktuj się.