Midjourney

Midjourney

Måske har du set billeder i dine sociale strømme, der ikke ligner de typiske sommerbilleder? Knap så meget vandkamp, rosévin og solnedgange. Flere kunstneriske udtryk, der skiller sig ud fra det vi normalt ser og det vi normalt forventer at se.

Visual AI, visuel kunstig intelligens, er blevet langt mere tilgængeligt indenfor det seneste år. Navne på tjenester som Dall-E og Midjourney, er blevet ord man kan høre blive kastet henover den digitale vandkøler. Men hvis du, som mig, ikke kender historien om hvordan vi kom til at computere kan skabe billeder af høj kvalitet ud af ord du skriver til dem, så er her den rå historie i meget lav opløsning.

Visual AI

Visual AI blev tænkt samtidig med computere ramte deres første store bølge i halvtredserne og tresserne. Målet var at give computere syn. Så de kunne se og forstå verden og hvad den bestod af.

Først afdækkede man måden det menneskelige syn bliver processeret på. Hvis du er nysgerrig så er rækkefølgen kanter, former og så helheder. Med en stor tak til de forsøgskatte, der blev ofret på dét menneskelige fremskridt, så begyndte arbejdet med at give computeren øje for verden og en måde at forstå den.

Første opgave var at forbinde et kamera med en computer, så den faktisk fik et visuelt input. Den opgave viste sig at være langt sværere end forventet og det samme gjorde sig gældende for de følgende trin, hvor man skulle lære computeren at forstå det den så. Gennem tresserne og halvfjerdserne sivede optimismen ud af både forskere og projekter - og tog pengene med.

Efter et par stille årtier vendte interessen fornyet tilbage, da billeder og videoer blev uploadet hurtigere til nettet, end de kunne kategoriseres. Og man heller ikke helt kunne stole på de beskrivelser, som folk gav billederne. Det optimale ville være, hvis søgemaskiner kunne forstå billeder og deres indhold, så man ikke skulle forlade sig på mennesker, der kan have kort tålmodighed eller skumle hensigter.

Kunstig intelligens fik nye tanker og grundstrukterer og tog nogle store landvindinger i nullerne og tierne. I 2015 åbnede Open AI, som blev til på penge og initiativ fra blandt andre Elon Musk, der sammen med en række andre frontløbere, ville skabe en kunstig intelligens, der ikke skulle tjene penge, men være venlig overfor menneskeheden. Stå til tjeneste.

Open AI skabte det fundament, som tjenesten Dall-E 2 står på. Udviklingen og indlæringen af en såkaldt "Generative Pre-trained Transformer", der i sin anden udgave formåede at sammensætte og arbejde med tekst på en måde, der ikke kunne skelnes fra et menneskes tekster. Og nu, i sin tredje udgave, ligger under hjelmen på at lave tekst om til billeder.

I princippet kan alle i verden bede om hjælp til alskens opgaver fra Open AIs GPT-3 system, men kun Microsoft, som i 2020 købte sig ind i den kommercielle del af Open AI for en milliard USD, kender og har adgang til den underliggende struktur i systemet.

Men... Midjourney?

På trods af Open AI er sat i verden for at åbne den, kan det sagtens føles som en lukket milliardærfest, hvor vi af bondeslægt kan stå udenfor og kigge ind på den lækre digitale buffet. Som en pivåben pendant har David Holz, der har tjent gode penge på at lære computere om menneskelige håndbevægelser gennem firmaet Leap Motion, fået idéen til og åbnet en tjeneste, der delvist er baseret på tilgængelige platforme og delvist er gratis.

Den hedder Midjourney og du finder den på Discords servere, hvor den møder sine brugere i et socialt netværk, der allerede findes og kobler dem op mod et netværk af servere, der kan skabe billeder ud af tekst. Selve den kunstige intelligens er Midjourneys egen, de har selv bygget og trænet den. Men på de samme data, som alle andre kunstige intelligenser, bliver trænet på. Nemlig gennem et kæmpe skrab af tilgængelige ting på internettet.

Nu skifter vi perspektiv. Fra øjet i det høje til nærsyn. Fra historiens lange linjer til en personlig fortælling. Troels Berg er art director og designer. Han har siden teknologiens ankomst til Danmark i halvfemserne arbejdet med digitalt at fremstille visuelle udtryk og billeder.

Da Troels Berg begyndte, til tider næsten hektisk, at sende billeder i vores tråde og samtaler på Messenger, som han havde prompted til Midjourney, var det umiddelbart sjovt og spændende. Da han afviklede kunstquizzer på Facebook med serier af billeder, blev det gribende og socialt. Nu er hele hans Facebookfeed en rullende strøm af Midjourneys muligheder, komplet med temauger og hvad man ellers kan forvente på linje med en fuldt udviklet tognørd, vinconnoisseur eller møntsamler. Derfor bad jeg ham om at åbne en dør, vidensdele og fortælle om hans erfaringer i mødet med den visuelle kunstige intelligens.

Her dykker vi ned i Midjourney. Ført an af Troels Berg, som med egne ord fortæller om oplevelsen, mulighederne og rammerne.

Kvindelig krigerrobot skabt på Midjourney
Prompt: Female warrior robot + 3 moons in background + retro vintage sci-fi + high details + Moebius

Mine første 4-5 forsøg på Midjourney var famlende og jeg havde ikke forstået, at der ofte er ret stor afstand mellem den forestilling man har og det som Midjourney faktisk spytter ud.

Efter forsøg på at generere en hund, en cykelrytter, der samme dag havde vundet et stort løb i Frankrig og en blæksprutte, der angreb et skib, så begyndte jeg at fokusere mere på stilen som billedet skulle basere sig på og sikre mig, at der var en logisk sammenhæng mellem motivvalg og illustrationsstil.

Det blev til en kvindelig krigerrobot med tre måner i baggrunden.

Jeg har altid været vild med tegneserier og Moebius (red. synonym for den franske tegneserietegner Jean Henri Gaston Giraud) er en af mine helte. Så da Midjourney efter mindre end ét minut spyttede fire varianter i min retning, så var jeg sgu mere end almindeligt overrasket. Ikke mindst fordi de alle, ved første øjekast, havde et umiskendeligt Moebius-look over sig.

Dét tempo, og den stilsikre levering, slog mig med forbløffelse og jeg var nærmest øjeblikkelig klar over, at dét her… det kommer til at forandre måden, som vi i fremtiden vil opleve verden på.

De fire bud på en kvindelige krigerrobot i stil med Moebius, som Midjourney gav Troels Berg at vælge mellem.

Hvad har du lært mellem dit første billede og det seneste?

Det seneste kan meget let være noget uigennemtænkt skrammel, for jeg er ofte hurtig på aftrækkeren. Jeg er dybt fascineret og helt opslugt at tanken og de muligheder denne type tekst-til-billede algoritmer giver, så jeg bruger det HELE tiden. Det er ikke noget der kun kører fra en laptop eller stationær computer. Man kan generere fra tablets og smartphones, så hvis jeg får en idé mens jeg er i skoven med hunden, så smider jeg lige en prompt eller fire, og så kører møllen igen.

Et af de seneste billeder begyndte med ønsket om at lave noget, der kunne udtrykke den ensomhed, der hviler over Supermans hemmelige isgrotte, som ligger gemt under en gletscher i Island.

Men det skulle ikke handle om Superman, så jeg begyndte at tænke på, at det kunne være en videnskabsmand eller en opdagelsesrejsende, der under en ekspedition er fanget alene under isen, i samme isgrotte, som dér hvor årsagen til hans rejse fandt sit sidste hvilested. Resultatet blev godt, men turen derhen var ret lang.

Prompt: An Explorer Inside an enormous Ice Cave + a scientist studies an Enormous Frozen Creature encased in the ice + translucent, inner illumination, cinematic lighting, volumetric, low-lying dry ice + blur bokeh defocus dof. --w 1024 --h 1792

Jeg har brugt AI-billedgeneratoren intenst, men i relativt kort tid, så jeg er langt fra at være ekspert. Men her er de erfaringer, som jeg har samlet indtil nu.

Gør dig det klart, hvad billedet først og fremmest skal vise

Pas på med forvirrende ord når du skriver din prompt. Hvis du f.eks. vil lave noget der henter inspiration fra universet omkring filmen A Clockwork Orange, så vær klar over, at ordet ”orange” er meget genkendeligt og overfortolkes af systemet. Det kan godt være du får noget, der minder om det du ønsker dig, men forvent at det bliver meget orange. Enten skal du acceptere det, eller omformulere din prompt, så maskinen bedre forstår din intention.

Overvej formatet nøje

Højformat, bredformat eller kvadratisk? Det har stor betydning for hvordan Midjourney disponerer kompositionen. Når du bruger bredformat er det ikke så nemt at få den til at generere personer der er store eller objekter der fylder meget i billedet. Der vil den have en præference for at aflevere et landskabsbillede eller et totalbillede af et rum.

Lad dig inspirere af andre prompts

Der er masser af inspiration og ny viden at hente i andres prompts. I Midjourney ligger de åbent fremme, lige til at lade sig inspirere af, eller bare at hugge (red. det sociale er den primære forskel på f.eks. Dall E 2 og Midjourney. David Holz har i interview med The Register fortalt, at netop det sociale aspekt er med til at holde brugerne indenfor rimelige grænser og samtidig inspirere hinanden).

Accepter at resultatet sjældent er som du forestillede dig

Enten ændrer du din prompt eller beder Midjourney om fire nye valgmuligheder. Men inden da, skal du gøre dig selv den tjeneste, at kigge de fire bud efter i sømmene. Ofte er der gemt guld imellem.

Go with the flow

Sørg for at drage fordel af den oplagte mulighed for sparring, som systemets tempo og dens indbyggede fejlbarlighed tilbyder dig.


Hvorfor er det så fascinerende, at du kan lave tekst om til et visuelt udtryk?

Jeg er nærmest tryllebundet af denne teknologi. Faktisk har en nylig rundspørge vist, at halvdelen af dem der bor i vores hus synes, at der er tale om er decideret misbrug. Jeg oplever egentlig ikke, at det er de endelige resultater der fascinerer mig mest, selv om billederne i sig selv kan være ret fantastiske. Det er mere vejen derhen, der giver det største kick. Det med, at der opstår en idé, der omsættes til en beskrivende sætning.

Allerede dér, er man ude i noget nyt. Man tvinges til at beskrive sin forestilling til en maskine, der ikke aner hvordan verden er indrettet, men alligevel, efter mindre end et minut, kommer op med fire forslag, der i forbløffende grad går i den rigtige retning.

Det sætter så nye tanker igang. For resultatet er aldrig helt som jeg forestillede mig. Men er Midjourneys forslag bedre? Eller skal jeg holde på mit, og forklare algoritmen hvad jeg vil på en anden måde? Giver nogle af forslagene en ny idé til at lave en endnu bedre illustration?

Særlig når det sidste er tilfældet, altså der hvor man kommer ind i et flow af vildt fabulerende associationsrækker, hvor jeg ”prompter”, algoritmen svarer, en ny tanke opstår og algoritmen fortolker igen og det hele bliver en slags ping-pong mellem mig og maskinen. Dét er fandme sjovt!

Jeg oplever det som en slags samtale med algoritmen… eller nærmere, som en brainstorm. Det fede er, at algoritmen aldrig bliver træt af mine forslag eller spørgsmål.

Et godt eksempel på noget der er startet ét sted og endt et helt andet, er disse to billeder.

Billede af soldat i rosemark skabt på Midjourney
Jeg startede med et ønske om et billede af en soldat i en mark af røde roser, med en sønderskudt by i baggrunden. Det gik fint, og jeg fik skudt mig mere og mere ind på et brugbart resultat.
Undervejs sneg der sig noget is og sne ind i de forslag som Midjourney sendte retur. Og i et andet billede havde havde soldaten et pigeansigt. Derfor endte jeg med to meget forskellige illustrationer.

Hvad er den største svaghed i systemet og hvordan ser du den?

Lige nu er den største svaghed, at det ikke undervejs er muligt at ændre eller tilføje ord til en prompt, efter den er sendt ind i systemet. Det generer mig, at jeg ikke kan tilføje eller fratrække et beskrivende ord eller ændre proportionerne på en illustration, der kun næsten er som jeg ønsker. I stedet må jeg starte forfra, slå mig til tåls med resultatet - eller redde det i Photoshop.

En anden type eksempel er, at Midjourney er virkelig dårlig til at tegne hænder, men det er jo bare lige nu. AI og algoritmen er stadig ung og ivrig efter at lære, og jo mere den bliver brugt, desto bedre bliver den til at svare rigtigt på det, som den bliver bedt om.

Her er Midjourneys bud på hvordan Michelangelo ville have malet en hånd. Jeg er ikke sikker på, at dén fortolkning af hvordan en hånd ser ud, ville have klædt loftsudsmykningen af Det Sixtinske Kapel.

Hvilken forandring kommer Visual AI til at gøre?

Jeg er overbevist om, at det her er en game changer i forhold til hvordan vi kommer til at lave billeder, forbruge billeder og opfatte billeder. Og film, for den sags skyld; det område ligger lige for.

Lige om lidt… LIGE OM LIDT! Så er disse værktøjer så stærke, hurtige og overbevisende i deres performance, at det vil være mere end almindeligt svært at fastslå, om man beskuer et klassisk fotografi eller et tekstgenereret foto. Det samme gør sig gældende med malerier og film.

De billeder vi kommet til at generere fra denne type programmer, bliver langt nemmere at styre i forhold til det resultat man vil arbejde sig hen imod. Samtidig vil brugerinterfacet ændre sig voldsomt, så måden vi kommer til at bygge vores ting på, mere vil opleves gennem en udvidelse af Photoshop og lignende software.

Jeg forestiller mig, at det gennem et ”menneskeligt” brugerinterface, vil blive oplevet langt mere som et værktøj man styrer selv. At man sidder ved rorpinden i den kreative proces.

Jeg tror, at når AI-motorerne bliver en naturligt integreret del af den måde vi i forvejen arbejder med vores billeder og illustrationer, så holder vi op med at tænke på det som AI, og mere kommer til at betragte fænomenet som det det er, nemlig endnu et værktøj i værktøjskassen. Et stærkt værktøj, men stadig kun et værktøj.

Jeg forstår godt den frygt folk fra min egen visuelle branche giver udtryk for. For man skal IKKE lære sig et håndværk, for at skabe noget med Visual AI. Man behøver ikke at kunne tegne, male, fotografere eller filme. Men jeg er mindre bekymret, for selv om Visual AI umiddelbart leverer grænseløse muligheder til alle, så kræver det stadig færdigheder, fantasi og indlevelse at få noget kommercielt eller kunstnerisk brugbart ud af de nye værktøjer.

Men måske er jeg dér for optimistisk. Jeg er ikke ligefrem kendt for at være en maskinstormer, men mere som en der stormer hen til maskiner.


Du kan følge Troels Bergs billeder fra Midjourney på hans Facebookside, hvor der løbende udkommer nyt. Du finder den her: https://www.facebook.com/troels.berg.1

Vil du læse mere om prompt engineering, som er den interaktion mellem mennesker og maskiner, som vi tilegner os for at kunne aktivere kunstig intelligens, så klik her og læs artiklen i denne serie om Visual AI.


I denne uge er vi 25 der modtager ugens inspiration. Men vi kan sagtens være flere, så del inspirationen med nogen, du mener kan have glæde af det og husk at abonnere selv, hvis du ikke allerede er på listen.

Klik på "Tilmeld dig gratis!" i nederste højre hjørne og gør det nu.

Hilsner Patrick

Patrick Bay Damsted

Patrick Bay Damsted

Nysgerrigt undersøger og beskriver Patrick vores menneskelige erfaringer og indsigter - og de blinde vinkler, som påvirker vores hverdag og livskvalitet.