Kas yra Dalle-mini ir kaip jis veikia?

Dalle-mini yra gilaus mokymosi modelis, galintis generuoti aukštos kokybės vaizdus iš vartotojo įvesto teksto. Jis sukurtas remiantis DALL-E modeliu, kurį OpenAI išleido 2021 m. sausio mėn. DALL-E reiškia „ Išsiskyrusi kalba ir latentinė raiška “ yra transformatoriumi pagrįstas neuroninis tinklas, galintis užkoduoti tekstą ir vaizdus į bendrą latentinę erdvę, o tada iššifruoti juos atgal į bet kurį modalumą.

Šiame straipsnyje bus paaiškintas šis turinys:

Kas yra Dalle-mini?

Duok jai-mini yra mažesnė ir greitesnė DALL-E versija, kurią sukūrė atvirojo kodo tyrimų kolektyvas EleutherAI. „Dalle-mini“ naudoja tik 6 milijardus parametrų, palyginti su 12 milijardų DALL-E, ir gali veikti su vienu GPU. Dalle-mini teksto įvedimui taip pat naudoja skirtingą prieigos raktą ir žodyną, todėl jis yra labiau suderinamas su skirtingomis kalbomis ir domenais:

Pastaba : naudotojai gali nemokamai generuoti vaizdus naudodami Dalle-mini, vadovaudamiesi nuoroda .

Kas yra Dalle-mini veikimas?

Pagrindinė Dalle-mini idėja yra transformatorių, kurie yra neuroniniai tinklai, galia. Jie gali išmokti ilgalaikių priklausomybių ir sudėtingų nuoseklių duomenų, pvz., teksto ar vaizdų, modelių.

Transformatoriai susideda iš dviejų pagrindinių dalių: kodavimo ir dekoderio. Pirmoji dalis paima įvestį (teksto aprašymą) ir pakeičia ją į paslėptus vektorius. Po to dekoderis jį paima ir sugeneruoja išvestį (vaizdą), kuri yra susijusi su įėjimu.

Kuo skiriasi Dalle-mini ir DALL-E?

Dalle-mini ir DALL-E naudoja bendrą kodavimo ir dekodavimo architektūrą tiek tekstui, tiek vaizdams. Jie gali užkoduoti ir iššifruoti abu būdus naudodami tą patį tinklą. Tai leidžia jiems išmokti bendrą latentinę erdvę, kuri fiksuoja semantinį teksto ir vaizdų ryšį. Po to jie leidžia generuoti įvairias rūšis, pavyzdžiui, kurti vaizdus iš teksto arba atvirkščiai.

Kaip veikia Dalle-mini?

Norėdami sugeneruoti vaizdą iš teksto aprašymo, Dalle-mini pirmiausia sujungia tekstą naudodama baitų poros kodavimo (BPE) algoritmą, kuris padalija tekstą į požodžių vienetus pagal jų dažnumą ir pasikartojimą:

Pereikime prie detalių vidinio Dalle-mini veikimo:

Vidinis Dalle-mini darbas

Tarkime, žodis „ žaidžiant 'gali būti suskirstytas į ' pla “ ir „ ying “. Tada žetonai susiejami su skaitmeniniais ID, naudojant 8192 žetonų žodyną. ID įvedami į koduotuvą, sukuriant latentinį 256 x 64 dydžio vaizdą:

Tada dekoderis paima latentinį vaizdą ir sukuria 256 x 256 pikselių dydžio vaizdą. Dekoderis naudoja autoregresyvų procesą, o tai reiškia, kad jis generuoja kiekvieną pikselį po vieną, atsižvelgiant į ankstesnius pikselius ir latentinį vaizdą.

Kaip sugeneruoti vaizdą iš teksto aprašymo naudojant Dalle-mini?

Norėdami sugeneruoti teksto aprašą iš vaizdo naudodami Dalle-mini, įveskite tekstą į raginimo langą. Pavyzdžiui, įveskite „ Atsitiktinių gėlių paveikslas “ ir paspauskite „ Bėk “ mygtukas:

Išvestis rodo, kad Dalle-mini sugeneravo atitinkamus vaizdus pagal įvesties tekstą.

Išvada

„Dalle-mini“ yra puikus modelis, parodantis transformatorių potencialą generuoti įvairiarūšį režimą. Jie gali sukurti tikroviškus ir įvairius vaizdus iš natūralios kalbos aprašymų, taip pat nuoseklius ir aktualius tekstus iš vaizdų. Jie taip pat gali tvarkyti sudėtingas kompozicijas, pavyzdžiui, sujungti kelis objektus ar atributus viename paveikslėlyje ar tekste. Šiame straipsnyje išsamiai paaiškintas Dalle-mini ir jo veikimas.

Kas yra Dalle-mini ir kaip jis veikia?