Lepší než JPEG? Výzkumník zjišťuje, že stabilní difúze může komprimovat obrazy

Lepší než JPEG?  Výzkumník zjišťuje, že stabilní difúze může komprimovat obrazy
Zvětšení / Tyto zubaté barevné bloky jsou přesně to, co zní koncept komprese obrazu.

Bing Edwards / Ars Technica

Minulý týden švýcarský softwarový inženýr Matthias Pullman Objevit Ten slavný fotomontážní model stabilní šíření Může komprimovat existující bitmapy s menším počtem vizuálních artefaktů než JPEG nebo WebP při vysokých kompresních poměrech, i když existují významná upozornění.

Stabilní šíření je soubor Model fotomontáže umělé inteligence které obvykle generují obrázky na základě textových popisů (tzv. „nároky“). Model AI se této schopnosti naučil studiem milionů obrázků pořízených z internetu. Během tréninkového procesu model vytváří statistické asociace mezi obrázky a souvisejícími slovy, čímž vytváří mnohem menší reprezentaci základních informací o každém obrázku a ukládá je jako „váhy“, což jsou matematické hodnoty, které představují to, co model obrázku AI ví, tak se vyskytují.

Když stabilní difúze analyzuje a „komprimuje“ obrazy do váhové formy, sídlí v tom, co výzkumníci nazývají „latentní prostor“, což je způsob, jak říci, že existuje jako druh rozmazaného potenciálu, který lze na snímcích vnímat, jakmile jsou dekódovány. . Se Stable Diffusion 1.4 má soubor vah zhruba 4 GB, ale je to znalost stovek milionů obrázků.

Příklady použití Stable Diffusion ke kompresi obrázků.
Zvětšení / Příklady použití Stable Diffusion ke kompresi obrázků.

Zatímco většina lidí používá Stable Diffusion s textovými výzvami, Bühlmann ořízl textový kodér a místo toho donutil své obrázky projít procesem kódování obrazu Stable Diffusion, který vezme obrázek s nízkým rozlišením 512 × 512 a převede jej na vyšší rozlišení 64 × 64 latentní reprezentace. prostoru. V tomto okamžiku existuje obrázek s mnohem menší velikostí dat než původní obrázek, ale stále jej lze rozšířit (dekódovat) na obrázek 512 x 512 s poměrně dobrými výsledky.

READ  Jak povolit režim Whisper na zařízeních Amazon Alexa

Během testů Bühlmann zjistil, že obrázky komprimované pomocí Stable Diffusion vypadají subjektivně lépe při vyšších kompresních poměrech (menší velikost souboru) než JPEG nebo WebP. V jednom příkladu ukazuje obrázek cukrárny komprimovaný na 5,68 KB pomocí JPEG, 5,71 KB pomocí WebP a 4,98 KB pomocí Stable Diffusion. Zdá se, že obraz stabilní difúze má jemnější detaily a méně jasné výsledky komprese než obrazy komprimované v jiných formátech.

Ukázkové příklady použití Stable Diffusion ke kompresi obrázků.  SD výsledky zcela vpravo.
Zvětšení / Ukázkové příklady použití Stable Diffusion ke kompresi obrázků. SD výsledky zcela vpravo.

Bühlmannova metoda však v současnosti přichází se značnými omezeními: není dobrá s tvářemi nebo textem a v některých případech může skutečně halucinovat detailní rysy v dekódovaném obrázku, které nebyly přítomny ve zdrojovém obrázku. (Pravděpodobně nechcete, aby obrazový kompresor vymýšlel detaily v obrazu, který neexistuje.) Také dekódování souborů vyžaduje 4 GB stabilních vah šíření a další dekódovací čas.

I když je toto použití Stable Diffusion nekonvenční a je spíše zábavným hackem než praktickým řešením, může naznačovat nové, budoucí využití modelů fotomontáží. Může to být Pullmanův symbol nalezený ve službě Google Colab, Další technické podrobnosti o jeho zkušenostech najdete v Odesláno jako AI.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *