Nejnovější výzkum umělé inteligence (AI) z České republiky navrhuje „GLAMI-1M“, datovou sadu a měřítko pro vícejazyčnou klasifikaci obrázků a textu.

Veřejné datové sady jsou jedním z nejdůležitějších stavebních kamenů pro výzkum strojového učení. Díky těmto datovým sadám může kdokoli trénovat a vyhodnocovat své modely na osobních zařízeních nebo cloudových službách. Tyto obecné standardy umožňují testování a hodnocení různých metod, protože obsahují předem určené školení a segmentaci testovacích dat.

klasifikace obrázků Je to jeden z nejznámějších problémů počítačového vidění. Nicméně modely klasifikace obrázků byly ve skutečnosti docela dobré. Když zarovnání Předchozí model byl trénován na klasifikačním WebImageText a fungoval jako zastaralý na datové sadě Fashion-Gen. Tato pozorování odhalují, že klasifikaci obrázků lze zlepšit pomocí textových modelů obrázků.

Rozsáhlé, generické datové soubory pro klasifikaci textu obrázků však mají omezenou velikost a jazykovou rozmanitost (viz Tabulka 1). V tomto příspěvku tedy autoři prezentují GLAMI-1M. Obecný vícejazyčný klasifikační standard pro módní výrobky. Stručně popišme soubor dat; Dataset obsahuje 1,1 milionu obrázků módních produktů a jejich popisů v jedné verzi 13 jazyků. Popisy produktů jsou převzaty z webových stránek elektronického obchodu. Obrázky jsou rozděleny do kategorií 191 kategorií (Viz obrázek 2) S vysoce kvalitními štítky. Kompletní testovací sada a 75 % obrázků tréninkové sady 1M je označeno jako člověk.

Vzhledem k tomu, že data jsou shromažďována z webu elektronického obchodu, představují různé problémy, jako je řešení nevyvážených distribucí kategorií s dlouhým koncem, hlasitých štítků, multimediálních vstupů, vícejazyčných skriptů a mnoho dalšího.

Existují určité datové sady specifické pro módu (viz tabulky 2 a 3), ale existuje dvojjazyčná datová sada obrázků a textu, Fashion-MMT. Je však desetkrát menší než GLAMI-1M.

Nyní se dostáváme k otázce, Jak se data shromažďují a čistí?

Módní položky v datovém souboru jsou vybírány z katalogu GLAMI ve dvou fázích:

  1. Položky s vysoce kvalitními lidskými anotacemi jsou vzorkovány na základě zdroje anotace. K vytvoření testovací sady je použito 100 000 náhodně vybraných vzorků.
  2. Položky se odebírají z méně spolehlivého systému indikativního označování, aby se získala cvičná sada 1 milionu položek.
READ  České letectvo dostává nejnovější verzi dopravního letadla C295

Kromě toho nedochází k překrývání mezi sadou obrázků a tréninkovými a testovacími texty, jak bylo ověřeno prostřednictvím MD5 hash A Kosinusová podobnost.

Tabulka 4 poskytuje další informace o datové sadě.

Výzkumníci také vytvořili multimodální klasifikační základní linii a vytvořili transkript-modální obraz na GLAMI-1M.

Nejprve si promluvme o klasifikaci –

v multimediální klasifikace Vstupy pocházejí z různých modalit, zde; textový (název + popis), vizuální (obrázek) a kategorický (zdroj názvu). Pro základní linii použili EmbraceNet, protože dokáže převzít zašifrovaný vstup z jakékoli metody a zkombinovat je do jediné metody.

Teď o tom Vytvořte modální obrázek s textemA

Trénovali malou verzi modelu podobného Imagen na podmnožině datové sady.

Výsledky z obou výchozích hodnot lze vidět v tabulce 6 a na obrázcích 5,6,7.

Konečně, GLAMI-1M Je to největší veřejně dostupná datová sada pro vícejazyčnou klasifikaci textů obrázků. Má potenciál pomoci urychlit výzkum v oblasti generování textově modálních obrázků, klasifikace textů obrázků a vícejazyčného strojového překladu. Kromě toho může být také užitečné pro detailní výpis módních produktů na webových stránkách elektronického obchodu.


skenovat papír A odkaz na github. Veškeré zásluhy za tento výzkum patří výzkumníkům tohoto projektu. Také se nezapomeňte připojit Naše stránka Reddit A nesvorný kanálkde sdílíme nejnovější zprávy o výzkumu AI, skvělé projekty AI a další.

Vineet Kumar je konzultantem ve společnosti MarktechPost. V současné době pokračuje v bakalářském studiu na Indian Institute of Technology (IIT), Kanpur. Je nadšený do strojového učení. Je nadšený pro výzkum a nejnovější vývoj v oblasti hlubokého učení, počítačového vidění a příbuzných oborů.


Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *