Relativní Atributy

link: https://filebox.ece.vt.edu/~parikh/relative.html

Marr Cenu (Best Paper Award), Vítěz, ICCV 2011

Devi Parikh a Kristen Grauman

“Kdo v rainbow můžete nakreslit čáru, kde fialový odstín končí a oranžové odstín začíná? Zřetelně vidíme rozdíl barev, ale kde přesně se ten první blendingly vstoupit do jiné? Takže s rozumem a šílenstvím.”

Herman Melville Billy Budd

relative_motivation

Abstrakt

Lidské-pojmenování vizuální “atributy” mohou využívat různé úlohy rozpoznávání. Nicméně, stávající techniky omezit tyto vlastnosti kategorické štítky (například, osoba je s úsměvem, nebo ne, scéna je “suché”, nebo ne), a tak nepodaří zachytit obecnější sémantické vztahy. Navrhujeme model, relativní atributy. Vzhledem vzdělávání údaje o tom, jak objekt/scénu kategorií se vztahují podle různých atributů, jsme se dozvěděli pořadí funkcí za atribut. Naučil pořadí funkcí odhadnout relativní sílu jednotlivých vlastností v nových obrázků. Pak jsme vybudovat generativní model přes společný prostor atribut pořadí výstupů, a navrhnout nové formě nula-shot učení, v němž supervizor se týká neviditelné objekt kategorie k již dříve viděné objekty pomocí atributů (například ‘medvědi jsou chlupatější než žirafy’). Dále jsme ukázat, jak navrhované relativní atributy umožňují bohatší textové popisy pro nové obrázky, které se v praxi jsou přesnější pro lidské interpretaci. Jsme demonstrovat přístup na datové soubory z tváře a přírodní scény, a ukázat své jasné výhody oproti tradiční binární atribut predikce pro tyto nové úkoly.

Motivace

Binární atributy jsou omezující a může být nepřirozené. Ve výše uvedených příkladech, přičemž jeden lze charakterizovat obrázku vlevo nahoře a vpravo nahoře jako přírodní a člověkem, respektive, co by jste popsat obrázek v pravém středu? Jediný smysluplný způsob, jak charakterizovat to je s ohledem na ostatní obrázky: je to méně přirozené, než je obraz na levé straně, ale více než obraz na pravé straně.

Návrh

V této práci navrhujeme model relativní atributy. Jako protiklad k předpovídání přítomnost atributu, relativní atribut udává sílu atribut v obraze s ohledem na další obrázky. Kromě toho, že více přírodní, relativní atributy nabízí bohatší způsob komunikace, což umožňuje přístup k více podrobným dohledem člověka (a tak potenciálně vyšší přesnost rozpoznávání), stejně jako schopnost generovat více informativní popisy nových obrázků.

Navrhujeme přístup, který se učí, pořadí funkce pro každý atribut, vzhledem k relativní podobnost omezení na dvojici příkladů (nebo obecněji částečné uspořádání na některé příklady). Naučil ranking funkce lze odhadnout skutečnou hodnotou řadí na obrázky označující relativní síla atribut přítomnosti v nich.

Představujeme nové formy zero-shot učení a popis obrazu, které využívají relativní atribut předpovědi.

Přiblížení

Učení relativní atributy: Každý relativní atribut osvojuje prostřednictvím učení se řadí formulace, vzhledem k tomu, srovnávací dohled, jak je uvedeno níže:

1

Rozdíl mezi učením široké rozpětí pořadí funkce (vpravo), který vynucuje požadované objednávat na tréninkové body (1-6), a široké rozpětí binární klasifikátor (vlevo), který pouze oddělí dvě třídy (+ a -), a nemusí nutně zachovat požadovanou objednání na body je uvedeno níže:

2Román zero-shot učení: Budeme studovat následující set-up

  • N celkem kategorie: vidět kategorií (spojené obrázky jsou k dispozici) + U neviditelného kategorií (žádné obrázky jsou k dispozici pro tyto kategorie)
  • vidět kategorií, které jsou popsány ve vztahu k sobě navzájem prostřednictvím atributy (ne všechny páry kategorie musí souviset pro všechny atributy)
  • U neviditelného categorires jsou popsány v poměru k (podmnožinu) viděl kategorií z hlediska (podmnožinu) atributy.

Jsme první vlak sada relativní atributy pomocí dohledem dispozici na kategorií. Tyto atributy může být také pre-vyškoleni od externí data. Pak jsme vybudovat generativní model (Gaussovo) pro každý kategorie pomocí odpovědí relativní atributy na obrázky z kategorií. Můžeme pak odvodit parametry generativní modely neviditelného caregories využitím jejich relativní popisy s ohledem na kategorií. Vizualizace jednoduchý přístup, využíváme pro to je uvedeno níže:

nula-shot

Testovací obrázek je přiřazen do kategorie s maximální věrohodnosti.

Automatické generování relativní textová desriptions obrázků: Vzhledem k tomu, obrázek jsem být popsáno, budeme hodnotit všechny naučil pořadí funkcí na I. Pro každý atribut, můžeme identifikovat dva referenční snímky, ležící na jedné straně já, a nejsou příliš daleko nebo příliš blízko k I. Obraz jsem je pak popsán relativní tyto dva referenční snímky, jak je uvedeno níže:

3

Jak je vidět výše, kromě popisu obrázku vzhledem k jiné představy, náš přístup lze také popsat obrázek v poměru k jiné kategorie, což má za následek čistě textový popis. Jasně, relativní popisy jsou přesnější a informativní, než konvenční binární popis.

Experimenty a Výsledky

Provádíme experimenty na dva soubory dat:

(1) Venkovní Rozpoznání Scény (OSR) obsahující 2688 obrázky z 8 kategorií: pobřeží C, les, F, dálnice H, uvnitř-město I, hora M, open-země, O, ulice S. a vysoká-budova, T. používáme podstata funkce představují obrázky.

(2) podmnožina osobnosti Veřejného života Čelit Databáze (PubFig) obsahující 772 snímků z 8 kategorií: Alex Rodriguez, Clive Owen, C, Hugh Laurie H, Jared Leto J, Miley Cyrus M, Scarlett Johansson, S, Viggo Mortensen V a Zac Efron Z. použijeme zřetězené podstata a funkce barev, představují obrázky.

Seznam atributů pro každý dataset, spolu s binární a relativní atribut anotace jsou uvedeny níže:

 

Zero-shot učení:

Můžeme porovnat naše navrhovaný přístup do dvou linií. První je Skóre založené na Relativní Atributy (SRA). To základní je stejné, jako náš přístup, kromě toho, že používá skóre binární klasifikátor (binární atributy) namísto skóre pořadí funkcí. Tento základní pomáhá vyhodnotit potřebu žebříčku funkce, aby co nejlépe model relativní atributy. Náš druhý směrný plán je Přímým Atributem Predikce (DAP) model představen Lampert et al. v CVPR 2009. Tento základní pomáhá zhodnotit přínos relativní léčba atributy jako rozdíl kategorický. Hodnotíme tyto přístupy pro různé počty neviditelné kategorií, různého množství dat použita k trénovat atributy, které se liší počtem attribtues používá k popisu neviditelné kategorie a různé úrovně ‘volnost’ v popisu neviditelné kategorií. Podrobnosti o experimentální set-up lze nalézt v našem článku. Výsledky jsou uvedeny níže:

Auto-generované popisy obrázků:

Za účelem vyhodnocení kvality našich relativní popis obrazu do binární protějšky, jsme provedli lidské studie. Jsme vytvořili popis obrázku s použitím našeho přístupu, stejně jako základní binární atributy. Představili jsme předmětů s popisem, spolu s třemi obrázky. Jeden ze tří obrázků byl obraz popisovaného. Úkolem subjektů bylo pořadí tří snímků, na základě které jeden by myslel, že je nejvíce pravděpodobné, že bude jeden popisováno. Čím přesnější popis, tím větší je šance subjekty identifikace správný snímek. Ilustrace úkol předložené subjekty je uvedena níže:

human_study

Výsledky studie jsou uvedeny níže. Vidíme, že subjekty mohou určit správný obrázek přesněji pomocí našeho navrhované relativní atributy, jako ve srovnání s binární atributy.

human_study_results

Příklad binární popisy snímků, stejně jako popisy relativní kategorií, jsou uvedeny níže:

 

Obrázek Binární popis Relativní popisy
11 ne přírodní
nelze otevřít
perspektivy
přirozenější než tallbuilding, méně přírodní, než les
otevřenější než tallbuilding, méně otevřené, než pobřeží
větší perspektivu než tallbuilding
12 ne přírodní
nelze otevřít
perspektivy
přirozenější než insidecity, méně přírodní, než dálnice
otevřenější než ulici, méně otevřené, než pobřeží
větší perspektivu než dálnice, méně perspektivní, než insidecity
13 přírodní
otevřít
perspektivy
přirozenější než tallbuilding, méně přírodní, než horské
otevřenější než hory
méně perspektivní, než opencountry
14 Bílá
s Úsměvem
VisibleForehead
více Bílé než AlexRodriguez
více Usmívají než JaredLeto, míň než ZacEfron
více VisibleForehead než JaredLeto, méně VisibleForehead než MileyCyrus
15 Bílá
s Úsměvem
není VisibleForehead
více Bílé než AlexRodriguez, méně Bílé než MileyCyrus
míň než HughLaurie
více VisibleForehead než ZacEfron, méně VisibleForehead než MileyCyrus
16 ne Mladý
BushyEyebrows
RoundFace
více Mladých než CliveOwen, méně Mladých než ScarlettJohansson
více BushyEyebrows než ZacEfron, méně BushyEyebrows než AlexRodriguez
více RoundFace než CliveOwen, méně RoundFace než ZacEfron

Data
Poskytujeme naučil relativní atributy a jejich předpovědi pro dva datové soubory použité v našich novinách: Venkovní Rozpoznání Scény (OSR) a podmnožinaosobnosti Veřejného života Čelit Databáze (PubFig).
README
Download (v2)
Relativní Obličej Atributy datové sady. Obsahuje popisy pro 29 relativní atributy na 60 kategorií od osobnosti Veřejného života Čelit Databáze (PubFig).
Kód
Modifikovali jsme Olivier Chappelle je RankSVM provádění trénovat relativní atributy podobnost s omezením. Naše upravený kód lze nalézt zde.
Pokud budete používat náš kód, prosím, uvést následující papír:
Parikh a K. Grauman
Relativní Atributy
Mezinárodní Konference o Počítačovém Vidění (ICCV), 2011.
Ukázky
Ukázky různých aplikací relativní atributy lze nalézt zde. Popis těchto aplikací lze nalézt v novinách, zde.