Чивава или кифлица? Моја потрага за најбољим АПИ-јем за рачунарски вид

Овај популарни интернет мем показује демонстрацију забрињавајуће сличности између чивава и кифли. Ове слике се често деле на презентацијама у индустрији вештачке интелигенције (АИ) (укључујући и мене).

Али једно питање на које нисам видео да је ико одговорио је колико је савремена уметничка интелигенција добра у уклањању несигурности слике која би могла да личи на чиваву или кифлу? Ради ваше забаве и образовања, истражићу ово питање данас.

Бинарна класификација је могућа откако је измишљен алгоритам перцептрона 1957. Ако мислите да је АИ сада хипер, Нев Иорк Тимес је 1958. известио да је проналазак почетак рачунара који ће „моћи да хода, разговара, види, писати, репродуковати себе и бити свестан свог постојања “. Иако су перцептрон машине, попут Марк 1, дизајниране за препознавање слике, у стварности могу да препознају само обрасце који се линеарно могу раздвојити. Ово их спречава да науче сложене обрасце који се налазе у већини визуелних медија.

Није ни чудо што је свет био разочаран и наступила је АИ зима. Од тада су вишеслојне перцепције (популарне 1980-их) и конволуционе неуронске мреже (пионир Ианн ЛеЦун 1998) знатно надмашиле једнослојне перцепције у задацима препознавања слика.

Са великим означеним скуповима података попут ИмагеНет-а и моћним ГПУ рачунарством, напредније архитектуре неуронске мреже попут АлекНет, ВГГ, Инцептион и РесНет постигле су врхунске перформансе у рачунарском виду.

АПИ-ји за препознавање рачунарског вида и слике

Ако сте инжењер машинског учења, лако је експериментисати и фино подесити ове моделе користећи унапред обучене моделе и тегове у Керас / Тенсорфлов или ПиТорцх. Ако вам није пријатно самостално подешавање неуронских мрежа, имате среће. Практично сви водећи технолошки гиганти и перспективни стартупи тврде да „демократизују АИ“ нудећи АПИ-је за рачунарски вид који су лаки за употребу.

Који је најбољи? Да бисте одговорили на ово питање, морали бисте јасно да дефинишете своје пословне циљеве, случајеве употребе производа, тестирање скупова података и метрике успеха да бисте могли да упоређујете међусобно решења.

Уместо озбиљног испитивања, можемо барем да стекнемо осећај различитог понашања сваке платформе на високом нивоу тако што ћемо их тестирати са нашим проблемом играчака у разликовању чиваве од кифла.

Спровођење теста

Да бих то урадио, канонски мем поделио сам на 16 пробних слика. Тада користим отворени изворни код који је написао инжењер Гаурав Оберои за обједињавање резултата из различитих АПИ-ја. Свака слика се прогура кроз шест АПИ-ја наведених горе, који враћају ознаке високе поузданости као своја предвиђања. Изузетак чине Мицрософт који враћа и налепнице и натпис и Цлоудсигхт који користи хибридну технологију АИ за враћање само једног натписа. Због тога Цлоудвиев може вратити језиво тачне написе за сложене слике, али обрада им траје 10–20 пута дуже.

Испод је пример резултата. Да бисте видели резултате свих 16 слика чиваве наспрам муффин слика, кликните овде.

Колико су добро прошли АПИ-ји? Осим Мицрософта, који је ову кифлу заменио за плишану животињу, сваки други АПИ препознао је да је слика храна. Али није било споразума о томе да ли је храна хлеб, колач, колачићи или кифлице. Гоогле је био једини АПИ који је муффин успешно идентификовао као налепницу која је највероватније.

Погледајмо пример чиваве.

Опет, АПИ-ји су прошли прилично добро. Сви они су схватили да је слика пас, мада је неколицини недостајала тачна раса.

Било је ипак одређених неуспеха. Мицрософт је три пута вратио очигледно погрешан натпис, описујући кифлу или као плишану животињу или као меду.

Гоогле је био ултимативни идентификатор муффин-а, вративши „муффин“ као највећу ознаку поузданости за 6 од 7 слика муффин-а у тест сету. Остали АПИ-ји нису вратили „муффин“ као прву етикету било које слике мафина, већ су вратили мање релевантне ознаке као што су „хлеб“, „колачић“ или „цупцаке“.

Међутим, упркос низу успеха, Гоогле није успео на овој специфичној муффин слици, вративши „њушку“ и „групу паса паса“ као предвиђања.

Чак и најнапредније платформе за машинско учење на свету спотакну се нашом фацатичном чивавом у односу на муффин изазов. Људско дете проводи дубоко учење када је у питању откривање шта је храна, а шта Фидо.

Па који је АПИ за рачунарски вид најбољи?

Да бисте сазнали одговор на ову неухватљиву мистерију, мораћете да пређете на ТОПБОТС да бисте у потпуности прочитали оригинални чланак!