AI Coffee break: Можете ли да заснемете Sin City с телефон?

Вземете една групова снимка и я дайте на 16-годишен ученик с лаптоп и Photoshop - той ще намери най-смешната физиономия от фотографията, ще я монтира върху всички останали лица, а крайният ефект ще се качи в 9gag при хилядите други тийнейджърски meme-та.

От години манипулирането на снимки не е толкова сложно и с малко повече часове пред компютъра и натрупан опит, може да бъде направено от всеки, така че да изглежда професионално.

Сега си представете дете. Гледа на всичко с любопитство, но не го разбира, докато не се докосне с пръст до него. Трябва да се опари, за да знае, че не бива да пипа печката. Детето изгражда своите разбирания за света спрямо това дали майка му реагира добре или зле, когато то направи нещо.

Заменете детето с изкуствения интелект и ще разберете това, което се е случило с него през последните години.

Научил се е да чете.

За компютрите текстът е представлява система от символи, които са разбити на нула и единици. В добрия случай обучавате един компютър да разпознава базовите думи, изрази, честите грешки. Трудно е, но имате фиксирана структура, която позволява предвидимост. Можете да си изтеглите речник на телефона си, който да сравни два езика и да ви преведе от единия на другия. Компютърът ще ви разбере какво пишете. Вече знае повече езици от вас.

Научил се е да слуша.

Звукът е най-просто казано, поредица от вълни, които също могат да бъдат разбити на нула и единици. За да може Shazam да разпознае коя песен слушате, приложението взема записания звук и бързо го сравнява с милионии семпли от различни парчета в облака. Впечатляваща технология, която от години имаме на телефона си. Разпознаването на звука при говор прави нещата още по-сложни заради елементи като произношение, акценти, тембър - тогава вариациите стават много. Днес обаче има бум на домашните умни говорители, които малко или много успяват да разберат какво говорите.

Научил се е да вижда.

Изображенията са съставени от множество пиксели - всеки един от тях носи различна информация за цвят и осветеност. Когато се комбинират няколко пиксела, могат да бъдат отличени контурите на определени обекти. Те, от своя страна, могат да бъдат сравнени с милиони други изображения и след сложно пресмятане от невронни мрежи да "кажат" на компютъра или телефона какво всъщност е изобразено на снимката.

Какво ви разказвахме предишния път, това не е толкова просто - за софтуера е сравнително лесно да разбере дали на лист хартия е изписана цифрата "3" или "6". Ако трябва обаче да различи куче на снимка, става още по-сложно поради големия брой възможни вариации на породите.

Сега телефонът в джоба ви вече знае как да го направи. Huawei представиха чипсет с NPU още преди година в Mate 10. Оттогава почти няма нов фламган на пазара, в който не е включен отделен чип, предназначен само и единствено за това да изчислява невронни мрежи. Тази година изчислителната мощност на тези чипове е още по-голяма. При Kirin 980, който захранва Mate 20 и Mate 20 Pro, тези модули вече дори са два.

Какво повече могат да правят NPU-чиповете тази година, спрямо миналата?

Видео.

Представете си системата от операции, което телефонът трябва да направи за разпознаването на обект в дадена снимка, и ги умножете по 60 пъти в секунда.

Една от най-впечатляващите функции на Huawei Mate 20 и Mate 20 Pro e, че в реално време телефонът успява да различи кое е ръката, кое е кракът, къде има лакът, къде е косата на човека, когото снимате. Нещо повече - прилага филтри при записа на видеото, замъглява фона или оцветява само човека в кадър, докато всичко останало се преобразува в черно-бяло.

Ето няколко примера:

 

 

 

Всички пресмятания, за да се постигне това, се случват директно на телефона, на живо. Не от софтуер, който впоследствие преработва записа.

Ето затова чиповете за пресмятане на невронни мрежи си заслужават.

Новините

Най-четените