Jak nové technologie nahrazují lidské smysly

Zdroj: DataSentics

Mohou nové technologie nahradit lidské smysly? Ukázku toho, jak mohou algoritmy strojového učení pomoci lidem s postižením zraku, představil tým českého startupu DataSentics. Svůj původně komerční projekt Shelf Inspector přetváří na aplikaci, která dokáže nevidomým prozradit, co mají před sebou v regálech obchodů. Díky ní se budou moci lidé s postižením zraku orientovat v obchodě jednodušeji a samostatněji. Aplikace vznikla v rámci hackathonu AI for Accessibility Hackathon a stala se jedním ze dvou vítězných projektů. Jak aplikace vznikala a jakým způsobem mohou nové technologie pomoci lidem se zrakovým postižením, popsal v rozhovoru pro Roklen24 Petr Míchal, Data Scientist ve firmě DataSentics.

Jaká byla Vaše motivace zúčastnit se Hackathonu a pustit se do takovéhoto projektu?

Možnost účastnit se AI for Accessibility Hackathonu nás nadchla a říkali jsme si, že bychom také rádi něčím přispěli. V první řadě jsme museli rozmyslet, co jsme schopni vytvořit v omezeném čase Hackathonu. Nakonec z toho vykrystalizoval Shelf Inspector a myslím, že se řešení povedlo.

Pomocí rozpoznání obrazu a strojového učení jste dokázali částečně navrátit zrak lidem se zrakovým postižením. Můžete na přiblížit, jak Shelf Inspector funguje?

Shelf Inspector je aplikace, která má za cíl usnadnit nevidomým nakupování v obchodech, konkrétně tím, že po vyfocení regálu, dokáže uživatelům říci, jaké je v regále zboží a za jakou cenu. Většina uživatelů má ve svém mobilním telefonu zabudované zařízení voiceover, který jim následně vrácený text z naší neuronové sítě – tedy název produktu a jeho cenu – přečte. Díky tomu nevidomí ví, co je před nimi v regálu a nemusí se ptát o pomoc kolemjdoucích nebo obsluhy.

Při vývoji Shelf Inspectora pro zrakově postižené jste přímo do týmu zapojili nevidomého člena týmu, jaká pro Vás byla tato spolupráce? Byl jeho pohled na funkčnost a využitelnost aplikace v něčem jiný, případně v čem Vás inspiroval?

Pro nás to byla určitě super zkušenost a ocenili jsme, že byl Pavel členem týmu. My jsme možnosti řešení posuzovali naším pohledem, takže bylo skvělé, že on nám mohl dát zpětnou vazbu o tom, jestli by naše nápady byly pro něj přínosné nebo co by si od vyvíjené aplikace představoval. Některé naše nápady naopak zastavil s tím, že tímto směrem nemá smysl se vydávat. Zároveň bylo velmi přínosné, že se mohl přímo podílet na vývoji této aplikace, protože je to také člověk působící v IT. A samozřejmě přispěl i ve fázi testování v praxi. Takže nám tato spolupráce dala hodně a doufám, že i jemu.

Aplikace Shelf Inspector pro nevidomé vychází z Vašeho komerčního produktu. S čím jste se nejvíce potýkali při jeho přeměně, aby dokázal pomoci lidem se zrakovým postižením?

Shelf Inspector je původně komerční produkt, který byl určen pro velké retailové hráče, například výrobce nápojů. Cílem tohoto komerčního produktu je monitorovat způsob vystavení zboží a upozorňovat na období, kdy zboží není na regálech. To se děje také pomocí analýzy obrazu. Při přetvoření tohoto produktu na aplikaci, která by pomáhala lidem se zrakovým postižením, jsme museli hledat kompromisy mezi tím, co by reálně pomohlo, čeho jsme za daný časový limit hackathonu schopni dosáhnout a co by mělo potenciál se dál rozvíjet. A samozřejmě jsme řešili technické problémy, protože Shelf Inspector v komerční verzi je velký projekt, takže bylo třeba vybrat jednotlivé části, aby řešení fungovalo a bylo schopné komunikovat s uživateli přes telefon. Nejdřív jsme si vytyčili cíl a pak jsme řešili technické výzvy.

V jaké fázi je Shelf Inspector pro nevidomé nyní a plánujete ho dále rozvíjet? 

V současnosti je Shelf Inspector ve fázi webové aplikace, přičemž mobilní telefon uživatelů slouží jako odesílatel a přijímač. Uživatel si otevře webovou stránku, kde funguje naše aplikace, ta ho vyzve k nahrání fotografie, která se odešle do cloudu. Tam se zpracuje, vyhodnotí a do telefonu se odešle závěrečná odpověď s názvem produktu a cenou. V současnosti pracujeme na tom, aby se zpracování dělo na mobilním telefonu uživatele a aby vyhodnocování bylo dostatečně přesné. Dále bychom chtěli vyvinout řešení, které pracuje s fotografií celého regálu, aby bylo možné nabídnout uživateli širší pohled, nejen pohled zblízka na jednu položku. A v neposlední řadě se snažíme řešení zpřesnit tak, aby spolehlivě fungovalo ve všech řetězcích v České republice. Máme tedy před sebou ještě hodně práce, ale máme velkou motivaci a snažíme se vždy si najít potřebný čas.

Máte alespoň hrubý odhad, kdy bude moci Vaši aplikaci využívat širší veřejnost?

V současnosti je možné aplikaci využívat na požádání u nás v cloudu. Doufáme, že na nás nezávislé řešení, které by běželo v mobilním zařízení uživatele, bude dostupné do zhruba šesti měsíců, pokud nenarazíme na žádného zakopaného psa. Ale uvidíme, co přinesou další měsíce a jaké další projekty budeme muset řešit.

Vidíte do budoucna další možnosti, jak například už při vzniku komerčního produktu myslet i na lidi se speciálními potřebami? 

Nám tento projekt otevřel oči a dal nám novou perspektivu, jakým způsobem můžeme přeměnit jiné komerční projekty do této roviny nebo je rozšířit. Většina našich projektů je pro velké firmy, takže použití pro jednotlivce se speciálními potřebami je omezené, ale zjistili jsme, že například zajímavou oblastí může být zpracování textu. Konkrétně jde o nástroj na automatické hledání pracovních pozic na základě nahraného životopisu, se kterým jsme se také účastnili zmiňovaného hackathonu. Při vyhodnocování informací jako například zkušenost a obsah pozice nebo místo bydliště můžeme také zařadit informaci, že má žadatel o pozici nějaké postižení a najít mu optimální práci pro jeho handicap.

V rámci české firmy specializující se na strojové učení, DataSentics, která za Shelf Inspectorem stojí, se zabýváte mimo jiné zpracováním obrazu. Kde všude se v reálném světě využívá zpracování obrazu?

Zpracování obrazu se využívá upřímně skoro všude, často to ani není vidět. Jsou metody na úpravu fotografií a filtry, což jsou ty nejjednodušší metody, velká oblast je okolo autonomních vozidel a pak například v retailu. Tam se rozpoznání obrazu využívá při analýze vystaveného zboží, během monitorování provozu v prodejně, tvoření front, sledování nakupujících, odhalování krádeží. Dále se tato metoda používá také při zpracování satelitních snímků. Je to opravdu široké a jsou pořád nové modely a řešení. Při současné pandemii vznikala například řešení, která uměla detekovat, jestli má člověk na sobě roušku nebo jestli se někde nevyskytuje větší skupinka lidí blízko sebe a tak podobně.

My jsme například v jednom projektu pro českého výrobce piva vyhodnocovali kvalitu čepovaného piva v restauracích. Takže jsme na základě fotografie vyhodnocovali, jestli je správný poměr piva a pěny, jestli není natočená podmíra, jestli je správná struktura pěny, která zase vypovídá o kvalitě skladování piva, a tak podobně. Pro nás to bylo zábavné mimo jiné tím, že, jsme – samozřejmě mimo pracovní dobu – chodili do hospody a sbírali potřebný materiál.

Jaké trendy očekáváte v této oblasti do budoucna?

V oblasti retailu má tato oblast velký potenciál. Dále může brzy fungovat jakási virtuální zkušební kabinka, která mi po nahrání mé fotografie pomocí určitého algoritmu následně zpracuje, jak by na mě dané zboží mohlo vypadat. To samé může být využito při nákupu nábytku, kamera na mobilu by zaznamenala můj pokoj a daný algoritmus by ukázal, jak by vybraný nábytek vypadal v tomto pokoji. Existující řešení se zároveň budou zlepšovat například v oblasti autonomních automobilů. Nebo například už nyní je možné generovat postavy a obličeje nerozpoznatelné od reálných lidí, algoritmy strojového učení umí vytvořit nového člověka s novým obličejem, což je využitelné například v reklamním průmyslu. Zadavatel může nastavit parametry typu počet osob v místnosti, vzhled místnosti, téma, o kterém se dané postavy baví, a daný algoritmus pak může vytvořit nový reklamní spot. To už je sice pro mě hodně sci-fi, ale tato oblast se pořád posouvá, takže kdo ví. Z těch klasičtějších oborů je určitě obrovský potenciál ve zdravotnictví v oblasti diagnostiky snímků, to je oblast, která v tuto chvíli na využití strojového učení a rozpoznávání obrazu čeká.

Petr Míchal se věnuje data science a přes dva roky působí ve firmě DataSentics, kde se zaměřuje na zpracování obrazu a práci s prostorovými daty. Podílí se mj. na vývoji komerčního řešení Shelf Inspector a z něj odvozené aplikace pomáhající zrakově postiženým. Studoval na Matematicko-fyzikální fakultě v Praze se zaměřením na matematickou statistiku.

Newsletter