Nova tècnica de visió per computador per comptar aglomeracions de persones

Tècniques de visió artificial per comptar aglomeracions de persones

Investigadors del CVC-UAB i de la Universitat de Florència han desenvolupat una nova tècnica basada en un algorisme que permet estimar el nombre de persones dins d’aglomeracions en imatges de forma més precisa que fins ara, amb una franja d'error d'un 10 a 20%.

27/02/2018

Comptar el nombre de persones en grans aglomeracions en espais oberts no resulta fàcil i segons les metodologies emprades les xifres poden variar substancialment. Ara, els investigadors Xialei Liu i Joost Van de Weijer, del Centre de Visió per Computador -acreditat amb el segell TECNIO d'ACCIÓ-, en un estudi conjunt amb la Universitat de Florència, han desenvolupat un algorisme que fa servir tècniques de visió artificial per poder estimar el nombre de persones en imatges amb una franja d’error d’un 10 a 20%, la més baixa aconseguida fins avui dins d’aquest àmbit. La nova tècnica l’han donada a conèixer en el marc del Mobile World Congress, a Barcelona.

Un software d’aquest estil pot ser imprescindible dins l’àrea de la vídeo seguretat, monitoratge o anàlisi de comportament. Fins ara, la problemàtica científica era evident: distorsions de perspectiva, distribució desigual, il·luminació complexa, variació d’escales, i un llarg etcètera, feien que els algorismes de visió artificial no poguessin ser capaços de comptar números de caps dins d’una imatge. Els investigadors del Centre de Visió per Computador han aconseguit un algorisme estable fent ús de mapes de densitat, que ajuda a eliminar la majoria d’aquestes distorsions.

A més, la tècnica elimina la major problemàtica: la necessitat d’imatges prèviament processades per entrenar als algorismes de visió. Ensenyar als ordinadors a comptar grans aglomeracions necessita imatges que hagin estat tractades per un humà. Aquest és el qui li diu a l’ordinador què hi ha dins de cada píxel (com un mestre quan ensenya a un nen una matèria que mai ha cursat). El Dr. Van de Weijer i el seu equip eliminen aquesta variable, fent el procés molt més ràpid i econòmic. Com? Ensenyant als ordinadors a comparar imatges.

El procés és senzill en essència, però complex en la pràctica: se li dóna a l’ordinador una primera imatge, i després se li donen retalls d’aquesta. Llavors, l’ordinador ha d’aprendre que hi ha menys gent en la segona fotografia (la retallada) que en la primera (l’original). Aquesta tècnica, afinada, és la base de l’aprenentatge d’aquest nou algorisme.

La visió artificial necessita una ingent quantitat d’imatges per poder aprendre. Aquestes imatges són difícils d'obtenir, especialment les que han de ser anotades i processades per humans per a aconseguir que l’ordinador ho entengui. Amb aquest algorisme, Van de Weijer i el seu equip obren les portes a possibilitats immenses dins l’àmbit de seguretat i vigilància, i poden ajudar en el debat obert sobre la quantitat de persones en diferents mobilitzacions ciutadanes al voltant del món. Els investigadors presentaran la seva nova tècnica en el prestigiós CVPR (Computer Vision & Pattern Recognition Conference) d’aquest any que tindrà lloc a Salt Lake City, Utah, el proper mes de juny.