tévék. Konzolok. Projektorok és tartozékok. Technológiák. Digitális TV

Yandex számítógépes látás. Hogyan figyelnek minket a kamerák az orosz városok utcáin. És hogyan lehet megtéveszteni őket. A számítógép még nem érti, de már „lát”

A látás képessége, vagyis a körülöttünk lévő világgal kapcsolatos információk észlelése a látószervek segítségével az ember egyik fontos tulajdonsága. A képet megnézve szinte gondolkodás nélkül elmondhatjuk, mi is látszik rajta. Különbséget teszünk egyedi tárgyak között: ház, fa vagy hegy. Megértjük, melyik tárgy van közelebb hozzánk és melyik távolabb. Felismerjük, hogy a ház teteje piros, a fán pedig zöldek a levelek. Végül bátran kijelenthetjük, hogy képünk tájkép, és nem portré vagy csendélet. Mindezeket a következtetéseket pillanatok alatt levonjuk.

A számítógépek sok feladatot sokkal jobban képesek elvégezni, mint az emberek. Például sokkal gyorsabban számolnak. Egy ilyen egyszerűnek tűnő feladat azonban, mint például egy ház vagy egy hegy megtalálása a képen, összezavarhatja a gépet. Miért történik ez?

Az ember élete során megtanulja felismerni – vagyis megtalálni és másoktól megkülönböztetni – tárgyakat. Számtalanszor látott házakat, fákat, hegyeket: a valóságban és festményeken, fényképeken és filmeken egyaránt. Emlékszik, hogyan néznek ki bizonyos tárgyak különböző szögekből és különböző megvilágítás mellett.

A gépeket úgy hozták létre, hogy számokkal dolgozzanak. Viszonylag nemrégiben merült fel az igény, hogy látást biztosítsanak számukra. Autók rendszámainak felismerése, vonalkódok leolvasása a szupermarketben található árukon, térfigyelő kamerák felvételeinek elemzése, arcok keresése a fényképeken, olyan robotok létrehozása, amelyek képesek megtalálni (és elkerülni) az akadályokat – mindezek olyan feladatok, amelyek megkövetelik, hogy a számítógép képes legyen „látni” és értelmezni, amit lát. Számítógépes látásnak nevezzük azoknak a módszereknek a halmazát, amelyek segítségével megtaníthatja a gépet, hogy információt nyerjen ki egy képből - legyen az kép vagy videó.

Hogyan tanul a számítógép

Ahhoz, hogy a számítógép meg tudja találni mondjuk a házakat képeken, meg kell tanítani erre. Ehhez képzési mintát kell készíteni. Esetünkben ez egy képgyűjtemény lesz. Először is elég nagynak kell lennie (két-három példával lehetetlen megtanítani valamit), másodszor reprezentatívnak kell lennie (az adatok természetét kell tükröznie, amelyekkel dolgozunk), harmadszor pedig tartalmaznia kell mindkét pozitívumot. ("ezen a képen egy ház van") és negatív ("ezen a képen nincs ház") példák.


Miután összeállítottunk egy mintát, megjelenik a gépi tanulás. A képzés során a számítógép elemzi a mintából származó képeket, meghatározza, hogy mely jellemzők és jellemzők kombinációi jelzik, hogy a kép egy ház, és kiszámítja ezek jelentőségét. Ha a képzés sikeres volt (ellenőrzéseket végeznek ennek biztosítására), akkor a gép a megszerzett tudást a „gyakorlatban” tudja alkalmazni - azaz bármilyen képen házat találni.

Képelemzés

Az embernek nem kerül semmibe, ha egy képen kiemeli a fontosat és a lényegtelent. Ez sokkal nehezebb egy számítógép számára. Az emberrel ellentétben nem képekkel, hanem számokkal operál. A számítógép esetében a kép pixelek gyűjteménye, amelyek mindegyikének megvan a maga fényereje vagy színértéke. Annak érdekében, hogy a gép képet kapjon a kép tartalmáról, a képet speciális algoritmusok segítségével dolgozzák fel.

Először is, a kép feltárja a lehetőségeket jelentős helyeken- vagyis a javasolt objektumok vagy határaik. Ezt többféleképpen is meg lehet tenni. Vegyük például a Gauss-féle különbség (DoG) algoritmust. Ez azt jelenti, hogy az eredeti képet többször is Gauss-elmosódásnak vetik alá, minden alkalommal más elmosódási sugarat használva. Az eredményeket ezután összehasonlítják egymással. Ezzel a módszerrel azonosíthatja a kép legkontrasztosabb töredékeit - például fényes foltokat vagy szaggatott vonalakat.

Ha jelentős helyeket találtak, számokkal írják le őket. A kép töredékének numerikus formában történő rögzítését leírónak nevezzük. A leírók segítségével gyorsan, teljesen és pontosan összehasonlíthatja a képrészleteket anélkül, hogy maguk a töredékek kellenek. Különféle algoritmusok léteznek a leírók megszerzésére - például SIFT, SURF, HOG és még sokan mások.

Mivel a leíró az adatok numerikus leírása, a kép-összehasonlítás, a számítógépes látás egyik legfontosabb feladata, a számok összehasonlításából adódik. A leírók meglehetősen nagy számban vannak kifejezve, így összehasonlításuk jelentőségteljes lehet számítási erőforrások. A számítások felgyorsítása érdekében a leírók csoportokba vagy klaszterekbe vannak osztva. A különböző képekből származó hasonló leírók ugyanabba a klaszterbe esnek. A leírók klaszterekbe való felosztását klaszterezésnek nevezzük.

A klaszterezés után magát ezt a képleírót nem kell figyelembe venni; Csak annak a klaszternek a száma válik fontossá, amelynek leírói a leginkább hasonlítanak az adotthoz. A leíróról a klaszterszámra való átmenetet kvantálásnak, magát a klaszterszámot pedig kvantált leírónak nevezzük. A kvantálás jelentősen csökkenti a számítógépnek feldolgozandó adatmennyiséget.

A kvantált leírók alapján a számítógép olyan feladatokat hajt végre, mint az objektumfelismerés és a képek összehasonlítása. Felismerés esetén kvantált leírókat használnak egy osztályozó betanítására – egy olyan algoritmusra, amely elválasztja a házzal ellátott képeket a ház nélküli képektől. Kép-összehasonlítás esetén a számítógép összehasonlítja a különböző képek kvantált leíróinak halmazait, és következtetést von le arra vonatkozóan, hogy ezek a képek vagy az egyes töredékek mennyire hasonlóak. Ez az összehasonlítás az alapja a másolatok és a .

Ez csak egy megközelítés a képelemzéshez, amely elmagyarázza, hogyan „látja” a számítógép a tárgyakat. Vannak más megközelítések is. Így a neurális hálózatokat egyre gyakrabban használják képfelismerésre. Lehetővé teszik az osztályozáshoz fontos képi jellemzők származtatását közvetlenül a képzési folyamat során. A képekkel való munkavégzés saját módszereit szűk, meghatározott területeken is alkalmazzák - például vonalkódok olvasásakor.

Hol használják a számítógépes látást?

A felismerés képességében azonban az ember még mindig messze maga mögött hagyja a számítógépet. A gép csak bizonyos feladatokban – például rendszámok vagy géppel írt szöveg felismerésében – sikerült. A heterogén objektumok és tetszőleges jelenetek sikeres felismerése (természetesen bizonyos feltételek mellett igazi életet, nem laboratóriumok) a számítógép még mindig nagyon nehéz. Ezért amikor a Yandex.Images keresőjébe beírjuk a „karburátor” vagy a „táncoló gyerekek” szavakat, a rendszer nem magát a képeket elemzi, hanem főleg a hozzájuk tartozó szöveget.

Bizonyos esetekben azonban a számítógépes látás komoly segítséget jelenthet. Az egyik ilyen eset az arcokkal való munkavégzés. Tekintsünk két összefüggő, de jelentésükben eltérő feladatot: az észlelést és a felismerést.


Gyakran elég, ha egyszerűen megtalálunk (vagyis észlelünk) egy arcot a fényképen anélkül, hogy meghatároznánk, kihez tartozik. Így működik a „ ” szűrő a Yandex.Images alkalmazásban. Például a [formula 1] lekérdezés főleg versenyautókról készült fényképeket talál. Ha megadjuk, hogy az arcok iránt érdeklődünk, a Yandex.Pictures a versenyzők fényképeit jeleníti meg.

Más helyzetekben nemcsak meg kell találnia az arcot, hanem fel kell ismernie róla a személyt („Ez Vasya”). Ez a funkció a Yandex.Photos alkalmazásban érhető el. Felismeréskor a rendszer egy személyről mintaként már megjelölt fényképeket vesz, így a keresési terület jelentősen leszűkül. Ha van tíz olyan fényképe, amelyen Vasya már meg lett jelölve, nem lesz nehéz felismerni a tizenegyedik képen. Ha Vasya nem akarja, hogy látásból ismerjék, megtilthatja, hogy megcímkézze magát a fényképen.

A számítógépes látás egyik legígéretesebb alkalmazási területe a kiterjesztett valóság. Ez a neve annak a technológiának, amely virtuális elemeket (például szöveges promptokat) helyez a valós világ képére. Példa lehet pl. mobil alkalmazások, amelyek lehetővé teszik, hogy egy házról tájékozódjon egy telefon vagy táblagép kamerájának ráirányítva. A kiterjesztett valóságot már használják programokban, szolgáltatásokban és eszközökben, de még csak útja elején jár.

Fejlődéssel mobil eszközökés a videótechnológiák, a számítógépes látási feladatok különösen aktuálissá válnak. Manapság a számítógépes látást aktívan használják olyan területeken, mint az orvostudomány, a térképészet, a keresés, a videó megfigyelés és az önvezető autók.

Ez a kurzus részletesen megvizsgálja a számítógépes látás fő problémáinak megoldásait: képosztályozás, tárgyfelismerés és -detektálás, valamint képszegmentálás. Érintjük a képkeresés és a kézírás-felismerés témáit is.A kurzus első részében a hallgatók megismerkednek a klasszikus számítógépes látási algoritmusokkal és gyakorlati példákat elemeznek az OpenCV könyvtár segítségével. A kurzus második része a konvolúciós neurális hálózatokkal foglalkozik. Ebben a részben különös figyelmet szentelünk gyakorlati alkalmazása neurális hálózatok számítógépes látási feladatokhoz. Megismerkedünk a neurális hálózatokkal való munkavégzéshez használt népszerű könyvtárakkal is, mint például a Keras és a TensorFlow.

Tanár

Ruszlan Rakhimov

Végzett a Moszkvai Fizikai és Technológiai Intézetben, Szkolkovói Tudományos és Technológiai Intézetben. Kutatási fejlesztő a Huawei számítógépes látással foglalkozó csapatában.

A program fő témái

  • Elméleti alapok: formátumok, képkonverzió szűrőkkel, bevezetés az OpenCV könyvtárba
  • Változatlan jellemzők elkülönítése, összefűzés és hasonló képek keresése
  • Képszegmentálás, a képen lévő objektumok észlelése és követése
  • Bevezetés a neurális hálózatokba
  • Konvolúciós hálózatok képfeldolgozáshoz. A Keras keretrendszer bemutatása
  • A népszerű hálózati architektúrák áttekintése. Képzett hálózatok képnövelése és hangolása
  • Hálózati architektúrák áttekintése a képen lévő objektumok szegmentálásához és észleléséhez.
  • A kézírás-felismerési probléma megoldása neurális hálózatok segítségével

Kezdeti követelmények

Tudás alapprogram„Felső matematika” kurzus és a programozás alapjai (lehetőleg Python).

Órarend
2019. szeptember 25-től október 30-ig

Tehát a számítógépes látás olyan technikák összessége, amelyek lehetővé teszik, hogy megtanítsa a gépet, hogy információt nyerjen ki egy képből vagy videóból. Ahhoz, hogy a számítógép bizonyos tárgyakat megtaláljon a képeken, ki kell képezni. Ehhez egy hatalmas tréningmintát állítanak össze például fényképekből, amelyek egy része tartalmazza a kívánt tárgyat, míg a másik része éppen ellenkezőleg, nem. Ezután a gépi tanulás jön szóba. A számítógép elemzi a mintából származó képeket, meghatározza, hogy mely jellemzők és azok kombinációi jelzik a kívánt objektumok jelenlétét, és kiszámítja azok jelentőségét.

A képzés elvégzése után a számítógépes látás a gyakorlatban is használható. A számítógép esetében a kép pixelek gyűjteménye, amelyek mindegyikének megvan a maga fényereje vagy színértéke. Annak érdekében, hogy a gép képet kapjon a kép tartalmáról, speciális algoritmusok segítségével dolgozzák fel. Először is azonosítják a potenciálisan jelentős helyszíneket. Ezt többféleképpen is meg lehet tenni. Például az eredeti képet többször is Gauss-elmosódásnak vetik alá különböző elmosódási sugarak használatával. Az eredményeket ezután összehasonlítják egymással. Ez lehetővé teszi a legkontrasztosabb töredékek - fényes foltok és szaggatott vonalak - azonosítását.


Amint jelentős helyek találhatók, a számítógép számokkal írja le azokat. A kép töredékének numerikus formában történő rögzítését leírónak nevezzük. A leírók használatával meglehetősen pontosan összehasonlíthatja a képrészleteket anélkül, hogy magukat a töredékeket használná. A számítások felgyorsítása érdekében a számítógép fürtöt, vagy csoportokba osztja a leírókat. A különböző képekből származó hasonló leírók ugyanabba a klaszterbe esnek. A klaszterezés után csak annak a klaszternek a száma válik fontossá, amelynek leírói leginkább hasonlítanak az adotthoz. A leíróról a klaszterszámra való átmenetet kvantálásnak, magát a klaszterszámot pedig kvantált leírónak nevezzük. A kvantálás jelentősen csökkenti a számítógép által feldolgozandó adatok mennyiségét.


A kvantált leírók alapján a számítógép képes összehasonlítani a képeket és felismerni a bennük lévő tárgyakat. Összehasonlítja a különböző képekből származó kvantált leíró készleteket, és arra következtet, hogy mennyire hasonlóak ezek vagy az egyes töredékek. Ezt az összehasonlítást is használják keresőmotorok letöltött kép alapján kereshet.

Arcfelismerés Oroszországban

Hol és miért akarják használni?

Tömeges rendezvények

Az NtechLab kifejlesztett egy kamerarendszert, amely... Felismeri a szabálysértőket, és elküldi fényképeiket a rendőrségnek. A rendőrség is megjelenik kézi kamerák, gyanús embereket fényképezni, arcukat felismerni és adatbázisokból kideríteni, hogy kik ők.

Arcfelismerővel ellátott kamerákat tesztelnek a moszkvai metróban. Másodpercenként 20 ember arcát vizsgálják meg, és összevetik őket a keresett személyek adatbázisaival. Ha egyezés van, a kamerák adatokat küldenek a rendőrségnek. 2,5 hónapig keresték a rendszert. Ismeretes, hogy léteznek ilyen kamerák, de talán más állomásokon telepítették őket.

Az Otkritie Bank 2017 elején elindította az arcfelismerő rendszert. Összehasonlítja a látogató arcát az adatbázisban található fényképpel. A rendszerre az ügyfelek gyorsabb kiszolgálásához van szükség, de hogy pontosan hogyan, azt nem határozták meg. A jövőben az Otkritie távoli azonosításra kívánja használni a rendszert. 2018-ban hasonló rendszer, de a Rostelecom fejlesztéseinek meg kell jelenniük.

A lényeg az algoritmus

Milyen technológia teszi lehetővé a gépek számára az arcok felismerését

Szergej Miljajev

A számítógépes látás egy olyan algoritmus, amely magas szintű információkat nyer ki a képekből és videókból, ezáltal automatizálja az emberi vizuális észlelés bizonyos aspektusait. A gép számítógépes látása, csakúgy, mint egy személy normál látása, a megfigyelt jelenettel kapcsolatos szemantikai információk mérésének és megszerzésének eszköze. Segítségével a gép információt kap a tárgy méretéről, milyen alakú és milyen.

Az OpenCV számítógépes látási algoritmussal rendelkező kamera figyeli a gyerekeket a játszótéren

Minden a neurális hálózatokon alapul

Hogyan működik pontosan az arcfelismerés, egy példával

Szergej Miljajev: A gépek ezt a leghatékonyabban az alapján teszik meg gépi tanulás, vagyis amikor valamilyen parametrikus modell alapján döntenek anélkül, hogy a programkóddal leírnák az összes szükséges döntési szabályt. Például az arcfelismeréshez egy neurális hálózat kivonja a jellemzőket egy képből, és minden egyes személy arcának egyedi ábrázolását kapja, amelyet nem befolyásol a fejének térbeli tájolása, szakáll vagy smink jelenléte vagy hiánya, világítás, életkorral összefüggő változások és így tovább.

A számítógépes látás nem reprodukálódik vizuális rendszer emberi, hanem csak bizonyos szempontok modellezését végzi a különféle problémák megoldása érdekében

Szergej Miljajev

A VisionLabs vezető kutatója

A manapság legelterjedtebb számítógépes látási algoritmusok neurális hálózatokon alapulnak, amelyek a processzorok teljesítményének és adatmennyiségének növekedésével nagy megoldási potenciált mutattak. széles körű feladatokat. A kép minden egyes töredékét olyan paraméterekkel rendelkező szűrők segítségével elemezzük, amelyeket a neurális hálózat alkalmaz a kép jellemző tulajdonságainak megkeresésére.

Példa

Rétegek neurális hálózat Sorozatosan dolgozzák fel a képet, minden következő rétegnél egyre több absztrakt jellemzőt számítanak ki, az utolsó rétegeken lévő szűrők pedig a teljes képet látják. Az első rétegekben az arcok felismerésekor a neurális hálózat olyan egyszerű jellemzőket határoz meg, mint a határvonalak és az arcvonások, majd a mélyebb rétegekben a szűrők többet tudnak érzékelni. összetett jelek- például két egymás melletti kör nagy valószínűséggel azt jelenti, hogy ezek szemek és így tovább.

Az OpenCV számítógépes látás algoritmusa meghatározza, hogy hány ujj legyen látható neki

A számítógép tudja, mikor hazudnak neki

Valóban becsaphat az ember? okos számítógép, három példa

Oleg Grincsuk

A VisionLabs vezető kutatója

A csalók megpróbálhatnak kiadni egy másik személyt annak érdekében, hogy hozzáférjenek fiókjaihoz és adataihoz, vagy becsaphatják a rendszert, hogy az először ne tudja felismerni őket. Tekintsük mindkét lehetőséget.

Fotó, videó egy másik személyről vagy nyomtatott maszk

A VisionLabs platform az életszerűség ellenőrzésével küzd ezekkel a megtévesztési módszerekkel, vagyis ellenőrzi, hogy a kamera előtt lévő tárgy életben van-e. Ez lehet például az interaktív élénkítés, amikor a rendszer megkér egy személyt, hogy mosolyogjon, pislogjon, vagy vigye közelebb a kamerát vagy az okostelefont az arcához.

Az ellenőrzések halmazát lehetetlen megjósolni, mivel a platform véletlenszerű sorozatot hoz létre több tízezer kombinációval - irreális több ezer videót rögzíteni a mosolyok és más érzelmek kívánt kombinációival. És ha a kamera közeli infravörös érzékelőkkel vagy mélységérzékelővel van felszerelve, akkor ezek továbbítják a rendszert további információk, amely egy képkockából segít meghatározni, hogy az előtte álló személy valódi-e.

Ezenkívül a rendszer elemzi a különböző textúrákból származó fény visszaverődését, valamint az objektum környezetét. Így szinte lehetetlen megtéveszteni a rendszert.

Ebben az esetben a hozzáféréshez elegendő másolat reprodukálásához a csalónak hozzá kell férnie a forráskódhoz, és a rendszernek a külső megjelenés változásaira adott reakciói alapján fokozatosan módosítania kell, hogy azzá váljon. pontos másolata egy másik személy.

A támadónak pontosan az ellenőrzés logikáját és elvét kell feltörnie. De egy harmadik fél felhasználó számára ez csak egy kamera, egy fekete doboz, amelyre nézve lehetetlen megérteni, hogy milyen ellenőrzési lehetőség van benne. Ezenkívül az ellenőrzési tényezők esetenként eltérőek, így nem használhat semmilyen univerzális algoritmust a hackeléshez.

Több felismerési hiba esetén a rendszer figyelmeztető jelzést küld a szervernek, ami után a támadó hozzáférését blokkolja. Tehát még abban a valószínűtlen esetben is nehéz feltörni a rendszert, ha a kódhoz hozzáférünk, mivel a támadó nem tudja vég nélkül megváltoztatni a megjelenését, amíg a felismerés meg nem történik.

Nagy napszemüveg, sapka, sál, takarja el az arcát a kezével

A rendszer nem fog tudni felismerni egy személyt, ha az arcának nagy része rejtve van, pedig a neurális hálózat sokkal jobban felismeri az arcokat, mint egy embert. De ahhoz, hogy teljesen elrejtőzzön az arcfelismerő rendszer elől, az embernek mindig eltakarnia kell az arcát a kamerák elől, és ezt a gyakorlatban meglehetősen nehéz megvalósítani.

A számítógépes látás felülmúlja az emberi látást

Pontosan mit és miért, egy példával

Jurij Minkin

A számítógépes látórendszerek alapvető működési elveikben hasonlóak az emberi látáshoz. Az emberekhez hasonlóan nekik is vannak olyan eszközeik, amelyek felelősek az információgyűjtésért, ezek a videokamerák, a szem analógjai és annak feldolgozása - számítógép, az agy analógja. A számítógépes látás azonban jelentős előnnyel rendelkezik az emberi látással szemben.

Az embernek van egy bizonyos küszöbe arra vonatkozóan, hogy mit láthat, és milyen információt nyerhet ki a képből. Ez a küszöb pusztán élettani okokból nem léphető túl. És a számítógépes látás algoritmusai csak javulni fognak. Van határtalan lehetőségek edzésre

Jurij Minkin

A Kognitív Technológiák Osztályának vezetője

Jó példa erre a számítógépes látástechnika az önvezető autókban. Ha egy személy csak kis számú, jelentősen korlátozott számú embernek tudja megtanítani tudását az út helyzetéről, akkor a gépek azonnal át tudják adni az egyes objektumok észlelésével kapcsolatos összes meglévő tapasztalatot az összes új rendszernek, amelyet több ezer vagy akár milliós flottára telepítenek. autók.

Példa

Tavaly év végén a Cognitive Technologies szakemberei kísérleteket végeztek az emberi képességek, ill. mesterséges intelligencia az úti jelenetben lévő tárgyak észlelésének problémáiban. És most, bizonyos esetekben az AI nemhogy nem rosszabb, de még jobb is az emberi képességeknél. Például jobban tudta felismerni az útjelző táblákat, ha azokat részben eltakarta a fák lombja.

A bíróságokon számítógépeket használnak

Tanúsíthat-e egy számítógép valaki ellen? Szergej Izralit:

Jelenleg a törvény kifejezetten csak bizonyos esetekben szabályozza a „számítógépről szerzett” adatok néhány jelentős körülmény, köztük a bűncselekmények bizonyítékaként történő felhasználását. Szabályozott például a sebességkorlátozást megsértő autók rendszámát felismerő kamerák használata. INáltalános eset

ezek az adatok bármely más bizonyítékkal együtt felhasználhatók, amelyet a nyomozás vagy a bíróság figyelembe vehet vagy elutasíthat. Ugyanakkor az eljárási jogszabályok meghatározzák a bizonyítékokkal való munka általános eljárását - vizsgálatot, amelynek keretében megállapítják, hogy a bemutatott jegyzőkönyv valóban megerősít-e bizonyos tényeket, vagy az információt így vagy úgy elferdítették.

Gépi látás. Mi ez és hogyan kell használni? Optikai forrás képfeldolgozás Gépi látás - Ezt a mesterséges intelligencia, különösen a robotika, valamint a való világ tárgyairól készült képek készítésére, azok feldolgozására és a kapott adatok megoldási felhasználására szolgáló kapcsolódó technológiák különféle fajták alkalmazott feladatok (teljes vagy részleges) emberi részvétel nélkül.

Történelmi áttörések a gépi látásban

Vision rendszer összetevői

  • Egy vagy több digitális ill analóg kamerák(fekete-fehér vagy színes) megfelelő optikával a képalkotáshoz
  • Szoftver képek feldolgozás céljából történő előállításához. Analóg kamerák esetén ez egy képdigitalizáló
  • Processzor (modern PC többmagos processzor vagy beépített processzor, például - DSP)
  • Gépi látás szoftver, amely fejlesztőeszközöket biztosít egyedi alkalmazások szoftver.
  • Bemeneti/kimeneti berendezések vagy kommunikációs csatornák a megállapítások jelentésére
  • Intelligens kamera: egy olyan eszköz, amely a fenti pontok mindegyikét tartalmazza.
  • Nagyon speciális fényforrások (LED-ek, fénycsövek és halogénlámpák stb.)
  • Speciális szoftveralkalmazások képfeldolgozáshoz és releváns tulajdonságok észleléséhez.
  • Szenzor az érzékelési részek szinkronizálására (gyakran optikai vagy mágneses érzékelő) képrögzítés és -feldolgozás céljából.
  • Meghajtók egy bizonyos forma a hibás alkatrészek szétválogatására vagy eldobására használják.
A gépi látás elsősorban az ipari alkalmazásokra koncentrál, pl. autonóm robotok valamint szemrevételezéses ellenőrző és mérőrendszerek. Ez azt jelenti, hogy a képérzékelő technológia és a vezérléselmélet a videoadatok feldolgozásához kapcsolódik a robot vezérléséhez, és a kapott adatok valós idejű feldolgozása szoftverben vagy hardverben történik.

A képfeldolgozás és képelemzés elsősorban a 2D-s képekkel való munkavégzésre koncentrál, azaz. hogyan lehet az egyik képet a másikra konvertálni. Például pixelenkénti műveletek a kontraszt növelésére, az élek kiemelésére, a zaj eltávolítására szolgáló műveletek vagy geometriai átalakítások, például a kép elforgatása. Ezek a műveletek azt feltételezik, hogy a képfeldolgozás/elemzés a képek tartalmától függetlenül működik.

A számítógépes látás az egy vagy több képre vetített háromdimenziós jelenetek feldolgozására összpontosít. Például egy 3D-s jelenet szerkezetének vagy egyéb információinak visszaállításával egy vagy több képből. A számítógépes látás gyakran többé-kevésbé összetett feltevésektől függ, hogy mit ábrázolnak a képek.

Létezik egy vizualizáció nevű terület is, amely eredetileg a képalkotás folyamatához kapcsolódott, de olykor feldolgozással, elemzéssel is foglalkozott. Például a radiográfia videoadatok elemzésével működik orvosi alkalmazásokhoz.

Végül a mintafelismerés egy olyan terület, amely használ különféle módszerek videó adatokból való információszerzés, főként statisztikai megközelítés alapján. Ennek a területnek a nagy részét ezeknek a módszereknek a gyakorlati alkalmazásának szentelik.

Így arra a következtetésre juthatunk, hogy a „gépi látás” fogalmába ma beletartoznak: számítógépes látás, vizuális mintafelismerés, képelemzés és -feldolgozás stb.

Számítógépes látási feladatok

  • Elismerés
  • Azonosítás
  • Érzékelés
  • Szövegfelismerés
  • 3D alakzat visszaállítása 2D képekből
  • Mozgásbecslés
  • Jelenet helyreállítása
  • Kép helyreállítása
  • Bizonyos típusú struktúrák azonosítása képeken, képszegmentálás
  • Optikai áramláselemzés

Elismerés


A számítógépes látás, a képfeldolgozás és a gépi látás klasszikus problémája annak meghatározása, hogy a videoadatok tartalmaznak-e valamilyen jellegzetes tárgyat, jellemzőt vagy tevékenységet.

Ezt a problémát az ember megbízhatóan és könnyen meg tudja oldani, de a számítógépes látásban általános esetben még nem sikerült kielégítően megoldani: véletlenszerű objektumok véletlenszerű helyzetekben.

Egy vagy több előre meghatározott vagy tanult objektum vagy objektumosztály felismerhető (általában a képen elfoglalt kétdimenziós helyzetükkel vagy a jelenetben elfoglalt háromdimenziós helyzetükkel együtt).

Azonosítás


Egy osztályhoz tartozó objektum egyedi példányát felismeri.
Példák: egy adott emberi arc vagy ujjlenyomat vagy jármű azonosítása.

Érzékelés


A videoadatokat egy bizonyos feltétel ellenőrzi.

A viszonylag egyszerű és gyors számításokon alapuló detektálást néha arra használják, hogy kis területeket keressenek az elemzett képen, amelyeket aztán erőforrásigényesebb technikákkal elemeznek a helyes értelmezés érdekében.

Szövegfelismerés


Képek keresése tartalom szerint: Az összes kép megkeresése egy nagy képhalmazban, amelyek tartalma többféleképpen van meghatározva.

Pozícióbecslés: Egy adott tárgy kamerához viszonyított helyzetének vagy tájolásának meghatározása.

Optikai karakterfelismerés: Karakterek felismerése nyomtatott vagy kézzel írt szöveg képeiben (általában a szerkesztéshez vagy indexeléshez legkényelmesebb szövegformátumba történő fordításhoz. Például ASCII).

A 3D-s alakzat visszaállítása 2D-s képekből a mélységtérkép sztereó rekonstrukciójával, a normál mező és a mélységtérkép rekonstrukciójával féltónusos kép árnyékolásából, mélységtérkép textúrából való rekonstrukciójával és az alakzat elmozdulásból történő meghatározásával történik.

Példa 3D alakzat visszaállítására 2D képből

Mozgásbecslés

Számos mozgásbecslési feladat, amelyek során egy képsorozatot (videóadatokat) dolgoznak fel a kép vagy a 3D jelenet egyes pontjainak sebességének becslése érdekében. Ilyen feladatok például: háromdimenziós kamera mozgásának meghatározása, követés, vagyis egy tárgy (például autók vagy emberek) mozgásának követése

Jelenet helyreállítása

Két vagy több jelenetkép vagy videoadat van megadva. A jelenetrekonstrukció feladata a jelenet háromdimenziós modelljének újraalkotása. A legegyszerűbb esetben egy modell lehet háromdimenziós térben lévő pontok halmaza. A kifinomultabb módszerek a teljes 3D-s modellt reprodukálják.

Kép helyreállítása


A kép-helyreállítás feladata a zaj (érzékelőzaj, mozgó tárgy elmosódása stb.) eltávolítása.

A probléma megoldásának legegyszerűbb módja az különféle típusok szűrők, például aluláteresztő vagy középáteresztő szűrők.

Több magas szintű A zajeltávolítás úgy érhető el, hogy először elemezzük a videoadatokat különféle struktúrákra, például vonalakra vagy élekre, majd ezek alapján vezéreljük a szűrési folyamatot.

Kép helyreállítása

Optikai áramláselemzés (a pixelek mozgásának megállapítása két kép között).
Számos mozgásbecslési feladat, amelyek során egy képsorozatot (videóadatokat) dolgoznak fel a kép vagy a 3D jelenet egyes pontjainak sebességének becslése érdekében.

Ilyen feladatok például: háromdimenziós kameramozgás meghatározása, követés, i.e. egy tárgy (például autók vagy emberek) mozgásának követése.

Képfeldolgozási módszerek

Pixel számláló

Megszámolja a világos vagy sötét képpontok számát.
A pixelszámláló segítségével a felhasználó kiválaszthat egy téglalap alakú területet a képernyőn egy érdekes helyen, például ott, ahol az elhaladó emberek arcát várja. A kamera azonnal tájékoztatást ad a téglalap oldalai által képviselt pixelek számáról.

A pixelszámláló segítségével gyorsan ellenőrizheti, hogy egy felszerelt kamera megfelel-e a szabályozási vagy ügyfél-képpontfelbontási követelményeknek, például a kamerával felügyelt ajtókon belépő emberek arcán vagy rendszámfelismerési célból.

Binarizálás


A szürkeárnyalatos képet binárissá alakítja (fehér és fekete képpontok).
Az egyes pixelek értéke hagyományosan „0” és „1” kódolású. A „0” értéket hagyományosan háttérnek vagy háttérnek, az „1” pedig az előtérnek nevezik.

A digitális bináris képek tárolásakor gyakran bittérképet használnak, ahol egy bit információ egy pixel megjelenítésére szolgál.

Továbbá, különösen a technológiai fejlesztés korai szakaszában, a két lehetséges szín a fekete és a fehér volt, ami nem kötelező.

Szegmentáció

Alkatrészek keresésére és/vagy számlálására szolgál.

A szegmentálás célja egy kép megjelenítésének egyszerűsítése és/vagy megváltoztatása, hogy az egyszerűbb és könnyebben elemezhető legyen.

A képszegmentálást általában tárgyak és határvonalak (vonalak, görbék stb.) kiemelésére használják a képeken. Pontosabban, a képszegmentálás az a folyamat, amelynek során a kép minden egyes pixeléhez címkéket rendelnek úgy, hogy az azonos címkével ellátott képpontok közös vizuális jellemzőkkel rendelkezzenek.

A képszegmentálás eredménye a teljes képet együttesen lefedő szegmensek halmaza, vagy a képből kinyert kontúrok halmaza. A szegmensben lévő összes képpont hasonló bizonyos jellemző vagy számított tulajdonságokban, például színben, fényerőben vagy textúrában. A szomszédos szegmensek jelentősen eltérnek ebben a tulajdonságban.

Vonalkódok olvasása


Vonalkód - grafikus információk, amelyet a termékek felületére, jelölésére vagy csomagolására alkalmaznak, lehetővé téve annak leolvasását technikai eszközöket- fekete-fehér csíkok vagy más geometriai alakzatok sorozata.
A gépi látásban vonalkódokat használnak az 1D és 2D kódok dekódolására, amelyeket gépi olvasásra vagy beolvasásra terveztek.

Optikai karakterfelismerés

Optikai karakterfelismerés: szövegek, például sorozatszámok automatikus olvasása.

Az OCR a könyvek és dokumentumok konvertálására szolgál elektronikus nézet, az üzleti számviteli rendszerek automatizálására vagy szövegek közzétételére egy weboldalon.

Az optikai szövegfelismerés lehetővé teszi a szöveg szerkesztését, szavak vagy kifejezések keresését, kompaktabb formában való tárolását, anyagok megjelenítését vagy nyomtatását minőségromlás nélkül, információk elemzését, valamint a beszédből szöveggé történő elektronikus fordítást, formázást vagy konvertálást.

A LabView-ban írt programom képekkel való munkavégzéshez

A számítógépes látást a szupravezető anyagok roncsolásmentes minőségellenőrzésére használták.

Bevezetés. Az átfogó biztonság (mind a terrorizmus elleni és az objektumok mechanikai biztonsága, mind a mérnöki rendszerek technológiai biztonsága) biztosításával kapcsolatos problémák megoldása jelenleg az objektumok aktuális állapota feletti ellenőrzés szisztematikus megszervezését igényli. Az objektumok jelenlegi állapotának monitorozásának egyik legígéretesebb módja az optikai és optoelektronikai módszerek, amelyek az optikai forrás videoképeinek feldolgozására szolgáló technológián alapulnak. Ide tartoznak: a képekkel való munkavégzésre szolgáló programok; legújabb módokon képfeldolgozás; képek készítésére, elemzésére és feldolgozására szolgáló berendezések, pl. a számítógépes és gépi látás területéhez kapcsolódó eszközök és módszerek összessége. A számítógépes látás olyan általános technikák, amelyek lehetővé teszik a számítógépek számára, hogy lássák és felismerjék a három- vagy kétdimenziós objektumokat, akár mérnöki, akár nem mérnöki jellegűek. A számítógépes látással való munkavégzéshez digitális vagy analóg bemeneti/kimeneti eszközökre, valamint számítógépes hálózatokés IP-helyelemzők, amelyek célja a gyártási folyamat vezérlése és az információk lehető legrövidebb időn belüli operatív döntések előkészítése.

A probléma megfogalmazása. Ma a tervezett számítógépes látórendszerek fő feladata továbbra is a komplexum üzemeltetési felelősségi területén véletlenszerűen elhelyezkedő potenciális kockázati objektumok felderítése, felismerése, azonosítása és minősítése. A felsorolt ​​problémák megoldását célzó, jelenleg létező szoftvertermékeknek számos jelentős hátránya van, nevezetesen: az optikai képek nagy részletességével összefüggő jelentős bonyolultság; nagy energiafogyasztás és meglehetősen szűk képességtartomány. A potenciálisan veszélyeztetett objektumok felderítési feladatainak kiterjesztése a véletlenszerű objektumok véletlenszerű helyzetekben, véletlenszerű helyen történő keresésének területére, elérhető szoftver termékek még szuperszámítógép használatával sem lehetséges.

Cél. Fejlesztés univerzális program optikai forrás képeinek feldolgozása, adatfolyamos adatelemzés lehetőségével, vagyis a programnak könnyűnek és gyorsnak kell lennie, hogy kis méretű számítógépes eszközön rögzíthető legyen.

Feladatok:

  • a program matematikai modelljének kidolgozása;
  • program írása;
  • a program tesztelése laboratóriumi kísérletben, a kísérlet teljes előkészítésével és lebonyolításával;
  • a program kapcsolódó tevékenységi területeken történő felhasználási lehetőségeinek kutatása.

A program relevanciáját a következők határozzák meg:

A programfejlesztés relevanciájának elemzése.
  • olyan képfeldolgozó programok hiánya a szoftverpiacon, amelyek részletes elemzést nyújtanak az objektumok mérnöki összetevőiről;
  • folyamatosan növekvő követelmények a vizuális információk megszerzésének minőségével és sebességével szemben, élesen növelve a képfeldolgozó programok iránti igényt;
  • meglévő programok iránti igény nagy teljesítményű, megbízható és egyszerű a felhasználó szemszögéből;
  • Nagy teljesítményű programokra és egyszerű kezelésre van szükség, amit korunkban rendkívül nehéz megvalósítani. Én például vettem Adobe Photoshop. Adott grafikus szerkesztő harmonikus kombinációja a funkcionalitásnak és az átlagfelhasználó számára egyszerű használatnak, de ebben a programban lehetetlen összetett képfeldolgozó eszközökkel dolgozni (például képelemzés matematikai összefüggés (függvény) felépítésével vagy integrált képfeldolgozás);
  • a professzionális vizuális információfeldolgozó programok magas költsége. Ha szoftver minőség, akkor az ára rendkívül magas, akár egy adott programkészlet egyedi funkcióitól függően is. Az alábbi grafikon a program egyszerű analógjai közötti ár/minőség összefüggést mutatja.

A problémamegoldás egyszerűsítésére ebből a típusból, Kidolgoztam egy matematikai modellt és programot írtam egy számítógépes eszközhöz a képelemzéshez a forrásképek egyszerű transzformációival.

A program olyan transzformációkkal dolgozik, mint a binarizálás, a fényerő, a kép kontraszt stb. A program működési elvét szupravezető anyagok elemzésének példáján mutatjuk be.

Az Nb3Sn alapú kompozit szupravezetők létrehozásakor a bronz és a nióbium térfogataránya, a benne lévő szálak mérete és száma, eloszlásuk egyenletessége a bronzmátrix keresztmetszetében, valamint a diffúziós akadályok és stabilizáló anyagok jelenléte változik. . A vezetőben lévő nióbium adott térfogati hányadánál a szálak számának növekedése ennek megfelelően átmérőjük csökkenéséhez vezet. Ez az Nb/Cu-Sn kölcsönhatási felület észrevehető növekedéséhez vezet, ami jelentősen felgyorsítja a szupravezető fázis növekedési folyamatát. A szupravezető fázis mennyiségének ilyen növekedése a vezetőben lévő szálak számának növekedésével biztosítja a szupravezető kritikus jellemzőinek növekedését. E tekintetben szükség van egy olyan eszközre, amely szabályozza a szupravezető fázis térfogati hányadát a végtermékben (kompozit szupravezető).

A program megalkotásakor figyelembe vették a szupravezető kábelek előállításához felhasznált anyagok kutatásának fontosságát, hiszen ha a nióbium és a bronz aránya nem megfelelő, akkor vezetékrobbanás lehetséges, és ennek következtében emberáldozatok, anyagi károk. költségek és időveszteség. Ez a program lehetővé teszi a vezetékek minőségének meghatározását az objektum kémiai és fizikai elemzése alapján.

Program blokkvázlata


A kutatási szakaszok leírása.

1. szakasz. Mintaelőkészítés: kompozit szupravezető vágása elektromos kisülési gépen; a mintát műanyag mátrixba préseljük; a minta tükörfényű polírozása; a minta maratása a nióbiumszálak kiemelésére egy bronzmátrixon. Préselt kompozit szupravezető minták mintáit nyertük;

2. szakasz. Képalkotás: metallográfiai képek készítése pásztázó elektronmikroszkóp segítségével.

3. szakasz. Képfeldolgozás: metallográfiai képen a szupravezető fázis térfogati hányadának meghatározására szolgáló eszköz létrehozása; statisztikailag szignifikáns adatok halmaza egy adott típusú mintán. Különféle képfeldolgozó eszközök matematikai modelljei készültek; létre szoftverfejlesztés megbecsülni a szupravezető fázis térfogati hányadát; a program leegyszerűsödött több matematikai függvény egyesítésével; a bronzmátrixban a nióbiumszálak térfogati hányadának átlagos értéke 24,7±0,1% volt. Az eltérés alacsony százaléka a kompozit huzal szerkezetének nagy megismételhetőségét jelzi.

Kompozit szupravezetők elektronmikroszkópos felvételei

Képfeldolgozási módszerek a programban.

  • Azonosítás- egy osztályhoz tartozó objektum egyedi példányát felismeri.
  • Binarizálás– a színes (vagy szürkeárnyalatos) kép kétszínű fekete-fehérré alakításának folyamata.
  • Szegmentáció az elválasztás folyamata digitális kép több szegmensre (sok pixelre, más néven szuperpixelekre).
  • Erózió– összetett folyamat, amelyben egy szerkezeti elem a kép összes pixelén áthalad. Ha egy helyen a szerkezeti elem minden egyes pixele egybeesik a bináris kép egyetlen pixelével, akkor a szerkezeti elem központi pixelének logikai összeadása történik a kimeneti kép megfelelő pixelével.
  • Dilatáció- egy kép vagy a kép kiválasztott területének konvolúciója egy bizonyos kernellel. A mag bármilyen alakú és méretű lehet. Ebben az esetben egyetlen vezető pozíció kerül kiosztásra a kernelben, amelyet a konvolúció kiszámításakor az aktuális pixellel kombinálunk.

Program képletek

Binarizációs képlet (Otsu módszer):

Eróziós képlet:

Dilatációs képlet:

A kitágulás és az erózió mintája

Színküszöb szegmentálási képletek:

A fényerő gradiens moduljának meghatározása minden képpixelhez:

Küszöb számítás:

Használt felszerelés

Program interfész



Kapcsolódó kiadványok