Mik a pMelyek a 3D gépi látás alapelvei?A 3D gépi látás alapelvei? - Blog

A 3D-s látás egy multidiszciplináris terület, amely magában foglalja a számítógépes grafikát, a számítógépes látást és a mesterséges intelligenciát. Célja, hogy a gépek megértsék és feldolgozzák az információkat háromdimenziós térben, ezáltal elérjék a tárgyak és jelenetek mélységérzékelését, felismerését és megértését.

Fő feladatok

3D rekonstrukció

3D jelenetek mélységbecslése vagy tárgyfelületek digitális mintavétele, valamint 3D adatok feldolgozása és megjelenítése; monokuláris rekonstrukció, binokuláris rekonstrukció, strukturált fény-alapú rekonstrukció, lézer-alapú rekonstrukció; nagy-léptékű 3D rekonstrukció, mobil 3D rekonstrukció.

Pózbecslés

Kamerák vagy objektumok helyzetének és tájolásának kiszámítása háromdimenziós fizikai térben, valamint valós idejű-követés.

3D Megértés

Objektumok észlelése, felismerése és visszakeresése, valamint jelenetek vagy objektumok szegmentálása és szemantikai címkézése.

Működési elvek

A 3D-s képalkotás az egyik legfontosabb információérzékelési módszer az ipari robotokban, és optikai és nem{1}}optikai képalkotási módszerekre osztható. Jelenleg az optikai módszerek a legelterjedtebbek.

Repülési idő--(TOF) módszer

Ez a módszer a fénykibocsátás és a vétel közötti időkülönbség mérésével számítja ki az objektum távolságát. Példaként egy TOF-kamerát veszünk, minden pixel a fény repülési időkülönbségét használja fel az objektum mélységének meghatározására. A klasszikus mérési módszerekben a detektorrendszer akkor kezdi meg az időzítést, amikor fényimpulzust bocsát ki, eltárolja a visszaút idejét, amikor megkapja a célfény visszhangját, és egy képlet alapján megbecsüli a céltávolságot.

Közvetlen TOF-ra (DTOF) és közvetett TOF-ra (I-TOF) osztva. A DTOF-ot általában egy-pontos mérési rendszerekben használják, és a terület-széles 3D képalkotás eléréséhez gyakran szkennelési technológiára van szükség; Az I-TOF közvetetten extrapolálja az oda-vissza út idejét a fényintenzitás időre szabott-méréseiből, így nincs szükség precíz időzítésre, és jelenleg kereskedelmi forgalomba hozott megoldás a TOF kamerákon alapuló elektronikus és optikai keverők számára. A TOF-képalkotás nagy látómezőre, nagy-távolságra, alacsony-pontosságra és alacsony-költségű 3D-s képalkotásra használható, és intelligens pilóta nélküli rendszerekben (például robotokban, pilóta nélküli járművekben, drónokban stb.) környezetérzékelésre használható.

Strukturált fényvetítés 3D képalkotás

Strukturált fényvetítés A 3D képalkotás jelenleg a 3D-s látás észlelésének fő módszere a robotokban. A projektor egy meghatározott strukturált fénymegvilágítási mintát vetít a célobjektumra, például csíkokat vagy szürkekód-mintákat, a kamera pedig rögzíti a célpont által modulált képet. A tárgy felületének hullámossága miatt a strukturált fénymintázat deformálódik a tárgy felületén. A képek feldolgozásával és vizuális modellekkel a deformáció előtti és utáni minták összehasonlításával, valamint a minta torzításának elemzésével kiszámítható a célobjektum felületének minden pontjának háromdimenziós koordinátainformációja.

A robotos kéz{0}}szemrendszer-alkalmazásokban olyan forgatókönyvekben, ahol nincs szükség nagy 3D mérési pontosságra (például palettázás, lerakás és 3D-s megragadás), igen népszerű a pszeudo-véletlenszerű foltmintázatok kivetítése a cél 3D-s információinak megszerzése érdekében. Ezt a módszert gyakran használják az ipari ellenőrzésben és a 3D modellezésben, és gyorsan 3D-s adatokat kaphat az objektum felületéről. A strukturált képalkotó rendszer több projektorból és kamerából áll. A gyakori szerkezeti formák a következők: egy kivetítős{10}}egy kamerás, egy kivetítős-két kamera, egy kivetítős-több kamerás, egykamerás-két projektor és egykamerás{14}}több kivetítő.

A strukturált fényvetítés 3D képalkotás alapvető működési elve a következő: a projektor egy meghatározott strukturált fénymegvilágítási mintát vetít a céltárgyra, a kamera rögzíti a célpont által modulált képet, majd képfeldolgozással és vizuális modellekkel nyeri meg a céltárgy 3D információit. A projektorok gyakori típusai a következők: folyadékkristályos kijelző (LCD), digitális fénymodulációs vetítés (DLP: például digitális mikrotükör eszközök (DMD)) és lézeres LED-mintázatú közvetlen vetítés.

A strukturált fényvetítések száma alapján a strukturált fényvetítés 3D képalkotás egy-képes 3D és több-képes 3D módszerre osztható. Az egy-lövésű strukturált fény főként térbeli multiplexeléses kódolást és frekvencia multiplexeléses kódolást használ. A gyakori kódolási formák közé tartozik a színkódolás, a szürkeárnyalatos indexelés, a geometriai alakzatok kódolása és a véletlenszerű foltos minták. Jelenleg a robotos kézi-szemrendszer-alkalmazásokban az olyan forgatókönyvekben, ahol nincs szükség nagy 3D mérési pontosságra, mint például a palettázás, a raklapok eltávolítása és a 3D-s megragadás, széles körben alkalmazzák a pszeudo-véletlenszerű foltmintázatok kivetítésének módszerét a cél 3D-s információinak megszerzéséhez.

A többszörös felvételes 3D módszerek főként idő-multiplexeléses kódolást használnak. A gyakori mintakódolási formák a következők: bináris kódolás, több-frekvenciás fáziseltoló{5}}kódolás és hibrid kódolási módszerek (például Gray-kód és fáziseltoló rojtok). A strukturált fény 3D képalkotás alapelve az alábbi ábrán látható. A strukturált fénymintát számítógéppel vagy speciális optikai eszközzel állítják elő, majd optikai vetítőrendszerrel a vizsgált tárgy felületére vetítik. Az objektum felülete által modulált és deformált strukturált fénykép rögzítésére képfelvevő eszközt (például CCD vagy CMOS kamerát) használnak. Ezután képfeldolgozó algoritmusok segítségével kiszámítják a kép egyes pixelei és az objektum körvonalán lévő pontok közötti megfelelést. Végül az objektum háromdimenziós kontúrinformációit a rendszer a rendszerszerkezeti modell és annak kalibrációs technológiája segítségével számítja ki. Gyakorlati alkalmazásokban gyakran használják a Gray-kódos vetítést, a szinuszos fázisú{15}}eltolódó peremvetítést, vagy a hibrid Gray-kódot és a szinuszos fázist{16}}eltoló 3D technológiát.

Durva felületeknél a strukturált fény közvetlenül a tárgy felületére vetíthető vizuális képalkotó mérés céljából; erősen visszaverő sima felületek és tükrözött tárgyak 3D-s mérésénél azonban a strukturált fényvetítés nem vetíthető közvetlenül a vizsgált felületre, a 3D méréshez pedig tükörreflexiós technikák alkalmazása szükséges.

Ebben a sémában a peremeket nem közvetlenül a vizsgált tárgy kontúrjára vetítik, hanem egy szóróképernyőre, vagy folyadékkristályos (LCD) képernyőt használnak a peremek közvetlen megjelenítésére. A kamera a fényes felület görbületi változásai által modulált pereminformációkat a visszavert fénypályán keresztül szerzi be, majd kiszámítja a háromdimenziós kontúrmorfológiát.

Szkennelés 3D képalkotás

Szkennelés A 3D képalkotási módszerek feloszthatók szkennelési távolság-meghatározásra, aktív háromszögelésre és kromatikus konfokális módszerekre. A pásztázási távolság egy kollimált fénysugarat használ a teljes célfelület pásztázásához 3D méréshez. A tipikus pásztázási hatótávolság-meghatározási módszerek a következők: egy-pontpont-a-repülés módszerei, mint például a folyamatos hullámfrekvencia-moduláció (FM-CW) és az impulzustartomány (LiDAR); lézerszórásos interferometria, mint például a több-hullámhosszú interferencia, holografikus interferencia, fehér fény interferencia és foltos interferencia elvén alapuló interferométerek; és konfokális módszerek, például kromatikus konfokális és autofókusz.

Az egy-pontos tartományú szkennelés 3D módszerekben az egy-pontos-a-repülés módszere alkalmas nagy-távolságú letapogatásra, de a mérési pontosság viszonylag alacsony, általában a milliméteres tartományban van. Egyéb egy-pontos szkennelési módszerek közé tartozik az egy-pontos lézeres interferometria, a konfokális mikroszkópia és az egy-pontos aktív lézeres háromszögelés. Ezek a módszerek nagy mérési pontosságot kínálnak, de az előbbihez ellenőrzött környezet szükséges. A vonalszkennelés közepes pontosságot és nagy hatékonyságot kínál. Az aktív lézeres háromszögelés és a kromatikus konfokális mikroszkópia különösen alkalmas 3D mérésre a robotkar végén. Az aktív háromszögelés a háromszögelés elvén alapul, kollimált sugár vagy egy vagy több síknyalábot használva a célfelület pásztázására 3D méréshez.

A fénysugarat általában a következő módokon nyerik: lézerkollimáció, hengeres vagy négyzetes felületű prizmás sugártágítás, nem{0}}koherens fény (például fehér fény, LED fényforrás) kis lyukakon, réseken (rácsokon) keresztül vetítve vagy koherens fénydiffrakció. Az aktív háromszögelés három típusra osztható: egy-pontos szkennelés, egy-soros szkennelés és több-vonalas szkennelés. Jelenleg a legtöbb kereskedelemben kapható robotkarvég-effektor termék egy-pontos és egyvonalas{7}}szkenner.

A több{0}}soros letapogatási módszerekben kihívást jelent a peremszámok megbízható azonosítása. A peremszámok pontos azonosítása érdekében általában két egymásra merőleges fénysíkot nagy sebességgel, váltakozva ábrázolnak. Ez lehetővé teszi a "Flying Triangulation" szkennelést is, amelynek szkennelési és 3D-s rekonstrukciós folyamata az alábbi ábrán látható. A több-vonalas vetítés és az egy-vaku képalkotás ritka 3D-s nézetet eredményez. A 3D-s nézetek számos sorozata jön létre hosszirányú és keresztirányú peremvetítéssel, majd a 3D-s képregisztráció révén nagy{10}}felbontású, teljes és sűrű 3D-s felületmodell jön létre.

A kromatikus konfokális mikroszkóp alkalmasnak tűnik durva és sima, átlátszatlan és átlátszó tárgyak, például fényvisszaverő felületek és átlátszó üvegfelületek szkennelésére és mérésére, és jelenleg széles körben használják olyan területeken, mint a mobiltelefonok borítóinak 3D vizsgálata. A kromatikus konfokális pásztázásnak három típusa van: egy-egypontos-dimenziós abszolút távolságmérés, több-pontos tömb szkennelés és folyamatos vonalkeresés. Az alábbi ábra példákat mutat be abszolút távolságmérésre és folyamatos vonalpásztázásra. A folyamatos vonalpásztázás is a tömbszkennelés egy fajtája, de nagyobb és sűrűbb pontsorral.

Stereo Vision 3D képalkotás

A sztereó látás általában egy célobjektum 3D-s szerkezetének vagy mélységi információinak rekonstrukcióját jelenti két vagy több kép különböző nézőpontokból történő beszerzésével. A mélységérzékelés vizuális jelzései okuláris jelzésekre és binokuláris jelzésekre (binokuláris eltérés) oszthatók. Jelenleg a sztereó 3D látás monokuláris látással, binokuláris látással, több-nézetű látással és fénymezős 3D képalkotással (elektronikus összetett szem vagy tömbkamera) érhető el. A monokuláris látás mélységérzékelési jelzései általában a következők: perspektíva, gyújtótávolság-különbségek, több-nézetű képalkotás, elzáródás, árnyékok, mozgási parallaxis stb.

A robotlátásban ez tükörképalkotással és más alak-az-X módszerekkel is elérhető. A binokuláris látás mélységérzékelésének vizuális jelei a következők: szem konvergencia pozíciója és binokuláris eltérés. Gépi látásban két kamerát használnak, hogy két nézőpontból készítsenek két nézőpontot ugyanarról a céljelenetről két nézőpontból, majd kiszámítják a két nézőpont képének megfelelő pontjainak eltérését, hogy megkapják a céljelenet 3D mélységi információit. Egy tipikus binokuláris sztereó látás számítási folyamata a következő négy lépésből áll: képtorzítás korrekciója, sztereó képpár kijavítása, képregisztráció és háromszögelési vetítési eltérési térkép kiszámítása.

A több-nézetű vizuális képalkotás vagy a több-nézetű sztereó képalkotás egyetlen vagy több kamerát használ, hogy több képet készítsen ugyanarról a céljelenetről több nézőpontból, hogy rekonstruálja a céljelenet háromdimenziós információit.

A több-nézetű sztereó képalkotást főként a következő forgatókönyvekben alkalmazzák: több kamera használata különböző nézőpontokból, hogy több képet készítsen ugyanarról a céljelenetről, majd a funkció-alapú sztereó rekonstrukció és más algoritmusok használata a jelenetmélységre és a térszerkezetre vonatkozó információk megszerzésére; a struktúra - from-motion (SFM) technikát használva, ugyanazt a kamerát használva változatlan belső paraméterekkel, hogy több képet készítsenek különböző nézőpontokból a céljelenet háromdimenziós információinak rekonstruálásához. Ezt a technológiát általában nagyszámú vezérlőpont követésére használják egy céljelenetben, folyamatosan visszaállítva a jelenet 3D szerkezeti információit, valamint a kamera pózát és helyzetét. A fénymezős képalkotás eltér a hagyományos kamerás képalkotási elvektől. A hagyományos kamerák közvetlenül a képalkotó síkon 2D képet alkotnak, miután a fény áthalad az objektíven.

A fénymezős kamerák egy mikrolencse-tömböt adnak az érzékelő síkja elé. A főlencsére beeső fény ismét áthalad minden mikrolencsén, és a fényérzékeny tömb fogadja, ezáltal információt kap a fénysugarak irányáról és helyzetéről. Ez lehetővé teszi a képalkotási eredmények későbbi feldolgozását, elérve az "először fényképezzen, majd fókuszáljon" effektust, és lehetővé teszi a jelenet háromdimenziós szerkezetének helyreállítását ezen információk felhasználásával. Az olyan területeken, mint a virtuális valóság és a kibővített valóság, a fénymezős képalkotó technológia valósághűbb vizuális élményt nyújt, és pontosabb háromdimenziós észlelést és interakciót tesz lehetővé a jelenettel.

A fénymezős 3D képalkotás elve szerkezetileg eltér a hagyományos CCD és CMOS kamerák képalkotási elveitől. A hagyományos kamerák a fényt közvetlenül a képalkotó síkra helyezik, miután az áthalad az objektíven, és általában 2D képet készítenek. A fénytérkamerák egy mikrolencsés tömböt helyeznek el az érzékelő síkja elé, így a fő lencsén keresztül beeső fény ismét áthalad az egyes mikrolencséken, és a fényérzékeny tömb fogadja, ezáltal információt szerez a fénysugarak irányáról és helyzetéről. Ez lehetővé teszi a képalkotási eredmények utólagos-feldolgozását, és az „először fényképezzen, majd fókuszáljon” effektust elérve.