Kemajuan Dalam Visi Komputer Mendorong Otonomi Transportasi

Visi adalah input sensorik manusia yang kuat. Ini memungkinkan tugas dan proses kompleks yang kita anggap remeh. Dengan peningkatan AoT™ (Autonomy of Things) dalam beragam aplikasi mulai dari transportasi dan pertanian hingga robotika dan kedokteran, peran kamera, komputasi, dan pembelajaran mesin dalam memberikan penglihatan dan kognisi seperti manusia menjadi signifikan. Visi komputer sebagai disiplin akademik dimulai pada 1960-an, terutama di universitas yang bergerak di bidang kecerdasan buatan (AI) dan pembelajaran mesin yang sedang berkembang. Ini berkembang secara dramatis dalam empat dekade berikutnya sebagai kemajuan signifikan dalam semikonduktor dan teknologi komputasi dibuat. Kemajuan terbaru dalam pembelajaran mendalam dan kecerdasan buatan semakin mempercepat penerapan visi komputer untuk memberikan persepsi dan kognisi lingkungan yang rendah secara real-time, memungkinkan otonomi, keamanan, dan efisiensi dalam berbagai aplikasi. Transportasi merupakan salah satu bidang yang telah diuntungkan secara signifikan.

LiDAR (Light Detection and Ranging) adalah pendekatan pencitraan optik aktif yang menggunakan laser untuk menentukan lingkungan 3D di sekitar objek. Ini adalah salah satu teknologi yang coba diganggu oleh solusi visi komputer (yang murni mengandalkan cahaya sekitar dan tidak menggunakan laser untuk persepsi 3D). Tema umum adalah bahwa pengemudi manusia tidak memerlukan LiDAR untuk persepsi kedalaman, demikian juga mesin. Fitur mengemudi otonom L3 komersial saat ini (otonomi lengkap dalam geografi dan kondisi cuaca tertentu, dengan pengemudi siap mengambil kendali dalam hitungan detik) produk hari ini gunakan LiDAR. Teknik berbasis visi murni masih belum mampu menawarkan kemampuan ini secara komersial.

IKLAN

TeslaTSLA
adalah pendukung dominan menggunakan visi komputer berbasis kamera pasif untuk memberikan otonomi kendaraan penumpang. Selama acara AI Day perusahaan baru-baru ini, Elon Musk dan para insinyurnya memberikan presentasi yang mengesankan AI, manajemen data, dan kemampuan komputasi yang mendukung, di antara inisiatif lainnya, fitur Full Self Driving (FSD) pada beberapa model Tesla. FSD mengharuskan pengemudi manusia untuk terlibat dalam tugas mengemudi setiap saat (yang konsisten dengan otonomi L2). Saat ini, opsi ini tersedia pada 160,000 kendaraan yang dibeli oleh pelanggan di AS dan Kanada. Rangkaian 8 kamera di setiap kendaraan menyediakan peta hunian 360°. Data kamera (dan lainnya) dari kendaraan ini digunakan untuk melatih jaringan sarafnya (yang menggunakan pelabelan otomatis) untuk mengenali objek, merencanakan lintasan kendaraan potensial, memilih yang optimal dan mengaktifkan tindakan kontrol yang sesuai. ~75K pembaruan jaringan saraf telah terjadi selama 12 bulan terakhir (~1 pembaruan setiap 7 menit) karena data baru terus dikumpulkan dan kesalahan pelabelan atau kesalahan manuver terdeteksi. Jaringan yang terlatih menjalankan tindakan perencanaan dan pengendalian melalui arsitektur komputasi elektronik yang dibuat khusus dan onboard. Tesla mengharapkan FSD pada akhirnya mengarah ke kendaraan otonom (AV), yang memberikan otonomi penuh dalam domain desain operasional tertentu tanpa keterlibatan pengemudi manusia yang diperlukan (juga disebut sebagai otonomi L4).

Perusahaan lain seperti Phiar, Helm.ai dan NODAR juga mengejar jalan visi komputer. NODAR bertujuan untuk memperluas jangkauan pencitraan dan persepsi 3D sistem kamera stereo secara signifikan dengan belajar menyesuaikan ketidaksejajaran kamera dan efek getaran melalui algoritme pembelajaran mesin yang dipatenkan. Baru-baru ini mengumpulkan $ 12M untuk produksi produk andalannya, Hammerhead™, yang menggunakan kamera kelas otomotif “off-the-shelf” dan platform komputasi standar.

Terlepas dari biaya dan ukuran, argumen yang sering menentang penggunaan LiDAR adalah bahwa ia memiliki jangkauan dan resolusi yang terbatas dibandingkan dengan kamera. Misalnya, LiDAR dengan jangkauan 200 m dan 5-10 M poin/detik (PPS mirip dengan resolusi) tersedia saat ini. Pada 200 m, rintangan kecil seperti batu bata atau serpihan ban akan mencatat sangat sedikit titik (mungkin 2-3 di vertikal dan 3-5 di arah horizontal), membuat pengenalan objek sulit. Hal-hal menjadi lebih kasar pada rentang yang lebih panjang. Sebagai perbandingan, kamera megapiksel standar yang berjalan pada 30 Hz dapat menghasilkan 30 juta piksel/detik, memungkinkan pengenalan objek yang superior bahkan pada jarak jauh. Kamera yang lebih canggih (12 M piksel) dapat meningkatkan ini lebih jauh. Masalahnya adalah bagaimana memanfaatkan data yang sangat besar ini dan menghasilkan persepsi yang dapat ditindaklanjuti dengan latensi tingkat milidetik, konsumsi daya yang rendah, dan kondisi pencahayaan yang menurun.

IKLAN


Mengenali, sebuah perusahaan yang berbasis di California, sedang mencoba untuk memecahkan masalah ini. Menurut CEO Mark Bolitho, misinya adalah untuk “memberikan persepsi visual manusia super untuk kendaraan yang sepenuhnya otonom.” Perusahaan ini didirikan pada tahun 2017, telah mengumpulkan $75 juta hingga saat ini dan memiliki 70 karyawan. RK Anand, alumnus Juniper Networks, adalah salah satu pendiri dan Chief Product Officer. Ia percaya bahwa menggunakan kamera beresolusi lebih tinggi, dengan rentang dinamis > 120 dB, berjalan pada kecepatan bingkai tinggi (misalnya, OnSemi, Sony, dan Omnivision) menyediakan data yang diperlukan untuk membuat informasi 3D resolusi tinggi, yang sangat penting untuk mewujudkan AV. Yang memungkinkan untuk ini adalah:

  1. ASIC yang dirancang khusus untuk memproses data secara efisien dan menghasilkan peta 3D lingkungan mobil yang akurat dan beresolusi tinggi. Ini dibuat pada proses TSMC 7 nm, dengan ukuran chip 100 mm², beroperasi pada frekuensi 1 GHz.
  2. Algoritme pembelajaran mesin eksklusif untuk memproses jutaan titik data secara offline untuk membuat jaringan saraf terlatih, yang kemudian dapat beroperasi secara efisien dan belajar terus menerus. Jaringan ini memberikan persepsi dan termasuk klasifikasi & deteksi objek, segmentasi semantik, deteksi jalur, rambu lalu lintas dan pengenalan lampu lalu lintas
  3. Meminimalkan penyimpanan off-chip dan operasi perkalian yang memakan daya dan menciptakan latensi tinggi. Desain ASIC Recogni dioptimalkan untuk matematika logaritmik dan menggunakan penjumlahan. Efisiensi lebih lanjut diwujudkan dengan mengelompokkan bobot secara optimal dalam jaringan saraf yang terlatih.

Selama fase pelatihan, LiDAR komersial digunakan sebagai ground truth untuk melatih resolusi tinggi, data kamera stereo rentang dinamis tinggi untuk mengekstrak informasi kedalaman dan membuatnya kuat terhadap efek misalignment dan getaran. Menurut Bapak Anand, implementasi pembelajaran mesin mereka sangat efisien sehingga dapat memperkirakan perkiraan kedalaman di luar rentang pelatihan yang disediakan oleh LiDAR kalibrasi (yang memberikan kebenaran dasar hingga jarak 100 m).

IKLAN

Data pelatihan di atas dilakukan pada siang hari dengan sepasang kamera stereo 8.3 megapiksel yang berjalan pada kecepatan bingkai 30 Hz (~0.5B piksel per detik). Ini menunjukkan kemampuan jaringan terlatih untuk mengekstrak informasi 3D dalam adegan di luar jangkauan 100 m yang dilatihnya. Solusi Recogni juga dapat mengekstrapolasi pembelajarannya dengan data siang hari ke kinerja malam hari (Gambar 2).

IKLAN

Menurut Bapak Anand, data jangkauan akurat hingga dalam 5% (pada jarak jauh) dan mendekati 2% (pada jarak yang lebih pendek). Solusi ini menyediakan 1000 TOPS (triliun operasi per detik) dengan latensi 6 ms dan konsumsi daya 25W (40 TOPS/W), yang memimpin industri ini. Pesaing yang menggunakan matematika bilangan bulat > 10X lebih rendah pada metrik ini. Solusi Recogni saat ini sedang dalam uji coba di beberapa pemasok Tier 1 otomotif.

Nubuatkan ("memprediksi dan melihat di mana tindakan itu"), yang berbasis di Prancis, menggunakan kamera berbasis peristiwa untuk AV, Advanced Driver Assistance Systems (ADAS), otomasi industri, aplikasi konsumen, dan perawatan kesehatan. Didirikan pada tahun 2014, perusahaan baru-baru ini menutup pendanaan putaran C sebesar $50M, dengan total $127 juta terkumpul hingga saat ini. Xiaomi, produsen ponsel terkemuka, adalah salah satu investornya. Tujuan Prophesee adalah untuk meniru penglihatan manusia di mana reseptor di retina bereaksi terhadap informasi dinamis. Otak manusia berfokus pada pemrosesan perubahan dalam adegan (terutama untuk mengemudi). Ide dasarnya adalah menggunakan arsitektur kamera dan piksel yang mendeteksi perubahan intensitas cahaya di atas ambang batas (suatu peristiwa) dan hanya menyediakan data ini ke tumpukan komputasi untuk diproses lebih lanjut. Piksel bekerja secara asinkron (tidak dibingkai seperti pada kamera CMOS biasa) dan pada kecepatan yang jauh lebih tinggi karena piksel tersebut tidak harus mengintegrasikan foton seperti pada kamera berbasis bingkai konvensional dan menunggu hingga seluruh bingkai menyelesaikan ini sebelum pembacaan data. Keuntungannya signifikan – bandwidth data lebih rendah, latensi keputusan, penyimpanan, dan konsumsi daya. Sensor penglihatan berbasis peristiwa VGA kelas komersial pertama perusahaan menampilkan rentang dinamis tinggi (>120 dB), konsumsi daya rendah (26 mW pada tingkat sensor atau 3 nW/peristiwa). Versi HD (Definisi Tinggi) (dikembangkan bersama dengan Sony), dengan ukuran piksel terdepan di industri (< 5 m) juga telah diluncurkan.

IKLAN

Sensor-sensor ini membentuk inti dari platform penginderaan Metavision®, yang menggunakan AI untuk memberikan persepsi yang cerdas dan efisien untuk aplikasi otonomi dan sedang dievaluasi oleh banyak perusahaan di bidang transportasi. Terlepas dari persepsi ke depan untuk AV dan ADAS, Prophesee secara aktif terlibat dengan pelanggan untuk pemantauan driver di dalam kabin untuk aplikasi L2 dan L3, lihat Gambar 4:

Peluang otomotif sangat menguntungkan, tetapi siklus desainnya panjang. Selama dua tahun terakhir, Prophesee telah melihat minat dan daya tarik yang signifikan dalam ruang visi mesin untuk aplikasi industri. Ini termasuk penghitungan kecepatan tinggi, pemeriksaan permukaan, dan pemantauan getaran.

IKLAN

Prophesee baru-baru ini mengumumkan kolaborasi dengan pengembang terkemuka sistem visi mesin untuk memanfaatkan peluang dalam otomasi industri, robotika, otomotif, dan IoT (Internet of Things). Peluang langsung lainnya adalah koreksi keburaman gambar untuk ponsel dan aplikasi AR/VR. Ini menggunakan sensor format yang lebih rendah daripada yang digunakan untuk peluang ADAS/AV jangka panjang, mengkonsumsi daya yang lebih rendah, dan beroperasi dengan latensi yang jauh lebih rendah.


Israel adalah inovator terkemuka dalam teknologi tinggi, dengan investasi ventura yang signifikan dan lingkungan start-up yang aktif. Sejak 2015, sekitar $70 miliar dalam investasi yang dipimpin oleh ventura di sektor teknologi telah terjadi. Sebagian dari ini adalah di bidang visi komputer. Mobileye mempelopori revolusi ini pada tahun 1999 ketika Amnon Shashua, peneliti AI terkemuka di Hebrew University, mendirikan perusahaan untuk fokus pada persepsi berbasis kamera untuk ADAS dan AV. Perusahaan mengajukan IPO pada tahun 2014 dan diakuisisi oleh IntelINTC
pada tahun 2017 sebesar $15 miliar. Hari ini, dengan mudah menjadi pemain terkemuka dalam visi komputer dan domain AV dan baru-baru ini mengumumkan niatnya untuk mengajukan IPO dan menjadi entitas yang mandiri. Mobileye memiliki pendapatan $1.4 miliar/tahun dan kerugian kecil ($75 juta). Ini memberikan kemampuan visi komputer untuk 50 OEM otomotif yang menyebarkannya di 800 model mobil untuk kemampuan ADAS. Di masa depan, mereka bermaksud untuk memimpin dalam otonomi kendaraan L4 (tidak diperlukan pengemudi) menggunakan keahlian visi komputer dan kemampuan LiDAR ini berdasarkan platform fotonik silikon Intel. Valuasi Mobileye diperkirakan ~$50B ketika mereka akhirnya go public.

IKLAN

Ibukota Champel, yang berbasis di Yerusalem, berada di garis depan dalam berinvestasi di perusahaan yang mengembangkan produk berdasarkan visi komputer untuk beragam aplikasi mulai dari transportasi dan pertanian hingga keamanan dan keselamatan. Amir Weitman adalah salah satu pendiri dan mitra pengelola dan memulai perusahaan venturanya pada tahun 2017. Dana pertama menginvestasikan $20 juta di 14 perusahaan. Salah satu investasi mereka adalah di Innoviz, yang go public melalui merger SPAC pada 2018 dan menjadi unicorn LiDAR. Dipimpin oleh Omer Keilaf (yang berasal dari unit teknologi Korps Intelijen Angkatan Pertahanan Israel), perusahaan saat ini adalah pemimpin dalam penerapan LiDAR untuk ADAS dan AV, dengan beberapa kemenangan desain di BMW dan Volkswagen.

Dana kedua Champel Capital (Impact Deep Tech Fund II) dimulai pada Januari 2022 dan telah mengumpulkan $30 juta hingga saat ini (targetnya adalah $100 juta pada akhir 2022). Fokus dominan adalah pada visi komputer, dengan $12 juta dikerahkan di lima perusahaan. Tiga di antaranya menggunakan visi komputer untuk transportasi dan robotika.

tangkiU, berbasis di Haifa, mulai beroperasi pada 2018 dan telah mengumpulkan dana sebesar $10 juta. Dan Valdhorn adalah CEO dan lulusan Unit 8200, sebuah kelompok teknologi tinggi elit di Angkatan Pertahanan Israel yang bertanggung jawab atas intelijen sinyal dan dekripsi kode. Produk SaaS (Software as a Service) TankU mengotomatiskan dan mengamankan proses di lingkungan luar yang kompleks yang melayani kendaraan dan pengemudi. Produk ini digunakan oleh pemilik armada kendaraan, mobil pribadi, stasiun pengisian bahan bakar dan listrik untuk mencegah pencurian dan penipuan dalam transaksi keuangan otomatis. Layanan bahan bakar kendaraan menghasilkan ~$2T dalam pendapatan global setiap tahun, di mana pemilik armada kendaraan pribadi dan komersial mengkonsumsi 40% atau $800B. Pengecer dan pemilik armada kehilangan ~$100 miliar per tahun karena pencurian dan penipuan (misalnya, menggunakan kartu bahan bakar armada untuk kendaraan pribadi yang tidak sah). Penipuan CNP (Kartu tidak ada) dan perusakan/pencurian bahan bakar adalah sumber kerugian tambahan, terutama saat menggunakan detail kartu curian di aplikasi seluler untuk pembayaran.

IKLAN

Produk TUfuel perusahaan memfasilitasi pembayaran aman dengan satu ketukan, memblokir sebagian besar jenis penipuan, dan memperingatkan pelanggan ketika mencurigai adanya penipuan. Ini dilakukan berdasarkan mesin AI yang dilatih pada data dari CCTV yang ada di fasilitas ini dan data transaksi digital (termasuk POS dan data back-end lainnya). Parameter seperti lintasan dan dinamika kendaraan, ID kendaraan, waktu perjalanan, jarak tempuh, waktu pengisian bahan bakar, jumlah bahan bakar, riwayat bahan bakar, dan perilaku pengemudi adalah beberapa atribut yang dipantau untuk mendeteksi penipuan. Data ini juga membantu pengecer mengoptimalkan operasi situs, meningkatkan loyalitas pelanggan, dan menerapkan alat pemasaran berbasis visi. Menurut CEO Dan Valdhorn, solusi mereka mendeteksi 70% armada, 90% kartu kredit, dan 70% peristiwa penipuan terkait gangguan.

sono adalah perusahaan jasa energi yang memiliki dan mengoperasikan jaringan 240 stasiun dan toko serba ada di seluruh Israel. TUfuel dikerahkan di situs mereka dan telah menunjukkan peningkatan keamanan, pencegahan penipuan, dan loyalitas pelanggan. Uji coba produk sedang berlangsung di AS bekerja sama dengan pemasok global terkemuka untuk pompa bensin dan peralatan toko serba ada. Inisiatif serupa juga sedang berlangsung di Afrika dan Eropa.

IKLAN

Berbasis Tel-Aviv ITC didirikan pada tahun 2019 oleh akademisi pembelajaran mesin dari Universitas Ben-Gurion. ITC menciptakan produk SaaS yang “mengukur arus lalu lintas, memprediksi kemacetan, dan menguranginya melalui manipulasi lampu lalu lintas yang cerdas – sebelum kemacetan mulai terbentuk.” Mirip dengan TankU, menggunakan data dari kamera off-the-shelf (sudah dipasang di banyak persimpangan lalu lintas) untuk mendapatkan data lalu lintas langsung. Data dari ribuan kamera di seluruh kota dianalisis, dan parameter seperti jenis kendaraan, kecepatan, arah pergerakan, dan urutan jenis kendaraan (truk vs. mobil) diekstraksi melalui penerapan algoritme AI eksklusif. Simulasi memprediksi arus lalu lintas dan potensi situasi kemacetan lalu lintas hingga 30 menit sebelumnya. Lampu lalu lintas disesuaikan menggunakan hasil ini untuk memperlancar arus lalu lintas dan mencegah kemacetan.

Pelatihan sistem AI membutuhkan satu bulan data visual di seluruh kota biasa dan melibatkan kombinasi pembelajaran yang diawasi dan tidak diawasi. Solusi ITC sudah diterapkan di Tel-Aviv (peringkat 25 di kota-kota paling padat di dunia pada tahun 2020), dengan ribuan kamera dikerahkan di ratusan persimpangan yang dikendalikan oleh lampu lalu lintas. Sistem ITC saat ini mengelola 75 ribu kendaraan, yang diperkirakan akan terus berkembang. Perusahaan sedang memasang a kemampuan serupa dalam Luksemburg dan sedang memulai uji coba di kota-kota besar AS. Secara global, solusinya mengelola 300,000 kendaraan dengan lokasi operasi di Israel, AS, Brasil, dan Australia. Dvir Kenig, CTO, bersemangat untuk memecahkan masalah ini – untuk mengembalikan waktu pribadi kepada orang-orang, mengurangi gas rumah kaca, meningkatkan produktivitas secara keseluruhan, dan yang terpenting, mengurangi kecelakaan di persimpangan yang padat. Menurut Pak Kenig, “Penyebaran kami menunjukkan pengurangan 30% dalam kemacetan lalu lintas, mengurangi waktu mengemudi yang tidak produktif, stres, konsumsi bahan bakar, dan polusi.”

IKLAN

Robotika Dalam Ruangan adalah didirikan di 2018 dan baru-baru ini mengumpulkan $ 18 juta dalam pendanaan. Perusahaan, yang berbasis di dekat Tel-Aviv, Israel, mengembangkan dan menjual solusi drone otonom untuk pemantauan keamanan, keselamatan, dan pemeliharaan dalam ruangan. CEO dan salah satu pendiri, Doron Ben-David, memiliki pengalaman robotika dan aeronautika yang signifikan yang terakumulasi di IAIIAI
(kontraktor utama pertahanan utama) dan MAFAT (organisasi penelitian lanjutan di Kementerian Pertahanan Israel), yang mirip dengan DARPA di Amerika Serikat. Investasi yang berkembang di gedung pintar dan pasar keamanan komersial memicu kebutuhan akan sistem otonom yang dapat menggunakan visi komputer dan input sensorik lainnya di ruang komersial interior kecil dan besar (kantor, pusat data, gudang, dan ruang ritel). Robotika Dalam Ruangan menargetkan pasar ini dengan menggunakan drone dalam ruangan yang dilengkapi dengan kamera siap pakai dan sensor jarak termal dan inframerah.

Ofir Bar-Levav adalah Chief Business Officer. Dia menjelaskan bahwa kurangnya GPS telah menghambat drone dalam ruangan untuk melokalisasi diri mereka di dalam gedung (biasanya GPS ditolak atau tidak akurat). Selain itu, solusi docking dan powering yang nyaman dan efisien masih kurang. Robotika Dalam Ruangan mengatasinya dengan empat kamera yang dipasang di drone (atas, bawah, kiri, kanan) dan sensor jarak sederhana yang secara akurat memetakan ruang dalam ruangan dan isinya. Data kamera (kamera menyediakan data pelokalan dan pemetaan) dan sensor termal (juga dipasang pada drone) dianalisis oleh sistem AI untuk mendeteksi potensi masalah keamanan, keselamatan, dan pemeliharaan serta memperingatkan pelanggan. Drone memberi daya sendiri melalui "ubin docking" yang dipasang di langit-langit, yang menghemat ruang lantai yang berharga dan memungkinkan pengumpulan data saat mengisi daya. Keuntungan finansial dari mengotomatisasi proses duniawi ini di mana tenaga kerja manusia rumit dan mahal dalam hal perekrutan, retensi dan pelatihan terbukti. Menggunakan drone udara vs robot berbasis darat juga memiliki keuntungan signifikan dalam hal modal dan biaya operasi, penggunaan ruang lantai yang lebih baik, kebebasan bergerak tanpa menemui hambatan dan efisiensi pengambilan data kamera. Menurut Mr. Bar-Levav, TAM (Total Addressable Market) Indoor Robotics dalam sistem keamanan cerdas dalam ruangan akan menjadi $80 miliar pada tahun 2026. Lokasi pelanggan utama saat ini termasuk gudang, pusat data, dan kampus kantor perusahaan global terkemuka.

IKLAN


Visi komputer merevolusi permainan otonomi – dalam otomatisasi gerakan, keamanan, pemantauan gedung pintar, deteksi penipuan, dan manajemen lalu lintas. Kekuatan semikonduktor dan AI adalah pendukung yang kuat. Setelah komputer menguasai modalitas sensorik yang luar biasa ini dengan cara yang terukur, kemungkinannya tidak terbatas.

Sumber: https://www.forbes.com/sites/sabbirrangwala/2022/10/04/advances-in-computer-vision-propel-transportation-autonomy/