[Ilsutrasi Oleh Flickr]
Google baru saja meluncurkan Mask R-CNN dan DeepLab v3+, yakni dua model baru segmentasi gambar. Dua model ini merupakan bagian dari berbagai macam arsitektur open-source yang dibangun untuk chipset Tensor Processing Unit (TPU).
Tensor Processing Unit (TPU) merupakan chipset generasi terbaru yang disediakan oleh Google sejak tahun lalu, yang dirancang secara khusus untuk menangani tugas-tugas pelatihan sistem kecerdasan buatan seperti pengenalan gambar, pemrosesan bahasa alami, dan pembelajaran yang lebih kuat.
Bertujuan melengkapi chipset ini agar pengembangan aplikasi menjadi semakin mudah, Google secara rutin meluncurkan arsitektur open-source pendukungnya, seperti BERT (model bahasa), MorphNet (kerangka kerja optimasi), dan UIS-RNN (sistem diarisasi speaker), serta yang terbaru Mask R-CNN dan DeepLab v3+.
Dua model baru Mask R-CNN dan DeepLab v3+ akan secara otomatis melabeli daerah dalam suatu gambar. Dua model ini mendukung dua jenis segmentasi, yakni segmentasi instansi dan segmentasi semantik.
Segmentasi instansi akan bekerja untuk memberi setiap hal dari kelas obyek sebuah label unik, sementara segmentasi semantik akan membubuhi keterangan setiap piksel gambar sesuai dengan kelas objek atau tekstur yang diwakilinya.
Sebagai contohnya, misalnya segmentasi instansi akan melabeli bagian-bagian dari pemandangan kota, seperti jalan, bangunan, dan trotoar. Sementara segmentasi semantik akan menyebutnya secara langsung sebagai adegan jalanan kota.
Dalam penjelasannya, Google pun telah mengungkapkan bahwa Mask R-CNN adalah sistem segmentasi dua tahap yang dapat melokalisasi banyak objek sekaligus.
Tahap pertama, model tersebut akan mengekstraksi pola dari foto input untuk mengidentifikasi potensi wilayah yang diminati. Tahap kedua, model akan menyaringnya untuk memprediksi kelas objek sebelum membuat penanda.
Sementara itu, DeepLab 3+ lebih diprioritaskan pada kecepatan segmentasi. Dengan memanfaatkan PASCAL VOC 2012 pada kerangka kerja pembelajaran mesin TensorFlow Google, model ini mampu menyelesaikan pelatihan dalam waktu kurang dari lima jam.
Bagi pengembang yang ingin mempelajari model baru ini sayangnya harus sedikit bersabar. Tutorial dan dokumentasi Mask R-CNN dan DeepLab v3+ baru akan tersedia minggu ini, melalui platform Google Colaboratory.
[Sumber: Venturebeat]