Cara Kerja Pencarian Visual AI: Teknologi Dijelaskan Secara Sederhana

Bayangkan mengarahkan ponsel Anda ke sepasang sepatu dan langsung mencari tahu di mana membelinya. Atau mengunggah foto tanaman dan mengetahui namanya dalam hitungan detik. Trik sulap itulah yang disebut Pencarian visual AI. Rasanya futuristik. Namun cara kerjanya lebih mudah dipahami daripada yang Anda kira.

TLDR: Pencarian visual AI memungkinkan komputer memahami dan menemukan sesuatu di dalam gambar. Ia bekerja dengan mengubah gambar menjadi data, menemukan pola, dan membandingkannya dengan jutaan gambar lainnya. Model pembelajaran mesin dilatih untuk mengenali bentuk, warna, objek, dan bahkan konteks. Hasilnya adalah penelusuran berbasis gambar yang cepat dan cerdas yang terasa hampir manusiawi.

Mari kita uraikan langkah demi langkah. Tidak diperlukan gelar robotika.

Langkah 1: Mengubah Gambar menjadi Angka

Komputer tidak melihat seperti kita. Mereka tidak melihat “gaun merah”. Mereka melihat angka.

Setiap gambar terbuat dari titik-titik kecil yang disebut piksel. Setiap piksel membawa informasi tentang:

Warna
Kecerahan
Posisi

Saat Anda mengunggah foto, AI mengubahnya menjadi kumpulan angka raksasa. Anggap saja seperti menerjemahkan gambar ke dalam bahasa matematika rahasia.

Semakin tinggi kualitas gambar, semakin banyak pikselnya. Semakin banyak piksel, semakin banyak data.

Namun data piksel mentah berantakan. Jadi AI perlu menyederhanakannya.

Langkah 2: Menemukan Pola dalam Kekacauan

Di sinilah pembelajaran mesin masuk.

Sistem pencarian visual menggunakan sesuatu yang disebut a jaringan saraf konvolusional (CNN). Kedengarannya menakutkan. Tapi inilah versi sederhananya:

CNN adalah perangkat lunak yang memindai gambar dalam bagian-bagian kecil. Ini mencari pola. Berkali-kali.

Pada awalnya, ia mendeteksi hal-hal sederhana:

Tepian
Garis
kurva
Perubahan warna

Kemudian ia menggabungkannya menjadi ide-ide yang lebih besar:

Terakhir, ia mengenali item lengkap seperti:

Ia mempelajarinya dengan terus berlatih jutaan gambar berlabel.

Misalnya, jika Anda memperlihatkan 10 juta gambar berlabel “kucing”, ia akan mulai memperhatikan seperti apa rupa kucing biasanya. Telinga runcing. Cambang. Bentuk wajah tertentu. Seiring waktu, itu menjadi lebih baik dan lebih baik.

Langkah 3: Membuat “Peta Fitur”

Setelah AI memahami apa yang ada di dalam gambar, AI menciptakan sesuatu yang disebut a vektor fitur.

Anggap saja ini sebagai sidik jari untuk gambar tersebut.

Sidik jari ini tidak menyimpan gambar utuh. Sebaliknya, ini menyimpan detail penting seperti:

Jenis objek
Pola bentuk
Distribusi warna
Gaya tekstur

Ini mungkin terlihat seperti daftar angka yang panjang. Namun angka-angka itu mewakili makna.

Misalnya:

Nilai tinggi untuk “bentuk bulat”
Nilai sedang untuk “warna merah cerah”
Nilai rendah untuk “tekstur logam”

Hal ini membuat pencarian menjadi lebih cepat. Daripada membandingkan gambar penuh, sistem membandingkan sidik jari kompak ini.

Langkah 4: Mencari Kecocokan

Sekarang sampai pada bagian yang menyenangkan.

Saat Anda mengunggah gambar, AI membandingkan sidik jarinya dengan jutaan (atau milyaran) sidik jari yang tersimpan.

Ini menghitung sesuatu yang disebut skor kesamaan.

Semakin dekat kecocokan sidik jari, semakin tinggi skornya.

Proses ini terjadi dalam hitungan detik.

Itu sebabnya Anda dapat:

Ambil gambar jaket dan temukan yang serupa secara online
Ambil foto furnitur dan temukan potongan yang serasi
Unggah karya seni dan temukan artisnya

Sistem mengurutkan hasil dari yang paling mirip hingga yang paling tidak mirip.

Bagaimana AI Memahami Konteks

Di sinilah segalanya menjadi lebih cerdas.

Pencarian visual modern tidak hanya sekedar mengenali objek. Ia mengerti konteks.

Misalnya, bayangkan foto:

Seseorang memegang cangkir kopi
Duduk di meja kayu
Dengan laptop terbuka

AI dapat mengenali banyak objek sekaligus. Ia memahami hubungan di antara mereka.

Hal ini dimungkinkan melalui sesuatu yang disebut deteksi objek.

Alih-alih menganalisis seluruh gambar sebagai satu blok, AI menggambar kotak tak terlihat di sekitar objek berbeda. Kemudian ia memberi label pada masing-masingnya.

Hal ini memungkinkan pencarian lebih detail. Anda dapat mencari:

“Mug kopi keramik putih”
“Pengaturan meja kayu minimalis”
“Laptop perak tipis”

AI mengisolasi setiap objek dan membuat pencocokan yang ditargetkan.

Pelatihan: Bagaimana AI Menjadi Begitu Cerdas

Sistem pencarian visual AI tidak dilahirkan dengan cerdas. Mereka dilatih.

Pelatihan melibatkan tiga bahan utama:

Data
Label
Masukan

Pertama, pengembang memberi AI jutaan gambar.

Kedua, manusia memberi label pada gambar tersebut dengan benar.

Misalnya:

Ini adalah sepatu kets.
Ini adalah seekor anjing jenis Golden Retriever.
Ini adalah arsitektur modern.

Ketiga, AI membuat prediksi. Jika tebakannya salah, sistem akan memperbaikinya. Modelnya menyesuaikan.

Proses penyesuaian ini disebut propagasi mundur. Anggap saja seperti menyempurnakan gitar. Setiap koreksi membuat suara menjadi lebih baik.

Seiring waktu, tingkat kesalahan menyusut. Akurasi meningkat.

Pencarian Visual vs. Pengenalan Gambar

Kedua istilah ini saling berkaitan. Tapi tidak identik.

Pengenalan gambar jawaban:

“Apa yang ada di gambar ini?”

Pencarian visual jawaban:

“Temukan aku lebih banyak seperti ini.”

Pengakuan mengidentifikasi objek. Pencarian membandingkan dan mengambil hasil yang serupa.

Pencarian visual dibangun berdasarkan teknologi pengenalan. Ini menambahkan perbandingan skala besar dan pencocokan database.

Dimana Pencarian Visual Digunakan Saat Ini

Anda mungkin sudah menggunakannya.

Berikut beberapa aplikasi umum:

1. Belanja

Temukan pakaian dari tangkapan layar
Cocokkan gaya furnitur
Temukan produk serupa

2. Alam dan Pendidikan

Identifikasi tanaman
Kenali binatang
Menganalisis artefak sejarah

3. Keamanan

Pengenalan wajah
Pemindaian plat nomor

4. Kesehatan

Menganalisis scan medis
Mendeteksi kelainan pada sinar-X

5. Media Sosial

Memberi tag otomatis pada foto
Menemukan konten visual serupa

Mengapa Terasa Begitu Cepat

Membandingkan miliaran gambar terdengar lambat. Tapi ternyata tidak.

Inilah alasannya:

Gambar diubah menjadi sidik jari yang ringkas.
Basis data dioptimalkan untuk perbandingan cepat.
Perangkat keras khusus mempercepat perhitungan.
Penyebaran komputasi awan berfungsi di banyak server.

Kombinasi ini membuat pencarian menjadi hampir instan.

Bahan Rahasia: Penyematan

Ada konsep penting lainnya: penyematan.

Penyematan adalah cara merepresentasikan gambar dalam ruang multidimensi.

Bayangkan peta 3D raksasa. Kecuali tiga dimensi, ada ratusan.

Gambar serupa terletak berdekatan. Gambar yang sangat berbeda berjauhan.

Jika Anda mengunggah foto sepatu kets merah, AI akan menemukan titik data terdekat di ruang ini. Titik-titik terdekat tersebut mewakili produk serupa.

Inilah bagaimana kesamaan dapat diukur.

Tantangan yang Masih Dihadapi AI

Pencarian visual AI sangat kuat. Tapi itu tidak sempurna.

Beberapa tantangannya antara lain:

Perbedaan pencahayaan
Gambar buram
Sudut yang tidak biasa
Kemacetan (objek tersembunyi sebagian)
Bias dalam data pelatihan

Jika sistem dilatih terutama pada gaya atau wilayah tertentu, sistem tersebut mungkin akan kesulitan dengan gaya atau wilayah lain.

Itulah mengapa beragam data pelatihan penting.

Masa Depan Pencarian Visual

Pencarian visual semakin pintar setiap tahun.

Sistem yang lebih baru menggabungkan:

Pemahaman teks
Masukan suara
Analisis gambar

Anda akan dapat mengatakan:

“Carikan saya sofa seperti ini, tapi berwarna biru dan harganya di bawah $500.”

AI akan menggabungkan:

Gambar yang diunggah
Permintaan suara Anda
Daftar produk
Filter harga

Sekaligus.

Ini disebut AI multimoda. Ia bekerja di berbagai jenis data.

Menyatukan Semuanya

Jadi bagaimana cara kerja pencarian visual AI?

Berikut alur sederhananya:

Anda mengunggah foto.
AI mengubahnya menjadi angka.
Jaringan saraf menemukan pola.
Ini menciptakan sidik jari fitur.
Sistem membandingkan sidik jari tersebut dengan jutaan sidik jari lainnya.
Anda mendapatkan hasil peringkat dalam hitungan detik.

Di balik layar, itu adalah matematika. Data. Pengenalan pola.

Namun bagi kami, ini terasa seperti keajaiban.

Dan itulah keindahan dari teknologi yang baik.

Itu menyembunyikan kompleksitas dan memberi kita kesederhanaan.

Lain kali Anda mengambil foto untuk mencari sesuatu, ingatlah: perangkat Anda tidak hanya melihat gambar. Ini adalah membaca bahasa yang terbuat dari pola, bentuk, dan koneksi.

Pencarian visual AI tidak benar-benar melihat.

Tapi ia memahami lebih banyak setiap hari.