Bumiayu.id Google memperkenalkan model difusi berbasis AI baru untuk meningkatkan kualitas gambar beresolusi rendah. Dua model difusi baru — resolusi super gambar (SR3) dan model difusi bertingkat (CDM) — dapat menggunakan AI untuk menghasilkan gambar fidelitas tinggi.
Model ini memiliki banyak aplikasi yang dapat berkisar dari memulihkan potret keluarga lama dan meningkatkan sistem pencitraan medis hingga meningkatkan kinerja model hilir untuk klasifikasi gambar, segmentasi, dan banyak lagi. Model SR3, misalnya, dilatih untuk mengubah gambar beresolusi rendah menjadi hasil gambar beresolusi tinggi yang mendetail yang melampaui model generatif mendalam saat ini seperti jaringan permusuhan generatif (GAN) dalam evaluasi manusia.
Peneliti Google menerbitkan sebuah posting di blog AI Google , yang merinci model difusi SR3 dan CDM. SR3 dikatakan sebagai model difusi super-resolusi yang mengambil sebagai input gambar resolusi rendah dan membangun gambar resolusi tinggi yang sesuai dari noise murni. Model dilatih pada proses kerusakan gambar yang menambahkan noise ke gambar resolusi tinggi hingga hanya noise murni yang tersisa. Model SR3 kemudian membalikkan proses “mulai dari noise murni dan secara progresif menghilangkan noise untuk mencapai distribusi target melalui panduan gambar resolusi rendah input.”
Google telah membagikan beberapa contoh mengesankan tentang bagaimana gambar beresolusi 64×64 piksel diubah menjadi foto beresolusi 1024×1024 piksel menggunakan SR3. Hasil akhir dari keluaran resolusi 1024×1024 piksel, terutama gambar wajah dan alam, sangat mengesankan. Raksasa teknologi tersebut mengatakan bahwa SR3 mampu mencapai hasil benchmark yang kuat pada tugas resolusi super untuk wajah dan gambar alami saat menskalakan ke resolusi 4x hingga 8x lebih tinggi.
Model difusi CDM dilatih pada data ImageNet untuk menghasilkan gambar alami beresolusi tinggi. Karena ImageNet adalah kumpulan data entropi tinggi yang sulit, Google membangun CDM sebagai kaskade dari beberapa model difusi. Pendekatan kaskade ini melibatkan rantai bersama beberapa model generatif melalui beberapa resolusi spasial. Rantai tersebut mencakup satu model difusi yang menghasilkan data pada resolusi rendah diikuti oleh urutan model difusi resolusi super SR3 yang secara bertahap meningkatkan resolusi gambar yang dihasilkan ke resolusi tertinggi.
Google mengatakan itu menerapkan noise Gaussian dan Gaussian blur ke gambar input resolusi rendah dari setiap model resolusi super dalam pipa cascading. Ini menyebut proses ini sebagai augmentasi pengkondisian dan memungkinkan kualitas sampel resolusi yang lebih baik dan lebih tinggi untuk CDM.