Scroll untuk baca artikel
Lifestyle

Generator gambar AI menjadi lebih baik dan lebih buruk

51
×

Generator gambar AI menjadi lebih baik dan lebih buruk

Share this article
generator-gambar-ai-menjadi-lebih-baik-dan-lebih-buruk
Generator gambar AI menjadi lebih baik dan lebih buruk

Ini Langkah Mundurbuletin mingguan yang menguraikan satu cerita penting dari dunia teknologi. Untuk informasi lebih lanjut tentang ponsel cerdas dan citra digital — nyata atau tidak — ikuti Allison Johnson. Stepback tiba di kotak masuk pelanggan kami pada pukul 8 pagi ET. Ikut serta Langkah Mundur Di Sini.

Bagaimana hal itu dimulai

Example 300x600

Ingat hari-hari awal pembuatan gambar AI? Oh betapa kami tertawa ketika petunjuk kami mengakibatkan orang-orang memiliki terlalu banyak jari, anggota badan yang kenyal, dan detail lainnya dengan mudah menunjuk pada barang palsu. Namun jika Anda belum mengikuti, dengan menyesal saya beri tahu Anda bahwa lelucon itu sudah berakhir. Generator gambar AI menjadi jauh lebih baik dalam menciptakan gambar palsu yang realistis, sebagian berkat perkembangan baru yang mengejutkan: meningkatkan kualitas gambar sedikit lebih buruk.

Jika Anda percaya, OpenAI meluncurkan alat pembuat gambarnya DALL-E kurang dari lima tahun yang lalu. Pada iterasi pertamanya, ia hanya dapat menghasilkan gambar berukuran 256 x 256 piksel; thumbnail kecil, pada dasarnya. Setahun kemudian, DALL-E 2 memulai debutnya sebagai lompatan besar ke depan. Gambarnya berukuran 1024 x 1024, dan ternyata terlihat sangat nyata. Tapi selalu ada yang tahu.

Dalam kasus Casey Newton praktik langsung dengan DALL-E 2 tepat setelah diluncurkan dalam versi beta, dia menyertakan gambar yang dibuat dari perintahnya: “Seekor anjing shiba inu berpakaian seperti petugas pemadam kebakaran.” Lumayan, dan mungkin akan membodohi Anda jika melihatnya sekilas. Tapi kontur bulu anjingnya tidak jelas, tambalan di bulunya (kecil yang menggemaskan) hanyalah coretan-coretan yang tidak masuk akal, dan ada label kerah aneh dan tebal yang tergantung di sisi leher anjing yang seharusnya tidak ada di sana. Gulungan kayu manis dengan mata dari artikel yang sama lebih mudah dipercaya.

Midjourney dan Stable Diffusion juga menjadi terkenal pada masa ini, yang dianut oleh para seniman AI dan orang-orang dengan, uh, desain yang kurang gurih. Model baru yang lebih baik muncul dalam beberapa tahun berikutnya, meminimalkan kekurangan dan menambahkan kemampuan untuk merender teks dengan lebih akurat. Namun sebagian besar gambar yang dihasilkan AI masih memiliki tampilan tertentu: sedikit terlalu halus dan sempurnadengan semacam cahaya yang lebih Anda kaitkan dengan potret bergaya daripada foto candid. Beberapa gambar AI masih terlihat seperti itu, namun ada tren baru yang mengarah ke sana sebenarnya realisme yang mengurangi kesan.

Bagaimana kabarnya

OpenAI adalah pendatang baru di dunia teknologi jika Anda membandingkannya dengan Google dan Meta, namun perusahaan-perusahaan mapan tersebut tidak tinggal diam seiring dengan semakin berkembangnya AI. Pada paruh kedua tahun 2025, Google merilis model gambar baru di aplikasi Gemini yang disebut Nano Banana. Ini menjadi viral ketika orang-orang mulai menggunakannya untuk membuat patung diri mereka sendiri yang realistis. Rekan saya Robert Hart mencoba tren tersebut dan memperhatikan sesuatu yang menarik: modelnya mempertahankan kemiripan aslinya lebih setia dibandingkan alat AI lainnya.

Itulah hal tentang gambar AI: mereka sering kali cenderung ke arah jalan tengah yang netral dan lunak. Permintaan Anda untuk gambar tabel pada dasarnya akan terlihat benar, namun juga akan terasa seperti hasil rata-rata komputer dari setiap tabel yang pernah dilihat menjadi sesuatu yang tidak memiliki karakter sebenarnya. Hal-hal yang membuat gambar meja terlihat seperti aslinya — atau reproduksi fitur wajah Anda — sebenarnya adalah ketidaksempurnaan. Maksud saya bukan artefak aneh AI yang mencoba memahami huruf-huruf alfabet. Maksud saya sedikit kekacauan, kekacauan, dan pencahayaan yang kurang ideal. Dan akhir-akhir ini, hal itu juga berarti meniru ketidaksempurnaan kamera terpopuler kita.

Google memperbarui model gambarnya kurang dari sebulan yang lalu, menyebut Nano Banana Pro sebagai model paling canggih dan realistis. Ia mampu mengambil pengetahuan dari dunia nyata dan merender teks dengan lebih baik, namun hal yang menurut saya paling menarik adalah sering kali ia meniru tampilan foto yang diambil dengan kamera ponsel. Kontras (atau ketiadaan), perspektif, penajaman agresif, pilihan eksposur — begitu banyak gambar yang dihasilkan model ini bagi saya yang memiliki ciri khas sistem kamera ponsel.

Disadari atau tidak, Anda mungkin juga terbiasa dengan tampilan ini. Sensor dan lensa kecil di ponsel kami menggunakan pemrosesan multiframe untuk mengatasi keterbatasannya dibandingkan kamera yang lebih besar, dan foto-foto ini dioptimalkan untuk dilihat di layar yang lebih kecil. Secara keseluruhan, ini berarti foto ponsel memiliki “tampilan” tertentu dibandingkan dengan representasi pemandangan yang lebih artistik – meningkatkan bayangan untuk menampilkan lebih banyak detail dan meningkatkan ketajaman untuk membuat subjek menonjol. Tampaknya, generator gambar Google juga telah menyerap gaya ini.

Google tidak sendirian dalam menawarkan tampilan yang lebih realistis pada gambar yang dihasilkan. Generator gambar Firefly dari Adobe memiliki kontrol berlabel “Intensitas Visual” yang memungkinkan Anda mengurangi tampilan AI yang bersinar. Hasilnya terlihat kurang murni dan lebih seperti diambil dengan kamera sungguhan — mungkin lebih mirip kamera profesional daripada kamera ponsel, dan hal ini masuk akal mengingat target audiens Adobe adalah para profesional. Tetapi bahkan generator AI Meta memiliki penggeser untuk “Stylization”, yang menaikkan atau menurunkan realisme. Di tempat lain, alat pembuat video seperti Sora 2 OpenAI dan Veo 3 Google telah digunakan untuk membuat klip viral yang meniru visual kamera keamanan beresolusi rendah dan kasar. Ketika AI harus sebagus CCTV, itu bisa sangat meyakinkan.

Apa yang terjadi selanjutnya

Ada banyak alasan bagus untuk memperlakukan klaim tentang potensi perbaikan AI yang tak terbatas dengan sikap skeptis. Agen AI masih kesulitan membelikanmu sepasang sepatu. Tapi model pencitraannya? Mereka punya sangat ditingkatkan, dan buktinya ada di depan mata kita.

Saya baru-baru ini berbicara dengan Ben Sandofsky, salah satu pendiri aplikasi kamera iPhone populer Halide, tentang tren ponsel pintar yang meniru AI baru-baru ini. Dia mengatakan bahwa dengan menerima kecenderungan pemrosesan yang kuat dan keakraban dengan foto kamera ponsel, yang telah membuat foto kita terlihat sedikit berbeda dari kenyataan, “Google mungkin telah menghindari lembah yang luar biasa.” AI tidak harus membuat sebuah adegan terlihat realistis — dalam satu hal, hal itu adalah sebuah petunjuk yang pasti. Itu hanya harus meniru cara kita merekam kenyataan, dengan segala kekurangannya, dan menggunakannya sebagai semacam kode curang untuk membuat gambar terlihat dapat dipercaya. Jadi bagaimana kita bisa mempercayai setiap foto yang kita lihat?

Ada pandangan Sam Altmanbahwa citra nyata dan citra AI akan menyatu di masa depan, dan kami akan baik-baik saja dengan hal itu. Saya pikir dia sebagian benar, tapi saya sulit percaya bahwa kita tidak terlalu peduli apa yang nyata dan apa yang tidak. Dan untuk menyelesaikan keduanya, kita memerlukan bantuan. Dan tampaknya hal ini akan segera terwujud — namun hal ini tidak akan terjadi secepat peningkatan model gambar AI.

Itu Standar Kredensial Konten C2PA sedang mendapatkan momentum yang sangat dibutuhkan. Di ponsel seri Google Pixel 10, setiap gambar yang diambil dengan kamera mendapat tanda tangan kriptografi yang mengidentifikasi cara pembuatannya. Hal ini untuk menghindari “efek kebenaran tersirat”, seperti yang dikatakan kepala kamera Pixel, Isaac Reynolds dijelaskan kepada saya awal tahun ini. Jika Anda hanya memberi label pada gambar yang dihasilkan AI sebagai AI, maka kami berasumsi bahwa segala sesuatu tanpa label adalah nyata. Namun sebenarnya, tidak adanya label hanya berarti kita tidak mengetahui dari mana gambar tersebut berasal. Jadi kamera Pixel memberi label pada gambar AI dan non-AI.

Label semuanya bagus dan bagus, tetapi tidak berguna jika Anda tidak dapat melihatnya. Hal ini mulai berubah, dan awal tahun ini Google Foto menambahkan dukungan untuk menampilkan Kredensial Konten. Perusahaan juga akan membuat Kredensial Konten mudah dilihat di hasil pencarian dan iklan saat ada. Namun, bagian terakhir adalah kuncinya — saat ini, sebagian besar gambar yang diambil dengan kamera ponsel saat ini tidak diberi kredensial. Agar sistem dapat berfungsi, pembuat perangkat keras perlu mengadopsi standar tersebut sehingga gambar ditandai sebagai AI atau bukan pada saat dibuat. Platform tempat gambar dibagikan juga perlu ikut serta. Sampai hal itu terjadi, kita sendirian — dan inilah saat yang lebih baik untuk tidak memercayai apa pun yang Anda lihat.

Omong-omong

  • Kamera Google Pixel 10 tidak hanya menawarkan alat pengeditan gambar AI – ada model AI generatif yang dimasukkan langsung ke dalam saluran pencitraan. Ini hanya digunakan dalam fitur yang disebut Pro Res Zoom, dan ini bertujuan untuk meningkatkan kualitas gambar zoom digital yang mungkin jelek. Itu tidak berhasil pada orang untuk saat ini, dan itu merupakan hal yang baik menurut saya.
  • Pembuat kamera tradisional juga mengadopsi Kredensial Konten C2PA, meskipun perlahan, seperti Leica M-11P seharga $9.000+.
  • Sementara itu, alat pengeditan bertenaga AI di Photoshop seperti pengisian generatif menjadi lebih canggih dan populer di kalangan fotografer. Ada jalan tengah antara gambar yang sepenuhnya dihasilkan AI dan foto yang tidak tersentuh AI, yang semakin sulit untuk didefinisikan.

Baca ini

Ikuti topik dan penulis dari cerita ini untuk melihat lebih banyak hal serupa di feed beranda hasil personalisasi Anda dan untuk menerima pembaruan email.