Gemini 2.5 Perkenalkan Fitur Audio Native untuk Dialog AI Real-Time

ARTIKEL TERBARU

Snapdragon X2 Absen di Computex 2025, Qualcomm Pilih Tunda Pengumuman

sehari lalu

Anker Siapkan Soundcore V40i, Tawarkan Bluetooth 5.4 dan IP55

sehari lalu

Game Kocak Super Flappy Golf Kini Tersedia Gratis di iOS dan Android

sehari lalu

Terobosan Baterai Kuantum Janjikan Pengisian Ultra-Cepat

sehari lalu

Startup California Bersihkan Air dan Kurangi CO2 dengan Biaya Rendah

sehari lalu

ARTIKEL TERBARU

BARU RILIS DI INDONESIA

Rp3.999.000

Rp2.989.000

Rp1.199.000

Rp951.000

Rp1.699.000

BARU RILIS DI INDONESIA

Rp3.999.000

Rp2.989.000

Rp1.199.000

Rp951.000

Rp1.699.000

Tercepat Saat ini

Gemini 2.5 diluncurkan dengan kemampuan audio native yang memungkinkan komunikasi suara real-time dan interaktif menggunakan teknologi AI. Model ini mampu memahami serta menghasilkan konten multimodal berupa teks, gambar, audio, video, dan kode secara bersamaan.

Penggunaan Gemini 2.5 sudah diaplikasikan dalam berbagai produk dan prototipe global, seperti NotebookLM’s Audio Overviews dan Project Astra.

Fitur audio native ini mendukung percakapan yang alami dan kaya nuansa, dengan kemampuan mengenali nada suara, aksen, hingga vokalisasi non-verbal seperti tawa.

Fitur Utama Audio Native Gemini 2.5

Fitur preview dialog audio native di Gemini 2.5 Flash memungkinkan interaksi suara berkualitas tinggi dengan latensi sangat rendah, sehingga percakapan berlangsung lancar dan natural.

Pengguna juga dapat mengontrol gaya penyampaian menggunakan perintah bahasa alami, termasuk mengatur aksen, nada, ekspresi, bahkan berbisik.

Gemini 2.5 dapat mengintegrasikan alat dan fungsi panggilan selama dialog untuk mengakses informasi real-time dari Google Search atau alat khusus yang dibuat pengembang.

Sistem ini juga memiliki kesadaran konteks percakapan yang mampu membedakan dan mengabaikan suara latar atau audio tidak relevan, merespon saat diperlukan.

Kemampuan native streaming audio dan video memungkinkan Gemini 2.5 berdialog tentang konten yang dilihat dalam umpan video atau berbagi layar. Selain itu, model ini mendukung lebih dari 24 bahasa, bahkan memungkinkan pencampuran bahasa dalam satu kalimat.

Fitur dialog afektif membuat Gemini 2.5 merespon berdasarkan nada suara pengguna, menyadari bahwa intonasi berbeda dapat menghasilkan makna berbeda.

Kemampuan penalaran tingkat lanjut juga meningkatkan kualitas interaksi, khususnya dalam percakapan dengan tugas kompleks.

Kontrol Generasi Audio dan Keamanan

Gemini 2.5 menawarkan kontrol presisi atas generasi audio mulai dari potongan pendek hingga narasi panjang, dengan pengaturan gaya, nada, ekspresi emosional, dan performa yang dapat disesuaikan melalui perintah bahasa alami.

Model ini mampu menghidupkan teks dengan pembacaan ekspresif untuk berbagai jenis konten seperti puisi, siaran berita, dan cerita, termasuk menampilkan emosi dan aksen sesuai permintaan. Kecepatan dan pelafalan juga dapat dikontrol untuk meningkatkan akurasi.

Fitur generasi dialog multi-pembicara memungkinkan penciptaan audio percakapan dua orang ala “NotebookLM-style,” membuat konten lebih menarik. Kemampuan multibahasa mendukung pembuatan konten audio dalam lebih dari 24 bahasa secara mudah.

Untuk generasi suara yang dapat dikendalikan, pengembang dapat memilih Gemini 2.5 Pro Preview untuk kualitas tinggi pada permintaan kompleks atau Gemini 2.5 Flash Preview untuk aplikasi sehari-hari yang hemat biaya. Fitur ini mendukung pembuatan audio dinamis untuk pengumuman, cerita, podcast, hingga video game.

Pengembangan fitur ini juga disertai evaluasi risiko secara proaktif dan penerapan strategi mitigasi, termasuk uji keamanan internal dan eksternal yang ketat serta red teaming. Semua keluaran audio dilengkapi watermark SynthID untuk memastikan transparansi dan identifikasi sumber AI.

Kini, Gemini 2.5 menghadirkan kemampuan audio native melalui Gemini API di Google AI Studio dan Vertex AI. Pengembang dapat mencoba dialog audio native di tab stream Google AI Studio dan generasi suara di tab generate media untuk versi Pro dan Flash.

Baca Selengkapnya

Simpan