
- 5 hari lalu
Inovasi tato elektronik membaca aktivitas otak, memprediksi stres kognitif. Teknologi terjangkau ini berpotensi mengubah cara pemantauan kesehatan mental pekerja.
Gemini 2.5 diluncurkan dengan kemampuan audio native yang memungkinkan komunikasi suara real-time dan interaktif menggunakan teknologi AI. Model ini mampu memahami serta menghasilkan konten multimodal berupa teks, gambar, audio, video, dan kode secara bersamaan.
Penggunaan Gemini 2.5 sudah diaplikasikan dalam berbagai produk dan prototipe global, seperti NotebookLM’s Audio Overviews dan Project Astra.
Fitur audio native ini mendukung percakapan yang alami dan kaya nuansa, dengan kemampuan mengenali nada suara, aksen, hingga vokalisasi non-verbal seperti tawa.
Fitur preview dialog audio native di Gemini 2.5 Flash memungkinkan interaksi suara berkualitas tinggi dengan latensi sangat rendah, sehingga percakapan berlangsung lancar dan natural.
Pengguna juga dapat mengontrol gaya penyampaian menggunakan perintah bahasa alami, termasuk mengatur aksen, nada, ekspresi, bahkan berbisik.
Gemini 2.5 dapat mengintegrasikan alat dan fungsi panggilan selama dialog untuk mengakses informasi real-time dari Google Search atau alat khusus yang dibuat pengembang.
Sistem ini juga memiliki kesadaran konteks percakapan yang mampu membedakan dan mengabaikan suara latar atau audio tidak relevan, merespon saat diperlukan.
Kemampuan native streaming audio dan video memungkinkan Gemini 2.5 berdialog tentang konten yang dilihat dalam umpan video atau berbagi layar. Selain itu, model ini mendukung lebih dari 24 bahasa, bahkan memungkinkan pencampuran bahasa dalam satu kalimat.
Fitur dialog afektif membuat Gemini 2.5 merespon berdasarkan nada suara pengguna, menyadari bahwa intonasi berbeda dapat menghasilkan makna berbeda.
Kemampuan penalaran tingkat lanjut juga meningkatkan kualitas interaksi, khususnya dalam percakapan dengan tugas kompleks.
Gemini 2.5 menawarkan kontrol presisi atas generasi audio mulai dari potongan pendek hingga narasi panjang, dengan pengaturan gaya, nada, ekspresi emosional, dan performa yang dapat disesuaikan melalui perintah bahasa alami.
Model ini mampu menghidupkan teks dengan pembacaan ekspresif untuk berbagai jenis konten seperti puisi, siaran berita, dan cerita, termasuk menampilkan emosi dan aksen sesuai permintaan. Kecepatan dan pelafalan juga dapat dikontrol untuk meningkatkan akurasi.
Fitur generasi dialog multi-pembicara memungkinkan penciptaan audio percakapan dua orang ala “NotebookLM-style,” membuat konten lebih menarik. Kemampuan multibahasa mendukung pembuatan konten audio dalam lebih dari 24 bahasa secara mudah.
Untuk generasi suara yang dapat dikendalikan, pengembang dapat memilih Gemini 2.5 Pro Preview untuk kualitas tinggi pada permintaan kompleks atau Gemini 2.5 Flash Preview untuk aplikasi sehari-hari yang hemat biaya. Fitur ini mendukung pembuatan audio dinamis untuk pengumuman, cerita, podcast, hingga video game.
Pengembangan fitur ini juga disertai evaluasi risiko secara proaktif dan penerapan strategi mitigasi, termasuk uji keamanan internal dan eksternal yang ketat serta red teaming. Semua keluaran audio dilengkapi watermark SynthID untuk memastikan transparansi dan identifikasi sumber AI.
Kini, Gemini 2.5 menghadirkan kemampuan audio native melalui Gemini API di Google AI Studio dan Vertex AI. Pengembang dapat mencoba dialog audio native di tab stream Google AI Studio dan generasi suara di tab generate media untuk versi Pro dan Flash.