Gemini 2.5 Pro TTS Thai Voice Previews
In May 20, 2025, Google announced native audio output capabilities and text-to-speech API for Gemini 2.5 models.
It can generate high-quality audio in Thai language, and comes with 30 different voices. The Gemini 2.5 Flash model also has the variant also has the ability to sing.
Voice | Description | Preview |
---|---|---|
Achernar | Soft | |
Achird | Friendly | |
Algenib | Gravelly | |
Algieba | Smooth | |
Alnilam | Firm | |
Aoede | Breezy | |
Autonoe | Bright | |
Callirrhoe | Easy-going | |
Charon | Informative | |
Despina | Smooth | |
Enceladus | Breathy | |
Erinome | Clear | |
Fenrir | Excitable | |
Gacrux | Mature | |
Iapetus | Clear | |
Kore | Firm | |
Laomedeia | Upbeat | |
Leda | Youthful | |
Orus | Firm | |
Puck | Upbeat | |
Pulcherrima | Forward | |
Rasalgethi | Informative | |
Sadachbia | Lively | |
Sadaltager | Knowledgeable | |
Schedar | Even | |
Sulafat | Warm | |
Umbriel | Easy-going | |
Vindemiatrix | Gentle | |
Zephyr | Bright | |
Zubenelgenubi | Casual |
Prompt
This is the prompt sent to the model:
เป็นมนุษย์สุดประเสริฐเลิศคุณค่า กว่าบรรดาฝูงสัตว์เดรัจฉาน
จงฝ่าฟันพัฒนาวิชาการ อย่าล้างผลาญฤๅเข่นฆ่าบีฑาใคร
ไม่ถือโทษโกรธแช่งซัดฮึดฮัดด่า หัดอภัยเหมือนกีฬาอัชฌาสัย
ปฏิบัติประพฤติกฎกำหนดใจ พูดจาให้จ๊ะ ๆ จ๋า น่าฟังเอยฯ
It is a Thai pangram (source)
My observations
- Generated audio is mono with 24kHz sample rate.
- Due to it being a language model, there is still a risk of hallucination.
- The examples above are generated with Temperature set to 1 (default). With this setting, some words are read incorrectly. For example, in Pulcherrima’s output, "จงฝ่าฟันพัฒนาวิชาการ" is sometimes read as "อย่าฝ่าฟันพัฒนาวิชาการ" which reversed the meaning.
- I tried setting the Temperature to 0, and sometimes this threw the model into an infinite loop, never finishing the generation.
Singing
I tried this prompt:
sing the following lyrics expressively as if in an opera
<lyrics>
เป็นมนุษย์สุดประเสริฐเลิศคุณค่า กว่าบรรดาฝูงสัตว์เดรัจฉาน
จงฝ่าฟันพัฒนาวิชาการ อย่าล้างผลาญฤๅเข่นฆ่าบีฑาใคร
ไม่ถือโทษโกรธแช่งซัดฮึดฮัดด่า หัดอภัยเหมือนกีฬาอัชฌาสัย
ปฏิบัติประพฤติกฎกำหนดใจ พูดจาให้จ๊ะ ๆ จ๋า น่าฟังเอยฯ
</lyrics>
Gemini 2.5 Pro refuses to sing and just reads the poem normally, but Gemini 2.5 Flash can sing (albeit not very well)…
Voice | Preview | |
---|---|---|
Achernar | Soft | |
Charon | Informative |