notes.dt.in.th

Gemini 2.5 Pro TTS Thai Voice Previews

In May 20, 2025, Google announced native audio output capabilities and text-to-speech API for Gemini 2.5 models.

It can generate high-quality audio in Thai language, and comes with 30 different voices. The Gemini 2.5 Flash model also has the variant also has the ability to sing.

VoiceDescriptionPreview
AchernarSoft
AchirdFriendly
AlgenibGravelly
AlgiebaSmooth
AlnilamFirm
AoedeBreezy
AutonoeBright
CallirrhoeEasy-going
CharonInformative
DespinaSmooth
EnceladusBreathy
ErinomeClear
FenrirExcitable
GacruxMature
IapetusClear
KoreFirm
LaomedeiaUpbeat
LedaYouthful
OrusFirm
PuckUpbeat
PulcherrimaForward
RasalgethiInformative
SadachbiaLively
SadaltagerKnowledgeable
SchedarEven
SulafatWarm
UmbrielEasy-going
VindemiatrixGentle
ZephyrBright
ZubenelgenubiCasual

Prompt

This is the prompt sent to the model:

เป็นมนุษย์สุดประเสริฐเลิศคุณค่า		กว่าบรรดาฝูงสัตว์เดรัจฉาน
จงฝ่าฟันพัฒนาวิชาการ		อย่าล้างผลาญฤๅเข่นฆ่าบีฑาใคร
ไม่ถือโทษโกรธแช่งซัดฮึดฮัดด่า		หัดอภัยเหมือนกีฬาอัชฌาสัย
ปฏิบัติประพฤติกฎกำหนดใจ		พูดจาให้จ๊ะ ๆ จ๋า น่าฟังเอยฯ

It is a Thai pangram (source)

My observations

  • Generated audio is mono with 24kHz sample rate.
  • Due to it being a language model, there is still a risk of hallucination.
    • The examples above are generated with Temperature set to 1 (default). With this setting, some words are read incorrectly. For example, in Pulcherrima’s output, "จงฝ่าฟันพัฒนาวิชาการ" is sometimes read as "อย่าฝ่าฟันพัฒนาวิชาการ" which reversed the meaning.
    • I tried setting the Temperature to 0, and sometimes this threw the model into an infinite loop, never finishing the generation.

Singing

I tried this prompt:

sing the following lyrics expressively as if in an opera

<lyrics>
เป็นมนุษย์สุดประเสริฐเลิศคุณค่า		กว่าบรรดาฝูงสัตว์เดรัจฉาน
จงฝ่าฟันพัฒนาวิชาการ		อย่าล้างผลาญฤๅเข่นฆ่าบีฑาใคร
ไม่ถือโทษโกรธแช่งซัดฮึดฮัดด่า		หัดอภัยเหมือนกีฬาอัชฌาสัย
ปฏิบัติประพฤติกฎกำหนดใจ		พูดจาให้จ๊ะ ๆ จ๋า น่าฟังเอยฯ
</lyrics>

Gemini 2.5 Pro refuses to sing and just reads the poem normally, but Gemini 2.5 Flash can sing (albeit not very well)…

VoicePreview
AchernarSoft
CharonInformative