Představte si, že byste mohli promluvit do mikrofonu na tři sekundy a umělá inteligence by pak vaším hlasem přečetla jakýkoli text — v devíti různých jazycích, s vaší přirozenou intonací a přízvukem. Přesně to teď umí Voxtral TTS, nový nástroj od francouzské společnosti Mistral, který je navíc k dispozici zcela zdarma jako open-source.
V tomto průvodci vám ukážu, co Voxtral TTS umí, jak ho vyzkoušet bez jediné koruny a proč je to zlomový moment pro každého, kdo chce pracovat s umělou inteligencí a hlasovým obsahem.
Co je Voxtral TTS a proč je výjimečný
Voxtral TTS je model pro převod textu na řeč (text-to-speech), který Mistral uvolnil 26. března 2026. Na rozdíl od většiny konkurenčních služeb, jako je ElevenLabs nebo PlayHT, má jednu zásadní výhodu — jeho váhy (weights) jsou veřejně dostupné, takže si ho můžete spustit na vlastním počítači úplně zdarma.
Klíčové vlastnosti Voxtral TTS
- Velikost modelu: 4 miliardy parametrů — běží na jedné grafické kartě s 16 GB paměti
- Klonování hlasu: Stačí 2–3 sekundy vaší nahrávky a model zachytí váš přízvuk, tempo i emoce
- 9 jazyků: Angličtina, francouzština, španělština, portugalština, italština, holandština, němčina, hindština a arabština
- Rychlost: První zvuk uslyšíte za 70–90 milisekund po odeslání požadavku
- Kvalita: V testech s lidskými hodnotiteli porazil ElevenLabs Flash v2.5 v 63 % případů
To poslední číslo je obzvlášť pozoruhodné. ElevenLabs je dosud považován za zlatý standard v AI hlasech, a Voxtral ho překonává — navíc je zadarmo.
Jak to funguje jednoduše
Voxtral TTS funguje na principu tzv. jazykového modelu, podobně jako ChatGPT — ale místo textu generuje zvuk. Zjednodušeně řečeno:
- Přijme text, který chcete převést na řeč
- Analyzuje hlasovou ukázku (pokud chcete klonovat hlas) — rozloží ji na charakteristiky jako výška, rychlost, přízvuk a emocionální zabarvení
- Vygeneruje zvukový výstup, který zní přirozeně a kopíruje styl zadaného hlasu
Celý proces probíhá v reálném čase — model generuje zvuk průběžně (streaming), takže nemusíte čekat na dokončení celého textu.
Proč je klonování hlasu tak dobré
Většina starších TTS modelů potřebovala desítky minut nahrávek pro trénink nového hlasu. Voxtral zvládne totéž ze tří sekund. Funguje to díky tzv. zero-shot přístupu — model se neučí nový hlas od nuly, ale využívá své rozsáhlé znalosti o lidské řeči a jednoduše „napodobí" styl z krátké ukázky.
Jak to vyzkoušet
Máte několik možností, jak Voxtral TTS vyzkoušet. Začneme tou nejjednodušší.
1. Vyzkoušejte v Le Chat (nejsnazší cesta)
Nejrychlejší způsob, jak si Voxtral TTS osahat, je přes Le Chat — chatovací rozhraní od Mistral.
- Přejděte na chat.mistral.ai
- Vytvořte si bezplatný účet (stačí e-mail)
- V nastavení konverzace zapněte hlasový výstup
- Napište jakýkoli text a nechte si ho přečíst
Le Chat používá Voxtral TTS na pozadí, takže uslyšíte přesně tu kvalitu, kterou model nabízí.
2. Použijte Mistral API (pro pokročilejší)
Pokud chcete větší kontrolu, můžete využít Mistral API. Prvních několik požadavků je zdarma.
- Zaregistrujte se na console.mistral.ai
- Vygenerujte si API klíč v sekci „API Keys"
- Odešlete požadavek přes příkazový řádek nebo v Pythonu:
from mistralai import Mistral
import base64
client = Mistral(api_key="váš-api-klíč")
response = client.audio.speech.create(
model="voxtral-tts-2603",
input="Ahoj, toto je ukázka AI hlasu od Mistral.",
voice="jessica"
)
# Uložení výstupu
with open("vystup.mp3", "wb") as f:
for chunk in response:
f.write(chunk)
Cena přes API je 0,016 USD za 1 000 znaků — to je přibližně 0,40 Kč za jednu stránku textu.
3. Klonování vlastního hlasu
Tady to začíná být opravdu zajímavé. Pro klonování hlasu potřebujete:
- Nahrajte krátkou ukázku svého hlasu (2–3 sekundy stačí, ideálně 5–10 sekund)
- Ujistěte se, že nahrávka je čistá — bez hluku na pozadí
- Použijte API s parametrem pro referenční hlas:
# Načtení vaší hlasové ukázky
with open("muj_hlas.wav", "rb") as f:
audio_data = base64.b64encode(f.read()).decode()
response = client.audio.speech.create(
model="voxtral-tts-2603",
input="Tento text bude přečten mým naklonovaným hlasem.",
voice={
"type": "reference",
"audio": audio_data
}
)
Model zachytí váš přízvuk, tempo řeči i emocionální zabarvení. Výsledek je překvapivě přesvědčivý — mnoho lidí nepozná rozdíl od skutečné nahrávky.
4. Spuštění na vlastním počítači (zdarma, bez limitu)
Pro ty, kteří chtějí naprostou nezávislost:
- Potřebujete grafickou kartu s alespoň 16 GB paměti (například NVIDIA RTX 4080 nebo lepší)
- Nainstalujte Python a potřebné knihovny:
pip install vllm transformers
- Stáhněte model z Hugging Face: mistralai/Voxtral-4B-TTS-2603
- Spusťte lokální server a generujte hlasy bez jakýchkoli omezení
Tato varianta je ideální pro tvůrce obsahu, kteří potřebují generovat velké množství hlasového obsahu — žádné poplatky, žádné limity.
5. Vyzkoušejte demo na Hugging Face
Pokud nemáte výkonný počítač ani nechcete nastavovat API:
- Přejděte na Hugging Face Spaces a vyhledejte „Voxtral TTS"
- V demoverzi můžete zadat text a vybrat z 20 přednastavených hlasů
- Výsledek si přehrajte přímo v prohlížeči
Praktické příklady využití
Voxtral TTS otevírá řadu možností i pro naprosté začátečníky:
Tvorba podcastů a audioknih
Máte blog nebo píšete články? Převeďte je na audio a rozšiřte svůj dosah. Jeden článek o 2 000 slovech vás přes API vyjde na méně než 2 Kč.
Hlasové komentáře k videím
Tvůrci obsahu na YouTube nebo TikTok mohou generovat profesionální hlasové komentáře bez nutnosti vlastního nahrávání. Stačí napsat scénář a Voxtral ho přečte.
Přístupnost webových stránek
Přidejte na svůj web tlačítko „Přečíst článek" a nabídněte obsah i lidem se zrakovým postižením — bez nákladů na profesionálního mluvčího.
Osobní hlasový asistent
Vytvořte si chatbota, který odpovídá vaším vlastním hlasem. Díky nízké latenci (pod 100 ms) je konverzace plynulá a přirozená.
Výuka jazyků
Voxtral podporuje 9 jazyků — můžete si nechat přečíst text s autentickým přízvukem a trénovat poslechové dovednosti.
Srovnání s konkurencí
| Vlastnost | Voxtral TTS | ElevenLabs | Google TTS | Amazon Polly |
|---|---|---|---|---|
| Cena | Zdarma (open-weight) | Od 5 $/měsíc | Placené API | Placené API |
| Klonování hlasu | Ze 3 sekund | Z 1 minuty | Ne | Ne |
| Open-source | Ano | Ne | Ne | Ne |
| Kvalita | Velmi vysoká | Velmi vysoká | Dobrá | Dobrá |
| Čeština | Ne (zatím) | Ano | Ano | Ano |
| Offline provoz | Ano | Ne | Ne | Ne |
Důležité upozornění: čeština zatím chybí
Voxtral TTS v současné verzi nepodporuje češtinu. Podporovaných je 9 jazyků — angličtina, francouzština, španělština, portugalština, italština, holandština, němčina, hindština a arabština. Pro české projekty proto prozatím doporučujeme:
- ElevenLabs — nejlepší kvalita češtiny
- Edge TTS od Microsoftu — zdarma, slušná kvalita (hlasy Antonín a Vlasta)
- Google Cloud TTS — spolehlivé, ale placené
Mistral naznačil, že podpora dalších jazyků přijde v budoucích verzích.
Tipy pro začátečníky
-
Začněte s Le Chat — je zdarma a nepotřebujete nic instalovat. Jednoduše si napište text a poslechněte si výsledek.
-
Pro klonování hlasu nahrávejte v tichém prostředí — čím čistší nahrávka, tím lepší výsledek. Stačí tři sekundy, ale deset sekund dá modelu víc informací.
-
Experimentujte s emocemi v textu — Voxtral rozumí kontextu. Vykřičníky, otázky a emocionální slova ovlivní způsob, jakým text přečte.
-
Nepotřebujete drahý hardware — pro běžné použití stačí API za zlomky korun. Lokální instalaci využijete, jen pokud generujete velké objemy.
-
Pozor na etiku — klonování cizího hlasu bez souhlasu je neetické a v mnoha zemích nelegální. Vždy klonujte pouze svůj vlastní hlas nebo hlas osoby, která vám dala výslovný souhlas.
Co to znamená pro budoucnost AI hlasů
Uvolnění Voxtral TTS jako open-source je zlomový moment. Dosud byla kvalitní syntéza řeči doménou velkých firem s uzavřenými modely a vysokými cenami. Mistral tím říká: kvalitní AI hlas by měl být dostupný každému.
V praxi to znamená:
- Menší tvůrci získají přístup k nástrojům, které si dřív nemohli dovolit
- Vývojáři mohou integrovat hlasové funkce do svých aplikací bez závislosti na třetích stranách
- Konkurence přinutí ElevenLabs a další snížit ceny nebo nabídnout více zdarma
Je to podobný posun, jako když Meta uvolnila Llama modely — otevřelo to brány inovacím, které dříve nebyly možné.
Shrnutí
Voxtral TTS od Mistral je bezplatný, open-source model pro převod textu na řeč, který překonává dosavadní lídry trhu. Zvládne naklonovat váš hlas ze tří sekund nahrávky, běží na jedné grafické kartě a podporuje devět jazyků. I když zatím neumí česky, je to výborný nástroj pro anglické projekty a jasná ukázka toho, kam se AI hlasy posouvají.
Pokud chcete začít, nejjednodušší cesta vede přes Le Chat od Mistral — je zdarma a zvládne to každý.