Upowszechniło się generowanie komentarzy do filmików na YT za pomocą syntezatorów mowy. Nie ma co się jednak dziwić, jeśli sprowadza się to do założenia konta, dostosowania skryptu, wybrania głosu i wpisania tekstu do przeczytania. Poniżej rozwiązanie oparte na

W macOS trzeba zainstalować pythona, np tak:

brew install python

Potem instalacja PIPa

curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py

python3 get-pip.py

Założenie konta na https://elevenlabs.io/speech-synthesis i wyciągnięcie swojego klucza API Key

I wstawienie do skryptu pythonowego speak.py w miejsce xi-api-key

import requests

CHUNK_SIZE = 1024
url = "https://api.elevenlabs.io/v1/text-to-speech/21m00Tcm4TlvDq8ikWAM"

headers = {
  "Accept": "audio/mpeg",
  "Content-Type": "application/json",
  "xi-api-key": "xxxxxxxxxxxxxxxxxxxxxx"
}

data = {
  "text": "O Jejku, nie wiem. Byle jakiś, bo teraz nie wymyślę niczego! ",
  "model_id": "eleven_multilingual_v2",
  "voice_settings": {
    "stability": 0.5,
    "similarity_boost": 0.5
  }
}

response = requests.post(url, json=data, headers=headers)
with open('output.mp3', 'wb') as f:
    for chunk in response.iter_content(chunk_size=CHUNK_SIZE):
        if chunk:
            f.write(chunk)

Wywołanie tego poprzez python3 speak.py generuje lokalnie output.mp3. Użycie modelu eleven_multilingual_v2 zwalnia z jawnego deklarowania języka - sam rozpozn, że chodzi o język polski.

Output

0:00

/3.709387755102041