Ääni tekstiksi automaattisen litteroinnin avulla? (Litterointi ja puheentunnistus)

Liittynyt
17.10.2016
Viestejä
493
(En äkkiseltään löytänyt keskustelua aiheesta, niin tein nyt sellaisen.)

Otsikossa kysymys eli mikä olisi paras tapa saada äänitiedostot (muistiinpanoja) tekstimuotoon mahdollisimman nopeasti ja helposti? Ja tietenkin ilmaiseksi tai mahdollisimman halvalla.

Tämä keskustelu voi olla samalla yleinen litterointiin, puheentunnistukseen ja sen automaatioon liittyvä keskustelu. Ja samalla tietenkin eri ohjelmistoihin liittyviä kokemuksia voi jakaa, mikä toimii esimerkiksi suomen kielen kanssa parhaiten. Tekoäly myös tällä rintamalla varmasti enemmän ja enemmän esillä, ja siihen liittyvät kysymykset tietoturvaan sekä yksityisyyteen. Pystyykö automaattista litterointia tekemään esimerkiksi täysin lokaalisti ilman internettiyhteyttä, ja mahdollisesti vielä ohjelmalla joka perustuu avoimeen lähdekoodiin? Samalla lopputuloksen laadun tai tarkkuuden kuitenkaan liikaa kärsimättä?

Google tarjoili ensimmäiseksi vaihtoehdoksi ScriptMe (Lite) nimistä ohjelmaa. Ilmeisesti Ruotsista lähtöisin oleva yritys, ja sillä on aika vakuuttavia referenssejä iso lista. Muutenkin nuo ylläolevat "ehdot" tuntuvat täyttyvän lähes täysin. Ongelmana vain hinnoittelu ja ilmaisversion rajallisuus, kuten aina, kun joku vaikuttaa liian hyvältä ollakseen totta. Ilmaisversiolla on ilmeisesti mahdollista litteroida vain 5 minuuttia pitkiä tallenteita. Minulla ne ovat kuitenkin usein 10-20 minuuttia, jolloin pitäisi ostaa pro-versio, jonka hintaa en löydä suoranaisesti. Tai löydän hinnan, mutta eihän se voi olla tämä sama $45/kk tai $450/vuosi, joka on hinta "normiversiolle" ilman "Liteä"?

Microsoftilta (Azure AI Speech) ja Googlelta löytyy (Speech-to-Text) myös omat puheentunnistus teknologiansa, joita voisin kuvitella heidän ohjelmistojensa käyttävän. Onko näiden pohjalta jotain "peruskäyttöön" sopivia sovelluksia? Onko esimerkiksi Wordin litterointi ominaisuudesta kokemuksia? Oppilaitoksien M365-sopimuksilla on ilmeisesti mahdollista litteroida 300 minuuttia kuukaudessa.
 
Ilmaista ja paikallisesti toimivaa Subtitle Editiä käytän tekstityksen tekemiseen vieraskielisistä elokuvista tai mp3:sta. Tuo osaa käyttää useita eri tekoälyjä puheentunnistukseen, mutta suosittelen OpenAI:n Whisperiä (ohjelma lataa sen halutessa automaattisesti). Tarkka versio: Purfview's Faster-Whisper-XXL, model: large-v2 2.9GB.

Suomen kieli on tuettu, mutta todellisesta tarkkuudesta en osaa sanoa. On riittäny omaan huvikäyttöön.

EDIT: Tuo on githubissa eli pääsee itekki koodaamaan tai korjaamaan bugeja: Releases · SubtitleEdit/subtitleedit
 
Viimeksi muokattu:
edit. Oops. Olikin kyse ääni tekstiksi. Tässä on palvelu teksti ääneksi.
Narakeet. Ilmainen tiettyyn rajaan, edullinen senkin jälkeen. Hyvät äänet.
Teksti Puheeksi
1739192007393.png
 
edit. Oops. Olikin kyse ääni tekstiksi. Tässä on palvelu teksti ääneksi.
Narakeet. Ilmainen tiettyyn rajaan, edullinen senkin jälkeen. Hyvät äänet.
Teksti Puheeksi
1739192007393.png
Hyvä tietää tuostakin. Sopii varmasti ketjuun oikein hyvin teksti-puheeksi keskustelukin. En tosin tiedä missä tapauksessa tuota tarvitaan, onko se tarkoitettua puhevaikeuksista kärsiville? :smile:
 
Office365:sessa on ilmaisia speech-to-text työkaluja, jotenkin hankala noita oli käyttää, mutta onnistuin kyllä jonkun haastattelun transcribeämään.
 
Itse olen käyttänyt elokuviin, TV sarjoihin ja YouTube videoihin tosi paljon ilmaista Purfview's Faster Whisper XXL ohjelmaa jonka voi ajaa lokaalisti CPU:lla tai GPU:lla (CUDA). Kokemusta lähinnä englanninkielisistä elokuvista, mutta myös muutamasta suomalaisesta.

Komento jolla oman kokemuksen mukaan saa hyvät tekstit on:

Koodi:
C:\Faster-Whisper-XXL\faster-whisper-xxl.exe -l en -m large-v2 --standard --output_dir . --ff_mdx_kim2 --mdx_device cuda --vad_alt_method pyannote_v3 elokuva.mkv

-l en argumentin voi muuttaa -l Finnish. Tällaista komentoa myös tuon ohjelman kehittäjä suosittelee nimenomaan elokuviin johon haluaa luettavat tekstit ajastuksilla. Jos haluaa tekstin ilman ajastuksia täytyy lisätä --output_format=text. Jos haluaa lauseen per rivi niin --standard voi muuttaa --sentence.

large-v2 ja large-v3 on eroja. v2 tuntuu antavan yleisesti paremman lopputuloksen, mutta v3 saattaa olla parempi vaikeasti ymmärrettävissä kohdissa, silloin myös korkea --beam_size (esim. 20) on toimiva. Noin olen ratkaissut monet kohdat joista en ole saanut ollenkaan selvää.

Englannin kielellä lopputulos on parempaa kuin mihin itse pystyisin. Suomen kielellä lopputulos on vähän niin ja näin. Joskus jälki on hyvää ja joskus ei, se saattaa tehdä aika paljon virheitä, mutta ainakin sillä saa luotua ihan hyvät ajastukset. Kuitenkin ihan katsottavaa tekstiä mielestäni jos vain jaksaa sietää niitä virheitä. Puheen selkeys on myös tärkeää. Jos puhe on vaikeaselkoista niin silloin jälki saattaa olla todella huonoa. Näin on käynyt vain muutaman kerran joista yksi oli Woodstock (1970) missä on paljon huonolaatuista laulua eli kaikkeen tämä ei pysty.

Viimeisenä vinkkinä, että tehdyt tekstit kannattaa avata Subtitle Edit ohjelmalla ja pistää sieltä Tools->Adjust durations->Adjust via seconds (+ Enforce min/max duration) ja lisää vähän aikaa, vaikka sekunnin, muuten ajastukset on mielestäni liian lyhyet.

Ehdottomasti kokeilemisen arvoinen ohjelma.
 

Uusimmat viestit

Statistiikka

Viestiketjuista
267 681
Viestejä
4 627 284
Jäsenet
76 085
Uusin jäsen
Djangoo

Hinta.fi

Back
Ylös Bottom