- Liittynyt
- 27.11.2016
- Viestejä
- 1 002
Oman vibekoodaus-projektin tuotos nyt julkisesti saatavilla.
Sovellus luo videoista tai audio-tiedostoista tekstitystiedoston ja jos näin käyttäjä haluaa, kääntää sen vielä toiselle kielelle. Tuki löytyy myös pelkän tekstitystiedoston käännölle toiselle kielelle. Mahdollisuus jonottaa töitä. Kaikki hoidetaan paikallisesti koneella, tuki on sekä sovelluksen sisäisille kääntäjille, että esim Ollamassa pyörivälle kääntäjälle.
Tuki pitäisi löytyä niin puhtaalle CPU:lla ajolle tai Nvidia tai AMD:lle. Moduulit ladattavissa suoraan sovelluksen sisäisesti, paitsi jos ajat Ollaman kautta. Itseltä löytyy ainoastaan Amd Ryzen 5 3600 ja RX 570 8GB, joten Nvidian ajoa ei ole testattu.
Sovellus käyttää jo olemassa olevia moduuleja näiden aikaan saamiseksi: mm. WhisperX, FasterWhisper tekstityksen tekoon, ffmpg apuna käyttäen.
Kääntö mm. NLLM, OPUS, Tower, TranslateGemma.
Oman kokeilun perusteella paras lopputulos on tullut oheisella combolla: Whisper Large-v3, WhisperX ja TranslateGemma:12b Ollamassa. Sovelluksen sisällä ajettuna TranslateGemma suorituskyky (nopeus) oli huomattavan paljon heikompi.
WhisperX toimii CPU:lla, mutta NVidia GPU:lla pitäisi olla huomattavan paljon nopeampi. Testailussa sovelluksen sisällä tekstin kääntö noin 1h, Ollamalla CPU/GPU offloadilla alle 30min.
Tuki (kaikkea ei testattu)
Video: .mkv .mp4 .avi .mov .wmv .flv .webm .m4v .ts .m2ts .vob
Audio: .mp3 .flac .wav .aac .ogg .m4a .opus .wma
Sub: .srt .vtt .ass
Arvostaisin kovasti palautetta jos testailette toimivuutta. Sovelluksesta löytyy sisäinen helppi, mutta mielelläni autan jos asetusten tulva tuntuu ylitsepääsemättömältä
Tämä on tarkoituksella tehty hyvin säädettäväksi, koska ihmisillä on eri laitteet ja tarpeet. Jos ei tiedä mistä lähteä liikkeelle, niin automaattiset asetukset on hyvä lähtötilanne ja siitä tarpeen mukaan säätämään.
Oman kokemuksen mukaan englanninkieliset tekstitykset ovat hyvin lähellä riittävää tasoa, kääntö vaihtelee huomattavasti käytetyn mallin mukaan. TranslateGemma:12b tuottaa erittäin hyvää jälkeä, vain pieniä virheitä siellä täällä. NLLM tuottaa enemmän "jäykempää" kieltä joka voi toimia esimerkiksi teknisemmissä sisällöissä.
HOX! LLM moduulit vie aika reippaasti tilaa.
Tässä vaiheessa vielä pelkkä asennusmedia, mutta tarvittaessa voin julkaista ihan lähdekoodinkin kunhan ollaan saatu testattua toimivuutta enemmän.
Google Drive linkki:
Linkki: https://drive.google.com/file/d/1tJnbTXUZ-sEEQHXgxvKG864AVlZVD2Db/view?usp=sharing
Sovellus luo videoista tai audio-tiedostoista tekstitystiedoston ja jos näin käyttäjä haluaa, kääntää sen vielä toiselle kielelle. Tuki löytyy myös pelkän tekstitystiedoston käännölle toiselle kielelle. Mahdollisuus jonottaa töitä. Kaikki hoidetaan paikallisesti koneella, tuki on sekä sovelluksen sisäisille kääntäjille, että esim Ollamassa pyörivälle kääntäjälle.
Tuki pitäisi löytyä niin puhtaalle CPU:lla ajolle tai Nvidia tai AMD:lle. Moduulit ladattavissa suoraan sovelluksen sisäisesti, paitsi jos ajat Ollaman kautta. Itseltä löytyy ainoastaan Amd Ryzen 5 3600 ja RX 570 8GB, joten Nvidian ajoa ei ole testattu.
Sovellus käyttää jo olemassa olevia moduuleja näiden aikaan saamiseksi: mm. WhisperX, FasterWhisper tekstityksen tekoon, ffmpg apuna käyttäen.
Kääntö mm. NLLM, OPUS, Tower, TranslateGemma.
Oman kokeilun perusteella paras lopputulos on tullut oheisella combolla: Whisper Large-v3, WhisperX ja TranslateGemma:12b Ollamassa. Sovelluksen sisällä ajettuna TranslateGemma suorituskyky (nopeus) oli huomattavan paljon heikompi.
WhisperX toimii CPU:lla, mutta NVidia GPU:lla pitäisi olla huomattavan paljon nopeampi. Testailussa sovelluksen sisällä tekstin kääntö noin 1h, Ollamalla CPU/GPU offloadilla alle 30min.
Tuki (kaikkea ei testattu)
Video: .mkv .mp4 .avi .mov .wmv .flv .webm .m4v .ts .m2ts .vob
Audio: .mp3 .flac .wav .aac .ogg .m4a .opus .wma
Sub: .srt .vtt .ass
Arvostaisin kovasti palautetta jos testailette toimivuutta. Sovelluksesta löytyy sisäinen helppi, mutta mielelläni autan jos asetusten tulva tuntuu ylitsepääsemättömältä
Oman kokemuksen mukaan englanninkieliset tekstitykset ovat hyvin lähellä riittävää tasoa, kääntö vaihtelee huomattavasti käytetyn mallin mukaan. TranslateGemma:12b tuottaa erittäin hyvää jälkeä, vain pieniä virheitä siellä täällä. NLLM tuottaa enemmän "jäykempää" kieltä joka voi toimia esimerkiksi teknisemmissä sisällöissä.
HOX! LLM moduulit vie aika reippaasti tilaa.
Tässä vaiheessa vielä pelkkä asennusmedia, mutta tarvittaessa voin julkaista ihan lähdekoodinkin kunhan ollaan saatu testattua toimivuutta enemmän.
Google Drive linkki:
Linkki: https://drive.google.com/file/d/1tJnbTXUZ-sEEQHXgxvKG864AVlZVD2Db/view?usp=sharing