@silvanomarioni @internet@diggita.com @video@mastodon.uno @internet@mastodon.uno @video@diggita.com Questa cosa della "bassa qualità" viene spesso fraintesa. "qualità" del video/audio quando invece si intende qualità dei contenuti (che quella, non migliora se nessun umano ci mette le zampe).
Come quando ti dicono "accessibile a tutti" e intendono "economico" (termine corretto ABBORDABILE) e se c'hai una disabilità leggi "accessibile" compri e prendi la fregatura.
Detto questo, io parlo da appassionata di manipolazione audio con voci elettroniche. Usando queste voci (più o meno "human sounding") da quasi trent'anni, posso assicurare che la voce elettronica campionata da quella umana, non eguaglierà mai un vero attore.
Io sto lavorando su un podcast dove uso le voci elettroniche per vari personaggi, e i testi li scrivo insieme a un mio amico. Effetti audio dinamici... Difatti dovevo iniziarlo a pubblicare lo scorso anno ma non è mai stato soddisfacente come credibilità delle voci.
Io e Alex investiamo tempo, soldi, energia, litigate e delusioni. Questi [parolaccia_variabile_dinamica] buttano su un testo sul generatore, caricano la voce, chi se ne frega degli errori di pronuncia, addirittura una stessa parola pronunciata in 3 modi diversi all'interno dello stesso video, oltre alla qualità pessima nei contenuti e nella forma, proprio struttura linguistica. E ci guadagnano, cazzo. Si può dire? Mi spiace ma qua ci vuole.
Per mia esperienza, il mio piano ElevenLabs Creator dà 300 mila crediti al mese. E se in un testo ci sono errori di pronuncia, io lo rigenero fin che non è di mio pieno gradimento. Ogni tot caratteri, sono tot crediti.
Ripeto. Ce l'ho a morte con questi che pensano solo alle visual. Io non ho visual, non ci guadagno. Ci metto la PASSIONE.