Entraînement de modèles de synthèse vocale à l'aide des voix enregistrées pour les jeux suivants (Space Quest 6, Leisure Suit Larry), permettant d'imiter la voix des acteurs ayant joué les personages
Extraction des textes du jeu et passage dans un moteur text-to-speech avec les voix générées ci-dessus
Portage du jeu vers un moteur plus récent avec quelques patchs sur le bytecode du jeu, ce qui permet de déclencher la lecture des clips sonores générés
Correction au passage de quelques bugs, en particulier des répliques qui n'étaient pas attribuées au bon personnage (peu gênant sur la version texte, mais immédiatement détectable avec la version vocale)
J'imagine que des gens ont vu "intelligence artificielle" dans le titre et n'ont pas été regarder plus loin?
Je précise au passage que le modèle de text to speech semble s'entraîner en local sur un gpu, ce qui permet au moins de se rendre compte de la consommation d'énergie nécessaire. Qui d'ailleurs est sûrement plus réduit que pour un "large language model" ou d'autres machins généralistes.
Ça donne aussi la recette hour fabriquer un deepfake audio à partir de n'importe quelle voix, comme toute autre technologie, les utilisations à des fins néfastes ne sont jamais loin, mais j'ai trouvé cette application intéressante
# Lien mort
Posté par jmiven . Évalué à 2 (+0/-0).
Le repo a été supprimé et du coup le lien est mort.
[^] # Re: Lien mort
Posté par pulkomandy (site web personnel, Mastodon) . Évalué à 5 (+3/-0).
La wayback machine a eu le temps d'en faire un backup:
http://web.archive.org/web/20241112221046/https://github.com/cdb-boop/Space-Quest-V-Voice-Acting-Mod
petit résumé:
[^] # Re: Lien mort
Posté par jmiven . Évalué à 3 (+1/-0).
Au passage je n'ai pas compris pourquoi c'était moinssé même avant que le lien soit mort, merci de l'avoir posté c'est intéressant :)
[^] # Re: Lien mort
Posté par pulkomandy (site web personnel, Mastodon) . Évalué à 7 (+5/-0).
J'imagine que des gens ont vu "intelligence artificielle" dans le titre et n'ont pas été regarder plus loin?
Je précise au passage que le modèle de text to speech semble s'entraîner en local sur un gpu, ce qui permet au moins de se rendre compte de la consommation d'énergie nécessaire. Qui d'ailleurs est sûrement plus réduit que pour un "large language model" ou d'autres machins généralistes.
Ça donne aussi la recette hour fabriquer un deepfake audio à partir de n'importe quelle voix, comme toute autre technologie, les utilisations à des fins néfastes ne sont jamais loin, mais j'ai trouvé cette application intéressante
Envoyer un commentaire
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.