1 / 13

Síntese de voz utilizando avatares GPVoz

Síntese de voz utilizando avatares GPVoz. Gabriel de Albuquerque Styve Stallone. Roteiro. O que foi feito na área Potenciais parceiros Possíveis soluções para o problema. O que foi feito na área. DOXVOX desenvolvido na UFRJ, utiliza a síntese de difones. Gratuito e Open Souce.

tuan
Télécharger la présentation

Síntese de voz utilizando avatares GPVoz

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Síntese de voz utilizando avataresGPVoz Gabriel de Albuquerque Styve Stallone

  2. Roteiro • O que foi feito na área • Potenciais parceiros • Possíveis soluções para o problema

  3. O que foi feito na área • DOXVOX desenvolvido na UFRJ, utiliza a síntese de difones. Gratuito e Open Souce. • síntese de difones é baseada em concatenação de difones, que são pequenas seqüências de áudio que amostram a transição da metade de um fonema para a metade de outro. • O mecanismo utiliza-se de uma tabela onde são guardados grafemas e seus respectivos fonemas. Palavras que fogem a regra podem ser guardadas por inteiro. • Um dos sistemas de acessibilidade mais usados no país.

  4. O que foi feito na area • UFRGS , desenvolveu o Spoltech • Buscava tornar o CSLU toolkit, desenvolvido no (CSLU), localizado no Oregon Graduate Instítute funcional para o nosso português brasileiro; • CSLU toolkit: " um sistema que torna possível a criação de sistemas de processamento de fala de maneira simples, disponibilizando, inclusive, uma ferramenta visual para concepção rápida e intuitiva de aplicações de síntese e reconhecimento de fala.“ • Buscou parceria com os desenvolvedores do CSLU toolkit; • Parceria gerou resultados, a síntese já opera em português e o reconhecimento já atinge 98% de acerto ao reconhecer dígitos.

  5. Potenciais parceiros • Na UFRGS, aluno está desenvolvendo um projeto de leitor de livros com o sintetizador de voz Open Souce eSpeek. • UFRJ criadora do DOXVOX • A UFRGS depois da parceria com a CSLU, reforçou a necessidade de buscar parcerias com outras instituições.

  6. Possível solução

  7. Módulos Text-To-Speech • O modulo TTS faz a transformação de texto para fala. Atualmente existem muitos sintetizadores disponíveis no mercado. • Podemos dividir o modulo TTS em 2 partes • A primeira parte pega o texto e transforma em uma seqüências de fonemas (pode ser uma tabela de associação), também faz a conversão de datas, números e demais símbolos para fonemas. • A segunda parte que através da seqüência de fonemas e parâmetros como intensidade e duração, realiza a síntese da voz. Texto voz Pré-processamento sintese

  8. Tabela de conversão grafema – fonema (DOXVOX)

  9. Módulos Extração do Fonema • O Modulo Extração de Fonemas é um reconhecedor de padrões, que podemos dividir em também duas partes. • O modulo de extração de características que ao receber o arquivo de áudio, captura as informações mais importantes para o reconhecimento. EX: Taxa que o sinal cruza o eixo horizontal, distancia entre picos. • O outro módulo é um módulo de comparação que irá usar um algoritmo para comparar com padrões previamente treinados. ( Redes Neurais, Quantização Vetorial, etc) • Deixaremos como próximo passo o estudo das técnicas de reconhecimento de padrões. Voz Extração de Parametos comparação Fonema

  10. Modulo TTS e Extração do fonemas • Resumidamente o primeiro módulo realiza a síntese, e o segundo modulo realiza um reconhecimento. • Mais em todos os mecanismos de síntese já está embutida a parte que faz a tradução de grafemas para fonemas (tabelas de conversão). • Podemos utilizar dessa tabela para obter os fonemas resultantes sem precisar do segundo modulo.

  11. Modulo TTS e Extração do fonemas

  12. Módulos Interpretação do Visema • O módulo interpretação faz a associação de um fonema recebido pelo modulo extração do fonema com o visema correspondente no banco de visemas. • Uma simplificação utilizada na pratica, é fazer os visemas para representar apenas sons de vogais.

  13. Módulo Animação • O modulo de animação receberá os visemas e sua intensidade e duração. • Visemas alem dos movimentos labias, podem representar expressões. Ex: surpresa • Para isso o texto precisa ser adaptado para conter informações emocionais.

More Related