Anonim
Skype Translate

“O Skype Translator depende do aprendizado de máquina, o que significa que quanto mais a tecnologia é usada, mais inteligente ela fica. Começamos com inglês e espanhol e, à medida que mais pessoas usam a visualização do Skype Translator nesses idiomas, a qualidade melhora continuamente ”, disse o Skype, da Microsoft.

Também está planejada a tradução de 'mensagens instantâneas' entre mais de 40 idiomas.

"Os dois idiomas falados e mais de 40 idiomas de mensagens instantâneas estarão disponíveis para clientes do Skype que se inscreveram no Skype Translator e estão usando o Windows 8.1 na área de trabalho ou no dispositivo", disse o Skype.

n

Durante o que o Skype chama de 'estágio de visualização', as conversas dos participantes serão gravadas e usadas para treinar ainda mais o tradutor. “O software pode aprender a reconhecer e traduzir melhor a diversidade de tópicos, sotaques e variações de idioma dos usuários reais do Skype Translator. Todos os participantes são notificados quando a chamada começa que sua conversa será gravada. ”

O processo de tradução inclui a remoção de 'disfluências' ('ahs', 'umms' e reformulações), divisão do texto em frases e a adição de pontuação e uso de maiúsculas.

Os dados de treinamento vieram de várias fontes, incluindo páginas da Web traduzidas, vídeos com legendas, além de conversas individuais traduzidas e transcritas anteriormente.

Depois que esses dados são preparados e inseridos no sistema de aprendizado de máquina, o software de aprendizado de máquina cria um modelo estatístico das palavras nessas conversas e de seu contexto.

"Quando você diz algo, o software pode encontrar algo semelhante em seu modelo estatístico e aplicar a transformação aprendida anteriormente de áudio para texto e de texto para o idioma estrangeiro", disse Skype.

O tradutor de linguagem de máquina é o mesmo que está por trás do Bing Translator da Microsoft, treinado especificamente para conversas.

Um 'bot' é responsável por criar a chamada e enviar fluxos de áudio para os mecanismos de fala em troca de tradução e transcrição. “O bot tradutor atua como um terceiro participante da ligação. Ele traduz o que você acabou de dizer quando terminou de falar e o que a pessoa que você ligou disse quando terminou de falar ”, disse o Skype. “Vimos que os clientes que estão acostumados a falar através de um intérprete humano ficam rapidamente à vontade com a situação. Outros exigem que se acostume com esse novo modo de interação. ”

Em 2011, a Microsoft Research relatou melhorias na precisão do reconhecimento de voz em quatro movimentos:

  • Troca de 'modelos de Markov ocultos de rede neural artificial' (ANN-HMMs) para 'modelos de mistura gaussianos dependentes de contexto ocultos (Mark-modelos de CD-GMM-HMMs).
  • Passando da análise de "fonemas" - aproximadamente 30 sons de fala usados ​​nas definições de dicionário - para "senones" - sons de fala mais curtos, dos quais existem milhares.
  • Usando arquiteturas de redes neurais 'profundas' para melhorar o CD-GMM-HMM e criar o que foi chamado de 'CD-DNN-HMM'.
  • Usando processadores gráficos para ajudar com a carga computacional, que a Microsoft disse ser semelhante ao processamento de gráficos 3D.

Foi publicado um artigo, 'Redes neurais profundas pré-treinadas e dependentes de contexto para reconhecimento de fala de grande vocabulário'.