Análise do Microsoft Azure: processamento de voz de ponta

O Microsoft Azure Speech to Text é uma das plataformas de reconhecimento de voz mais avançadas do mercado. Como parte da linha de produtos Cognitive Speech Services da Microsoft, ele usa algoritmos de aprendizado profundo para superar a baixa qualidade do som e pode se adaptar a diversos estilos de fala para transcrições de áudio precisas. Nesta revisão do Microsoft Azure Speech to Text, daremos uma olhada neste serviço.

É importante notar que o Microsoft Azure Speech to Text não é uma peça tradicional de software de ditado amigável. Em vez disso, esta é uma plataforma orientada ao desenvolvedor projetada para ajudar as empresas a criar, testar e gerenciar seus próprios produtos. Se você deseja apenas transcrever um lote de arquivos de áudio, aplicativos alternativos de fala em texto podem ser uma opção melhor. Dê uma olhada em nosso melhor guia de software de voz para texto para obter as melhores alternativas.

Microsoft Azure Speech to Text: Planos e preços

Usando o Microsoft Azure Speech to Text, você pode transcrever até cinco horas de áudio gratuitamente e criar um modelo de voz personalizado por mês. No entanto, com o plano gratuito, apenas uma única solicitação de áudio simultânea está disponível por vez, o que significa que essa opção não é viável para a maioria das empresas.

A cobrança do serviço de fala do Azure é dividida em incrementos de um segundo.

Se quiser transcrever mais de um clipe de fala de uma vez, você precisará atualizar para o sistema de preços padrão do Azure. Isso custa US $ 1 por hora de áudio e suporta até 20 solicitações simultâneas. Cobranças adicionais estão envolvidas se você precisar usar um modelo de áudio personalizado ou transcrever arquivos de som multicanal. Esses serviços extras custam $ 1,40 e $ 2,10 por hora de áudio, respectivamente.

Embora a Microsoft liste seus preços em um formato "por hora de áudio", como é o padrão da indústria, o faturamento é dividido em incrementos de um segundo para que você não pague por mais tempo de processamento do que o necessário.

Microsoft Azure Speech to Text: Recursos

O recurso chave do Azure Speech to Text é o acesso que ele concede ao poderoso sistema de processamento de linguagem natural da Microsoft. Nos últimos anos, a IA de fala da Microsoft atingiu vários marcos importantes. Isso significa que agora ele pode concluir tarefas que antes eram impossíveis para um serviço de reconhecimento de voz, como a transcrição precisa de conversas cruzadas durante conversas em pequenos grupos.

O serviço Microsoft Azure Speech to Text pode ser integrado ao Office 365 para obter a precisão ideal.

O Azure funciona com dezenas de idiomas e dialetos e pode ser treinado - usando modelos de reconhecimento de fala personalizados - para se adaptar melhor ao estilo de fala do usuário, ao ruído do ambiente de fundo e ao vocabulário. Se sua organização já está comprometida com o ecossistema de produtos da Microsoft, você pode aproveitar os dados do usuário do Office 365 para melhorar a precisão do reconhecimento de voz para termos específicos da organização. E, o mais importante, isso pode ser feito sem comprometer a segurança de seus dados, pois o Speech to Text pode ser executado no local.

Microsoft Azure Speech to Text: Setup

O Microsoft Azure foi projetado para desenvolvedores em vez de consumidores. Isso significa que sua configuração é um procedimento complicado e um tanto desafiador que é melhor deixar para alguém com um bom conhecimento técnico.

Configurar o Azure não é exatamente simples, a menos que você tenha experiência em codificação.

A maneira mais rápida de configurar o Azure é usar o SDK de fala do Azure em uma linguagem de programação como Java ou C ++. Para isso, você precisará se registrar para uma conta gratuita do Azure e criar um projeto vazio em seu ambiente de desenvolvimento. Você precisará usar o Microsoft Visual Studio e escrever um programa curto para inicializar o objeto SpeechRecognizer da Microsoft.

Microsoft Azure Speech to Text: Interface

Como outras plataformas de transcrição em massa, o Microsoft Azure Speech to Text deve ser executado como uma interface de programação de aplicativo (API), adicionado a programas do Office 365 ou integrado em novas plataformas e serviços. Por causa disso, não há uma única interface do Azure Speech to Text. O que o usuário final verá depende de como o Azure Speech to Text foi integrado.

O portal online do Azure é intuitivo e fácil de usar.

Enquanto isso, o desenvolvedor que gerencia o Azure fará isso por meio do Portal do Azure online da Microsoft, que parece moderno e fácil de navegar. Leva apenas alguns minutos para localizar a página de recursos de serviços de fala e, uma vez que uma instância foi adicionada à sua conta, o monitoramento de alertas e uso pode ser visto em uma única janela.

Microsoft Azure Speech to Text: Performance

Como parte de nossa revisão do Microsoft Azure Speech to Text, estávamos ansiosos para ver como essa plataforma lidou com o desafio de processar gravações de voz brutas, então, assim que nossa conta do Azure estava pronta para funcionar, carregamos uma série de clipes com níveis variados de ruído de fundo . Em geral, o Azure fez um bom trabalho no processamento de nossas amostras, pois não vimos mais do que um punhado de erros durante o curso de nossa avaliação.

Habilitar o modelo de fala personalizado do Azure melhorou nossa precisão de transcrição.

O Azure teve um pouco de dificuldade ao processar frases incomuns ou especiais, como nomes de equipes esportivas e termos científicos, no início, mas isso foi resolvido rapidamente habilitando a opção de saída de modelo personalizado. Depois de ativar essa opção, Azure foi capaz de se adaptar ao vocabulário e estilo de fala únicos que usamos.

Microsoft Azure Speech to Text: Suporte

Para aprender como interagir com o SDK do Azure Speech Services por meio de diferentes linguagens de programação e integrar as funções do Azure Speech to Text em sua própria plataforma, você definitivamente precisará de ajuda. Felizmente, a Microsoft criou um catálogo abrangente de materiais de treinamento para a plataforma Azure, no qual você encontrará exemplos de código e dicas úteis.

A seção de treinamento do site do Azure contém muitos recursos úteis.

Além disso, todos os clientes do Azure recebem cobrança gratuita e suporte ao gerenciamento de assinatura, que pode ser acessado por meio de um sistema de tíquetes. Um suporte mais aprofundado pode ser adicionado à sua conta por uma taxa recorrente, a partir de US $ 29 por mês.

Microsoft Azure Speech to Text: veredicto final

A plataforma Azure Speech to Text usa tecnologia de ponta para fornecer um serviço de transcrição quase perfeito. É mais adequado para empresas que já investiram no ecossistema do Microsoft Office 365 porque os modelos personalizados de voz e vocabulário podem ser gerados com segurança a partir de seu arquivo de documentos existente. Algumas pequenas empresas podem ter dificuldades com o Azure, pois configurá-lo corretamente requer a atenção de um desenvolvedor de nuvem Microsoft qualificado.

A competição

Amazon Transcribe, Google Cloud Speech-to-Text e Watson Speech to Text são concorrentes diretos do Microsoft Azure. Essas três plataformas também são capazes de realizar transcrições de lote de alto volume com precisão. O Google Cloud é o único concorrente próximo capaz de trabalhar com mais idiomas do que o Azure, mas é mais caro, com uma taxa inicial de apenas $ 0,006 por 15 segundos, em comparação com os $ 0,017 do Azure por minuto ($ 0,00425 por 15 segundos).

Para encontrar outras alternativas para a Fala para Texto do Microsoft Azure, confira nosso guia de software de fala para texto Melhor.

Artigos interessantes...