Revisão do Watson Speech to Text: o melhor serviço de transcrição de alto volume?

Watson é o sistema de computador de processamento de linguagem natural da IBM. Ele alimenta o famoso supercomputador de perguntas e respostas, bem como uma série de produtos empresariais baseados em IA, incluindo Watson Speech to Text. Em nossa revisão do Watson Speech to Text, daremos uma olhada em um dos melhores aplicativos de fala para texto, ideal para quem deseja converter áudio em texto em escala.

A plataforma de processamento de fala Watson está disponível na IBM Cloud. É uma ferramenta versátil e pode ser usada em muitos contextos, incluindo ditado e transcrição de chamadas em conferência. Além disso, ao contrário da maioria dos outros aplicativos de voz para texto, ele está disponível como uma API, permitindo que os desenvolvedores o incorporem em sistemas de controle de voz, entre outras coisas.

Watson Speech to Text: Planos e preços

Você pode usar o Watson Speech to Text para processar até 500 minutos de áudio gratuitos por mês. Se quiser converter mais do que isso, você precisará pagar por cada minuto de áudio e a taxa muda com base na duração do áudio processado. Os custos variam de US $ 0,01 a US $ 0,02 por minuto, e há uma cobrança adicional de US $ 0,03 por minuto se você precisar do Modelo de Linguagem Personalizada da IBM. Planos Watson premium com orçamento limitado também estão disponíveis e garantem acesso a recursos aprimorados de privacidade de dados e garantias de tempo de atividade.

O preço do serviço de voz para texto do Watson é calculado com base no volume de conteúdo que você precisa transcrever.

Você também pode acessar o sistema Watson Speech to Text por meio de uma assinatura geral do IBM Cloud. O processamento de linguagem natural é apenas um aplicativo em uma ampla gama de serviços de IA que você pode obter por meio do IBM Cloud, portanto, essa é uma boa opção para qualquer organização que precise acessar transferências de dados em alta velocidade, chatbots ou ferramentas de texto para fala.

Watson Speech to Text: Recursos

Graças à integração flexível de API e outras ferramentas IBM pré-construídas, o serviço de reconhecimento de voz Watson vai muito além da transcrição básica. Se desejar usá-lo em um contexto de atendimento ao cliente, por exemplo, o Watson Assistant pode ser configurado para processar perguntas em linguagem natural diretamente ou responder a perguntas por telefone.

No Watson, a IBM montou uma plataforma de processamento de linguagem natural rica em recursos.

O Watson funciona com áudio ao vivo em 11 idiomas e pode importar sons em uma variedade de formatos pré-gravados. Durante a transmissão, o suporte ao diagnóstico em tempo real significa que o Watson pode solicitar que os usuários se aproximem de seu microfone ou alterem seu ambiente. Também impressionante é o fato de que o Watson pode distinguir entre diferentes palestrantes em uma conversa compartilhada graças ao Speaker Diarization, um recurso ainda em teste beta.

Watson Speech to Text: Configuração

Para usar o Watson, a primeira coisa que você precisa fazer é criar uma conta do IBM Bluemix. O registro é gratuito e indolor, exigindo apenas um endereço de e-mail e senha. Uma vez logado, você precisa adicionar uma provisão em sua conta para o serviço Speech to Text. Você receberá algumas credenciais neste estágio que você deve salvar em seus próprios registros.

O registro para uma conta do IBM Bluemix é necessário para obter acesso ao conjunto completo de recursos do Watson.

Depois de fazer isso, as coisas ficam significativamente mais complexas. Para acessar o Watson, você precisará adicionar essas credenciais a um lote de código do localizador uniforme de recursos do cliente (cURL) e, em seguida, executá-lo em sua máquina. Para descobrir exatamente qual comando chamar, consulte este guia prático. Alternativamente, se você deseja apenas ver como o sistema Watson funciona bem sem ter que passar por todos esses obstáculos, você pode experimentá-lo no site de demonstração da IBM.

Watson Speech to Text: Interface

Ao contrário dos aplicativos de voz para texto voltados para o consumidor, os serviços do Watson são projetados para serem acessados por meio de APIs e código incorporado em outros sistemas. Por esse motivo, não há uma "interface" real do Watson. Em vez disso, o Watson pode ser acessado por meio de três protocolos de Internet diferentes. São WebSockets, REST API e Watson Developer Cloud.

O Watson Speech to Text pode ser gerenciado por meio do sistema Watson Developer Cloud.

Para controlar o Watson, você precisará usar uma ferramenta de linha de comando que se conecta à nuvem da IBM por meio de uma dessas três rotas. A interface que o usuário final que interage com o Watson vê precisará ser construída por alguém em sua equipe de desenvolvimento separadamente.

Watson Speech to Text: Performance

No geral, ficamos impressionados com a maneira como essa plataforma de processamento de linguagem natural lida com a fala real. Usamos o Watson para transcrever clipes que gravamos em uma variedade de ambientes desafiadores, bem como soundbites de discursos famosos proferidos em vários dos 11 idiomas suportados pelo Watson.

Descobrimos que o Watson teve um bom desempenho com a fala pré-gravada.

Embora os erros tenham se tornado mais frequentes em clipes com muito ruído de fundo, em geral, o Watson produziu resultados incrivelmente precisos. Estimamos com base em nossos testes que erros inesperados ocorreram apenas uma vez a cada 150 palavras, em média. No entanto, ficou claro por que o recurso Speaker Diarization do Watson permanece em teste BETA, pois, várias vezes durante nossa avaliação, uma voz foi erroneamente rotulada como alto-falantes separados.

Watson Speech to Text: Suporte

O centro de recursos da IBM oferece muita documentação para entender melhor como aplicar o Watson ao seu caso de uso específico. Também vale a pena usar as integrações de API e SDKs criados pela comunidade de desenvolvedores do Watson e postados no GitHub.

A página Watson API GitHub é uma boa fonte de suporte para o serviço Watson Speech to Text.

Se você não encontrar a solução para seu problema lá, pode entrar em contato com a IBM diretamente abrindo um tíquete de suporte ou contatando-os por telefone. Contanto que você opte por um dos pacotes premium do Watson, seu uso do Watson será protegido por um contrato de Service Level Uptime.

Watson Speech to Text: Veredicto final

Se sua organização tem o know-how e os recursos para integrar adequadamente a plataforma IBM Watson Speech to Text em seu sistema, você se beneficiará de funções avançadas como diagnóstico de ambiente de som em tempo real e resultados provisórios de transcrição. No entanto, pequenas empresas e organizações enfrentarão o desafio técnico de configurar o Watson de maneira adequada.

A competição

O serviço IBM Watson Speech to Text é um concorrente direto dos serviços de transcrição em massa Google Cloud Speech-to-Text e Amazon Transcribe. Ambos são significativamente mais baratos do que o Watson, com a transcrição do Google Cloud, por exemplo, a partir de US $ 0,006 por minuto. Todos os três serviços compartilham funções semelhantes, como vocabulário customizado, mas um recurso que está faltando no IBM Watson, mas disponível com ambos os concorrentes, é o reconhecimento automático de pontuação.

Procurando outra solução spoeech-to-text? Confira nosso melhor guia de software de voz para texto.