Análise do software de transcrição Sonix.ai

Índice:

Anonim

Cada ferramenta que transcreve tem como alvo um nicho específico e a Sonix escolheu aquelas que gravam reuniões ou apresentações e precisam de uma versão digitada para pesquisar ou divulgar.

Portanto, pode ser tão útil para um aluno quanto para um executivo, entregando transcrições que podem ser facilmente indexadas para referência futura.

Mas para ter sucesso nessas tarefas, o software precisa ser preciso e acessível.
Sonix.ai é essa ferramenta e um serviço online pode competir com um aplicativo instalado?

  • Quer experimentar Sonix.ai? Confira o site aqui

Planos e preços

Tal como acontece com muitos serviços de transcrição, o modelo de custo do Sonix é baseado no tempo. Especificamente, a duração de qualquer gravação que você carrega no serviço para processar e o custo desse recurso é de US $ 10 por hora se você usar o serviço padrão pré-pago.

O custo por hora pode cair para $ 5 se você assinar o serviço de assinatura Premium por $ 22 por mês para cada usuário. E, descontos por volume estão disponíveis para as empresas que exigem mais de 100 horas por mês transcritas.

O plano Standard tem os recursos mais básicos e o Premium adiciona outros, como acesso multiusuário e compartilhamento de equipe. E o Enterprise tem tudo o que o Premium oferece com muitos recursos adicionais de administração e um modelo de suporte aprimorado.

No que diz respeito aos serviços de transcrição, o Sonix é um dos mais caros, e certamente não é algo que a maioria dos alunos ou usuários domésticos possam pagar.

Projeto

O site my.sonix.ai usa um design excepcionalmente limpo e a criação de uma conta é gratuita.

No momento em que este artigo foi escrito, este é um serviço exclusivamente baseado na web e a Sonix não tem nenhum aplicativo móvel para capturar e enviar para processamento de gravações de áudio.

No entanto, como cobriremos mais tarde, existem maneiras simples de contornar esse problema que resolvem um pouco a falta de um aplicativo móvel.

O ponto de partida para qualquer trabalho de transcrição é o painel Sonix.ai, onde você pode ver o áudio que já foi transcrito e adicionar novos a serem processados.

Como esse sistema foi projetado para vários usuários, ele inclui um sistema de pasta virtual para organizar as transcrições da maneira que for considerada adequada.

Clicar em "fazer upload" leva o usuário a uma página onde vários arquivos podem ser colocados no sistema e, se a conta tiver crédito suficiente, eles podem ser processados.

Todos os formatos de arquivo de áudio padrão são suportados, incluindo wav, mp3, mp4a, aiff, acc, ogg e wma, e você também pode fazer upload de algumas estruturas de pacotes de vídeo. O tamanho máximo do arquivo é 4 GB, portanto, antes de enviar um grande arquivo de vídeo com resolução de 4K, recomendamos que você use alguma outra ferramenta para dividir o áudio para tornar o envio mais rápido.

Uma boa maneira de acelerar o upload é usar um recurso de armazenamento em nuvem como Google Drive, One Drive, Box ou Dropbox e vinculá-lo diretamente à conta. Você também pode enviar um e-mail para o sistema usando o Gmail, como um meio de criar um fluxo de trabalho mais elegante do que soltar arquivos em uma página da web.

Essa automação é fornecida por meio do Zapier, permitindo uma integração muito mais ampla se a empresa que o utiliza tiver investido nessa tecnologia para conectar seus processos de negócios.

Outro toque interessante é que junto com o arquivo de áudio ou vídeo, você pode incluir a transcrição existente, como um meio de concluir o processo mais rapidamente e melhorar a precisão.

Outro toque interessante é que junto com o arquivo de áudio ou vídeo, você pode incluir a transcrição existente, como um meio de concluir o processo mais rapidamente e melhorar a precisão.

Devido à natureza do processamento baseado em nuvem, julgar o quão rápido ou lento o processamento pode ser é impossível, mas Sonix.ai é relativamente rápido em nossa experiência. Normalmente, leva entre 10% e 20% do tempo para transcrever durante a gravação. Portanto, a conclusão de uma gravação de 10 minutos geralmente leva menos de 2 minutos.

Você não precisa acompanhar o processamento, pois o sistema enviará uma notificação por e-mail quando o trabalho for concluído, juntamente com um link para a nova transcrição.

Depois que o arquivo é processado, você pode abri-lo na página de edição para revisar os resultados e também exportar o texto em uma ampla variedade de formatos úteis, incluindo aqueles definidos como legendas por alguns aplicativos.

O número de idiomas e dialetos suportados pelo sistema é 36, e isso inclui vários países de língua inglesa, francesa, cantonesa, mandarim, português e espanhol, além de todas as línguas comuns da Europa Ocidental e Oriental, junto com alguns asiáticos e árabes.

Gravações

Juntamente com o trabalho que foi feito na IA necessária para interpretar os ruídos que os humanos fazem, provavelmente a página de Gravações representa um esforço de codificação significativo aqui.

Aqui, tanto o áudio quanto sua transcrição associada podem ser comparados e aprimorados manualmente com detalhes das alterações do alto-falante e correções de interpretações incorretas.

Para qualquer pessoa que esteja trabalhando em uma transcrição para aperfeiçoar o texto, esta página fornece a localização do coalface. Faz sentido que algum esforço tenha sido feito nesta parte, pois é muito fácil de usar e seguir.

Em uma tentativa de direcionar o usuário para onde pode haver problemas, Sonix.ai irá codificar o conteúdo por cores para destacar as seções que são menos confiáveis. Esse recurso pode ser útil, embora Sonix.ai possa cometer erros até mesmo nas partes em que considera que a transcrição tem um status "Muito confiante".

Os melhores aspectos desta página são como a reprodução de áudio e o texto são sincronizados de forma que colocar o cursor no texto mova a posição de reprodução para a mesma seção.

Além da edição simples, também é possível destacar seções em vários estilos e fazer anotações para acompanhar a transcrição.

Você também pode ajustar o código de tempo, especialmente útil se a gravação começar com uma pausa longa ou preâmbulo indesejado.

Precisão

Sonix descreve Sonix.ai como ‘O melhor software de transcrição automatizado com IA de ponta’.

Considerando nossos testes, descreveríamos este produto como altamente dependente da qualidade da gravação e de muitos outros fatores que não podem ser facilmente controlados.

Ao processar nossas gravações de discursos históricos clássicos, foi muito difícil com alguns alto-falantes, mesmo que parecessem claros para nós.

Esses resultados estavam em contraste marcante com algumas gravações mais simultâneas, onde a precisão era aceitável, mas dificilmente estelar.

Concluímos que a abordagem do Sonix faz várias suposições que podem funcionar ou não, dependendo da caixa de som e da qualidade da gravação.

O que foi fascinante é que o serviço irá codificar sua transcrição por cores com base na confiança que tem do que está sendo dito, e essa auto-análise é muito reveladora.

Em algumas circunstâncias, ele identificará corretamente que uma seção pode ser suspeita, mas em outras partes, ele está confiante de que a seção transcrita está totalmente errada.

Alguns problemas comuns parecem confundi-lo, e um deles são as pessoas que não falam uma prosa gramaticalmente perfeita. Em um esforço para tornar seu discurso mais direto, eles removeram algumas palavras de suas frases, criando um estilo mais dramático. Quando estes são transcritos pelo Sonix, ele parece determinado a adicionar essas palavras de volta para se adequar ao seu modelo gramatical interno, ao invés do que foi realmente falado.

A transcrição pode ser lida melhor como um documento, mas não é verdadeiramente representativa do que foi dito.

Sonix é certamente melhor quando a qualidade da gravação e a clareza do alto-falante são altas, como provamos com um pequeno clipe de Stephen Fry lendo Harry Potter. Mas nem sempre é possível ter esse controle sobre a qualidade do som, e ainda assim cometeu erros com esse teste.

Outra área problemática são os nomes formais e palavras técnicas ou abreviações. Isso pode ser resolvido adicionando-os ao dicionário personalizado, mas isso requer um trabalho para tornar o sistema capaz de perceber melhor quando nomes ou acrônimos estão sendo usados.

Para aqueles que precisam de uma palavra de transcrição perfeita, o Sonix tem uma seleção de transcritores profissionais associados que podem trabalhar por meio de uma gravação e resolver esses problemas, mas isso de alguma forma vai contra o propósito da transcrição processada.

Segurança

O foco da segurança Sonix.ai são os servidores onde o áudio é processado e as transcrições são realizadas.

Todo o tráfego é criptografado usando TLS (Transport Layer Security) e, uma vez que os arquivos estão no servidor protegido por várias camadas de firewall, a proteção contra intrusão e todos os dados são protegidos pela criptografia AES-256 do lado do servidor. E a empresa promete que os funcionários não têm acesso a gravações ou transcrições, a menos que seja dada permissão explícita para isso.

O problema crítico com essa abordagem é que um login e uma senha simples podem contornar tudo. Sonix.ai não tem autenticação de dois fatores e não tem um registro facilmente acessível de quem acessa os arquivos e quando.

Do ponto de vista da segurança, isso pode ser considerado um excesso de confiança na integridade daqueles que usam o sistema para não compartilhar gravações com terceiros fora da empresa ou reter arquivos potencialmente confidenciais quando eles saem da empresa.

Em suma, a segurança precisa ser melhor, e o rastreamento ou a atividade dos usuários deve ter maior prioridade.

Veredicto final

Considerando o custo relativamente alto, esperávamos que o Sonix tivesse um desempenho melhor do que o fez.

Talvez não tenhamos tido sorte com nossas escolhas de coisas para transcodificar, mas ainda parecia cometer uma quantidade excessiva de erros.

No lado positivo desta equação, é rápido e é um sistema incrivelmente fácil de usar, embora recomendamos executar alguns exemplos de gravações por meio desta solução antes de se comprometer com uma assinatura.

O maior problema com o Sonix é o alto custo e, mesmo que seja a ferramenta certa para sua necessidade específica, existem meios mais baratos de transformar áudio em texto em outro lugar.