Análise de digitação do Google Voice

É cada vez mais comum usar a voz para controlar nossas casas e computadores. Onde, apenas uma década atrás, pedir a Alexa ou ao Google Home para controlar as luzes, ou encomendar um produto da Internet, pode ter parecido incomum, mas agora é a norma.

Uma das empresas que mais investiu nesse tipo de tecnologia é o Google, permitindo que seus dispositivos Google Home e sistemas Android aceitem comandos verbais e até reconheçam o locutor.

Hoje vamos ver como eles vincularam essa tecnologia à plataforma do Google Docs e considerar se isso é uma alternativa viável para outras soluções comerciais de voz para texto.

Preços

O software está incluído no Google Docs e, portanto, é inerentemente gratuito. Tudo que você precisa para usá-lo é uma conta do Google e um dispositivo móvel ou computador com microfone. É outra fonte de dados para o Google colher, mas isso é parte do preço do "grátis" hoje em dia.

Projeto

É possível usar voz para entrada no Google Docs, o recurso é chamado de ‘Digitação por Voz’, e pode ser encontrado no menu Ferramentas em um Documento Google ou no Apresentações Google. Ele também pode ser ativado em qualquer local usando a tecla de atalho Ctrl-Shift-S.

Ao ativá-lo pela primeira vez, você deverá autorizar o acesso ao microfone para docs.google.com.

Depois de aceitar que uma pequena caixa aparece com um logotipo de microfone nela, você pode clicar para ativar a entrada de voz. Ele é então substituído por um símbolo de microfone vermelho ao lado do documento para indicar que o sistema está no modo de escuta.

Antes de ativar a digitação por voz no painel de controle, você pode escolher um idioma em um menu e, como este é o Google, há várias opções. E você também pode clicar em um ponto de interrogação e receber ajuda sobre como usar o sistema.

No que diz respeito a esses sistemas, essa é uma solução altamente condensada.

O Google processará o que você disser da melhor maneira possível e, se o sistema não tiver certeza sobre uma palavra, ele a destacará em cinza. Essas palavras "suspeitas" podem então ser clicadas e algumas alternativas fornecidas pelo sistema.

Mas você pode mover rapidamente em um documento e corrigir problemas manualmente ou posicionar o cursor e dar outra chance à Digitação por Voz.

Se você precisar falar com outra pessoa enquanto trabalha, pode pedir ao Google para parar de ouvir e retomar em seguida.

Mas para obter a capacidade total desta solução, há uma longa lista de comandos que precisam ser memorizados que podem copiar, colar, mover o documento, inserir tabelas e uma miríade de outras funções.

E você pode inserir pontuação, formatar o documento e até mesmo inserir hiperlinks.

Mas, para obter o máximo dele, pressupõe-se que você possa se lembrar dos comandos ou tenha a ajuda aberta para refrescar sua memória.

Uma lista está rapidamente disponível dizendo ‘Lista de comandos de voz’, convenientemente.

línguas

Enquanto muitas soluções de voz para texto cobrem apenas um pequeno número de idiomas, o do Google tem uma quantidade significativa. A lista definitiva atual é:

Afrikaans, amárico, árabe, árabe (Argélia), árabe (Bahrain), árabe (Egito), árabe (Israel), árabe (Jordânia), árabe (Kuwait), árabe (Líbano), árabe (Marrocos), árabe (Omã) , Árabe (Palestina), Árabe (Qatar), Árabe (Arábia Saudita), Árabe (Tunísia), Árabe (Emirados Árabes Unidos), Armênio, Azerbaijão, Bahasa Indonésia, Basco, Bengali (Bangladesh), Bengali (Índia), Búlgaro, Catalão, chinês (simplificado), chinês (tradicional), chinês (Hong Kong), croata, tcheco, dinamarquês, holandês, inglês (Austrália), inglês (Canadá), inglês (Gana), inglês (Índia), inglês (Irlanda) , Inglês (Quênia), Inglês (Nova Zelândia), Inglês (Nigéria), Inglês (Filipinas), Inglês (África do Sul), Inglês (Tanzânia), Inglês (Reino Unido), Inglês (EUA), Farsi, Filipino, Finlandês, Francês , Galego, Georgiano, Alemão, Grego, Gujarati, Hebraico, Hindi, Húngaro, Islandês, Italiano, Italiano (Itália), Italiano (Suíça), Japonês, Javanês, Kannada, Khmer, Coreano, Laosiano, Letão, Lituano, Malayalam, Malásia n, marata, nepalês, norueguês, polonês, português (Brasil), português (Portugal), romeno, russo, eslovaco, esloveno, sérvio, cingalês, espanhol, espanhol (Argentina), espanhol (Bolívia), espanhol (Chile), espanhol (Colômbia), espanhol (Costa Rica), espanhol (Equador), espanhol (El Salvador), espanhol (Espanha), espanhol (EUA), espanhol (Guatemala), espanhol (Honduras), espanhol (América Latina), espanhol (México ), Espanhol (Nicarágua), espanhol (Panamá), espanhol (Paraguai), espanhol (Peru), espanhol (Porto Rico), espanhol (Uruguai), espanhol (Venezuela), sudanês, suaíli (Quênia), suaíli (Tanzânia), Sueco, Tamil (Índia), Tamil (Malásia), Tamil (Singapura), Tamil (Sri Lanka), Tailandês, Turco, Ucraniano, Urdu (Índia), Urdu (Paquistão), Vietnamita e Zulu.

São 119 idiomas, incluindo 13 formas árabes, 19 variações em espanhol, 13 dialetos ingleses e até quatro sabores do tâmil.

Existem idiomas incluídos que raramente são suportados por software de ditado, como o zulu e o islandês, devido ao número relativamente pequeno de falantes.

A cobertura do idioma é provavelmente o maior ponto forte do Google Voice Typing.

Gravações

Se esta solução tem um ponto fraco, é que ela não pode processar facilmente as gravações.

Embora não seja impossível fazer isso, é necessário corrigir o sistema de áudio do computador para que ele receba a saída destinada aos alto-falantes e a direcione como se viesse do microfone. Mas fazer isso não permite diferenciar entre pessoas diferentes nas gravações e pode interferir na IA que o Google usa para melhorar a precisão verbal, aprendendo como você fala.

Se você deseja transcrever podcasts ou entrevistas gravadas, recomendamos que você use outra coisa, pois esta ferramenta não foi construída para essa finalidade.

Precisão

É difícil julgar a precisão de um sistema de processamento de voz quando você não pode enviar as mesmas gravações que outros produtos converteram. E qualquer pessoa que use o Alexa ou o Google Home regularmente saberá que ocasionalmente ele não nos entende, principalmente por causa de sons estranhos ou fala inconsistente.

Dito isso, no teste ativo que fizemos, essa ferramenta geralmente acertou a maioria das palavras, ou a palavra correta foi rapidamente disponibilizada no menu de palavras suspeitas.

Para obter os melhores resultados é necessário algum controle a ser exibido na velocidade, volume e tom de fala, algo que sem dúvida vem com a prática. Além disso, ser capaz de lembrar todos os comandos especiais pode reduzir criticamente a quantidade de edições pós-gravação necessárias.

Dependendo de suas expectativas, a precisão aqui é aceitável. Há uma consistência em suas interpretações que manteve durante nossos testes. Não podemos prever como funciona para você. Mas, como é gratuito, não custará nada além do seu tempo para determinar isso.

Segurança

Como se trata do Google, o modelo de segurança é o mesmo que controla o acesso a todas as contas do Google. Isso varia da simples proteção por senha até uma metodologia mais razoável de autenticação de dois fatores (TFA).

Dado o número de ladrões de identidade ao redor, aqueles que usam o Google sem o TFA correm um risco significativo de ter suas contas comprometidas.

Mesmo essa opção de segurança tem seus limites, mas é melhor do que apenas uma senha.

Para aqueles que não são suficientemente paranóicos, recomendamos fortemente que você vá até https://myactivity.google.com/myactivity

E você verá o que o Google coleta sobre você diariamente, e isso pode incluir gravações de seus comandos de voz.

Veredicto final

Esta pode ser uma revisão mais longa se este software oferecer mais funcionalidade, mas não oferece.

No que diz respeito às soluções de voz para texto, esta não é complicada, mas tem funcionalidade suficiente para ser genuinamente útil.

Outras soluções são construídas para lidar com a transcrição de conversas entre várias pessoas, onde isso foi projetado para lidar com uma única pessoa que está falando de forma controlada e precisa.

O que o uso dele pressupõe é que você está feliz em usar o Google e o Google Docs, mesmo que esse não seja o destino final do texto que você inserir.

Não é difícil copiar um ditado e colar do Google Docs para outro aplicativo, e você terá uma cópia da nuvem para referência caso precise de uma.

Alguns usuários, compreensivelmente, têm problemas em alimentar o apetite insaciável do Google por dados do usuário, e esse mecanismo é mais uma fonte de dados para ele comer.

Se você se sente assim, não vai usar o Google Voice Typing, nem nada do Google.

Para aqueles dispostos a aceitar o quanto o Google pode saber sobre eles, a solução de ditado de voz no Google Docs é capaz o suficiente para uso geral, especialmente se você só precisa dessa funcionalidade ocasionalmente.

Artigos interessantes...