Como visualizar dados complexos no Linux

Você provavelmente já ouviu falar do Elasticsearch - o mecanismo de pesquisa que permite indexar e pesquisar rapidamente seus dados. Você pode ter criado algumas visualizações em Kibana, a GUI para Elasticsearch, apontando e clicando em seu caminho através da interface elegante.

O que você pode não ter usado é um plugin de visualização menos conhecido chamado Timelion.

Timelion é uma fantástica ferramenta de criação de visualização que permite escrever suas consultas em sua linguagem de expressão simples e poderosa para exibir gráficos. É usado para exibir dados de séries temporais, como crescimento populacional ou acessos ao seu site.

  • Aqui está uma lista dos melhores laptops para desenvolvedores
  • Confira essas melhores distros para desenvolvedores
  • Calcule os números com facilidade nessas melhores estações de trabalho
Sobre este artigo

Este artigo apareceu pela primeira vez na Linux Format Magazine, edição # 269, publicada em novembro de 2022-2023.

Com o Timelion, podemos calcular médias móveis, exibir a diferença entre os dados da semana passada e de hoje e fazer alguma detecção básica de anomalias. É uma ferramenta útil para saber como trabalhar. Vamos começar.

Instalação

Se você for um leitor de formato Linux regular, existem exemplos de composição do docker para configurar um cluster no LXF261.

Caso contrário, a instalação do Elasticsearch e do Kibana é relativamente simples. O único requisito é Java, que você já deve ter instalado.

Se não for um simples sudo apt install default-jre instala em distros baseadas em Debian ou um sudo dnf install java deve fazer o mesmo para a família Red Hat de distros.

Então você só precisa baixar a versão mais recente do Elasticsearch e Kibana para o seu sabor de sistema operacional desejado.

No momento em que este artigo foi escrito, a versão mais recente é kibana-7.8.1-linux-x86_64.tar.gz.

Você pode extraí-lo com tar -xvzf kibana-7.8.1-linux-x86_64.tar.gz, mudar para o diretório extraído e executar ./bin/kibana & para iniciar a instância Kibana.

Quando você tiver feito exatamente as mesmas etapas para configurar o Elasticsearch, substituindo 'kibana' por 'elasticsearch', você deverá conseguir navegar para http: // localhost: 5601 em seu navegador favorito e ver uma interface Kibana novinha em folha para jogar ao redor com.

Se você preferir instalar pacotes com um gerenciador de pacotes, o mesmo link de antes contém informações sobre como adicionar o repositório Elastic ao seu sistema e instalar os pacotes Kibana e Elasticsearch dessa forma.

Você pode sobrepor gráficos uns sobre os outros e usar a formatação para fazer com que seus gráficos tenham a melhor aparência.

Obtenha alguns dados

As versões recentes do Kibana possibilitam ingerir conjuntos de dados em nosso cluster automaticamente com o Data Visualizer, em vez de precisar criar um script ou configuração do Logstash. Ele pode lidar com conjuntos de dados no formato JSON ou CSV, bem como alguns arquivos de log padrão, como logs do Apache. A única limitação é que eles têm menos de 100 MB de tamanho. Isso é mais do que suficiente para nossos propósitos.

Usaremos o conjunto de dados mundial de casos Covid-19 do Portal de dados abertos da UE. Baixamos o arquivo CSV da seção Recursos da página.

Se você tiver problemas, pode optar por baixar a versão .xlsx do Excel, abrir com o LibreOffice Calc e salvá-lo no formato Texto CSV (.csv). Também há uma versão JSON disponível para download que você pode usar como alternativa.

Para acessar o Visualizador de dados em Kibana, clique no ícone de hambúrguer no canto superior esquerdo, depois em Aprendizado de máquina e finalmente no Visualizador de dados. Uma vez lá, clique em Carregar arquivo na caixa Dados de importação, selecione ou arraste e solte um arquivo e escolha seu arquivo csv para receber.

Após uma breve análise, ele mostrará algumas estatísticas que foram descobertas nas primeiras 1.000 linhas do arquivo CSV. Este será o formato que ele pensa que cada um dos campos está, como texto, data ou número e destacará os principais valores encontrados nos campos.

Geralmente é um bom trabalho descobrir isso para nós. Se você precisar fazer algum ajuste, pode clicar em Substituir configurações para corrigir - por exemplo, o nome do campo como será definido no Elasticsearch.

Um nome de campo que devemos substituir é dateRep, que representa a data da figura calculada em nosso conjunto de dados. O Timelion não saberá como usar isso como o campo de tempo por padrão, então podemos simplificar nossa vida mais tarde, renomeando este campo agora para algo que ele reconhecerá.

Um bom candidato é carimbo de data / hora. Clique em Aplicar para definir isso. Quando estiver satisfeito com a aparência do resto, clique em Importar na parte inferior, dê um nome ao índice - escolhemos covid - e clique em Importar novamente para obter os dados em seu cluster.

Artigos interessantes...