Análise de Dados
CONHECENDO ALGUMAS LINGUAGENS DE ANÁLISE DE DADOS ATRAVÉS DE UM PEQUENO PROJETO
PROJETO
O projeto é o seguinte: calcular a prazo médio original (de emissão), número de dias médio de desconto, prazo médio de recebimento e a taxa média de desconto de uma lista de duplicatas a receber. Fazer isso no geral e por cliente.
O processo consiste em:
- Criar colunas calculadas com a diferença entre a data de vencimento e recebimento (dias de desconto), e a diferença entra a data de recebimento e emissão (prazo real de recebimento);
- Calcular o prazo médio ponderado do recebimento original (vencimento menos emissão), de dias de desconto e de recebimento real;
- Calcular a taxa média de desconto;
- Exibir os prazos médios e a taxa média geral e por cliente.
NO EXCEL COM POWER PIVOT
Após abrir a base de duplicatas, clicar em “Adicionar ao Modelo de Dados” na aba “Power Pivot”.
Abrirá a tela do “Power Pivot para Excel”. Nela apenas ajustaremos os tipos de dados utilizando a parte de “Tipo de Dados” na aba “Página inicial”
Com duplo clique na última coluna (“Adicionar Coluna”) podemos editar o nome da coluna e no campo de fórmula colocaremos os cálculos desejados.
Após criar as colunas calculadas, gerar uma tabela dinâmica clicando em “Tabela Dinâmica” na aba “Página Inicial”. O Excel criará uma aba com a tabela dinâmica. Porém com um importante diferencial: podemos criar medidas.
Clicar em “Nova Medida” no botão “Medidas” na aba “Power Pivot”.
Na janela da medida colocar a tabela no campo “Nome da tabela”, um nome para a medida no campo “Nome da Medida” e apenas “” na fórmula.
Voltando para a tela do Power Pivot (clicando em “Gerenciar” na aba “Power Pivot”) podemos observar a medida.
É possível aumentar o campo de fórmula. Tornando a edição da fórmula muito mais interessante.
A fórmula para o prazo médio de desconto fica assim:
A fórmula para o prazo médio original fica assim:
A fórmula para o prazo médio real fica assim:
A fórmula para a taxa média fica assim:
Voltando para a planilha na aba da tabela dinâmica vemos que apareceram as nossas medidas. Colocando-as no campo de “Valores” da tabela dinâmica vemos o seguinte resultado:
Só falta agora exibir os resultados por cliente. Para isto basta colocar a coluna “Descr_Cliente” no campo “Linhas” da tabela dinâmica e pronto.
NO R
Primeiramente carregamos as bibliotecas com as funções que iremos precisar. Depois carregamos a base de duplicatas.
A tabela aparece com alguns campos precisando de ajustes no tipo de dados.
Com a função “mutate” podemos criar, alterar ou excluir colunas. Agora iremos ajustar o tipo de dados e criar os dias de desconto (“Prazo_Desc”) e o prazo real (“Prazo_Real”).
Com isso feito a tabela aparece assim:
Para o resumo com os prazos médios iremos gerar a produto das colunas de prazo com o valor a receber, depois sumarizar dividindo a soma desses produtos com a soma do valor a receber.
O resultado aparece assim:
Para a taxa média iremos sumarizar a base de duplicatas pela divisão do total de valor a receber com o total de valor recebido. O resultado desta divisão iremos elevar a um sobre o prazo médio dividido por 30 depois subtrair um.
O resultado é o seguinte:
Para exibir esses valores agrupados por cliente basta adicionar uma função de agrupamento: o “group_by”.
O resultado é o seguinte:
Da mesma forma basta adicionar o agrupamento por cliente na taxa média.
E o resultado fica desta forma:
NA JULIA
Na linguagem Julia as diferenças no código são mínimas. Vamos ver abaixo.
Para carregar a base precisamos carregar primeiro as bibliotecas com as funções desejadas.
O resultado é o seguinte:
Assim como no R e no Excel precisamos corrigir os tipos de dados e criar as colunas de prazo de recebimento real e de dias de desconto.
O resultado é o seguinte:
Para o resumo com os prazos médios vamos fazer da mesma forma que fizemos em R.
O resultado é o seguinte:
Para a taxa média o processo é idêntico ao feito em R.
O resultado é o seguinte:
Para os prazos médios por cliente também é idêntico ao feito em R.
O resultado é o seguinte:
Taxa média por cliente também idêntico.
O resultado é o seguinte:
CONSIDERAÇÕES
O que acharam deste passeio por algumas linguagens de programação? Será que o Excel foi o mais fácil de programar?
Uma questão importante em relação ao Excel é o limite de 1048576 linhas. O que não existe nas demais linguagens.
Espero que tenham gostado.
Sucesso para todos!
Até mais!
Os quatro tipos de análise de dados são: descritiva, diagnóstica, preditiva e prescritiva.
Para realizar uma análise de dados, é necessário coletar os dados relevantes, limpar e preparar os dados, aplicar técnicas estatísticas ou de machine learning, e interpretar os resultados para tirar conclusões e tomar decisões informadas.
As etapas do processo de análise de dados incluem: definição dos objetivos, coleta e preparação dos dados, análise exploratória, aplicação de técnicas de análise, interpretação dos resultados e comunicação das conclusões.
Trabalhar com análise de dados envolve a coleta, limpeza, processamento e interpretação de dados para extrair insights úteis e embasar decisões estratégicas ou operacionais dentro de uma organização.