Ir para o conteúdo
  • ESTRATÉGIAS E OPERAÇÕES
  • Desenvolvimento Organizacional
  • SUPPLY CHAIN E LOGÍSTICA
  • Fale Conosco
  • Sites
    • IMAM Consultoria
    • Quem somos
    • HOME IMAM
  • Nossos treinamentos
logo-imam
Supply Chain e Logística

Visão Computacional Avança…

Por Eduardo Banzato em 16 de agosto de 2024
visaocomputacional
7 minutos para ler
Conheça nossos cursos | IMAM

Cientistas do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (Massachusetts Institute of Technology) merecem mais uma vez os parabéns, pois criaram recentemente um novo algoritmo (STEGO), para resolver uma das tarefas mais difíceis da visão computacional: atribuir um rótulo a cada um dos 65.536 pixels individuais que compõem uma única imagem de 256 x 256, sem a participação humana.

Segmentação Semântica

Assista o video do MIT CSAIL AQUI.

Vamos a seguir conhecer melhor este avanço que dará à Inteligência Artificial (IA) uma visão ainda mais precisa e, obviamente, isto terá também um impacto direto nas soluções de Manufatura e Logística (Supply Chain).

Há anos a indústria já trabalha com a visão de máquina, com foco principalmente na qualidade dos produtos, mas a Visão Computacional avança rapidamente e ainda são poucas empresas que perceberam os potenciais de melhoria nos processos a partir da mesma.

DESAFIOS DA VISÃO COMPUTACIONAL

A natureza humana é tão perfeita que nós, seres humanos, conseguimos identificar com nossa fantástica capacidade (visão + cérebro), em uma simples imagem, os diferentes elementos (pessoas, animais, plantas, edifícios…) mas, para a Inteligência Artificial, isto não é tão simples assim e demanda um grande esforço de treinamento.

Para exemplificar, em alguns projetos de inventário, aqui mesmo no Brasil, algumas equipes desistiram rapidamente da Visão Computacional ao perceber que a mesma não reconhecia as imagens que desejavam (determinados SKUs) e outros seguiram em frente e descobriram os desafios e as oportunidades da Visão Computacional. Mas poucos ainda compreendem que o algoritmo necessita ser treinado e é por isso que insistimos em treinamentos mais abrangentes de tecnologia aplicada à Supply Chain para profissionais de logística e manufatura (exemplo: Supply Chain Tech), para que os mesmos não desistam nas primeiras dificuldades da aplicação da tecnologia. Boa parte dos projetos do time IMAM tem passado por estes desafios.

ENTENDENDO A TECNOLOGIA

Geralmente, sistemas mais convencionais de treinamento de Visão Computacional envolvem uma caixa em torno de objetos específicos (veja figura a seguir).

Visão Computacional

Uma caixa ao redor de uma empilhadeira, de uma pessoa, de um capacete etc. Rotular estas caixas, destacando o que está no seu interior (ex.: “pessoa”) é fundamental para a IA ser treinada e também que a mesma seja capaz de distinguir uma “pessoa” de uma “empilhadeira”, de um “capacete” etc.

STEGO: NOVO ALGORITMO DE VISÃO COMPUTACIONAL

O algoritmo STEGO (“Self-supervised Transformer with Energy-based Graph Optimization”) usa uma técnica já conhecida como Segmentação Semântica (observe a figura e o filme já apresentados) que aplica um rótulo de classe a cada pixel da imagem e não da caixa. Assim, fornece à Inteligência Artificial uma visão muito mais precisa da realidade.

Considerando que, no método anterior, uma caixa rotulada teria não apenas o objeto, mas outros itens nos pixels circundantes dentro do limite “encaixotado”, a segmentação semântica já evoluiu rotulando cada pixel no objeto e apenas os pixels que compõem o objeto. Se você tem, por exemplo, uma pessoa operando uma empilhadeira, a segmentação semântica separa com maior precisão a pessoa da empilhadeira.

Mas o desafio desta técnica é que a mesma demanda milhares de imagens rotuladas (horas de trabalho) com as quais o algoritmo será treinado e isso pode se tornar inviável para determinadas aplicações. Assim, atribuir a cada pixel existente no nosso mundo um determinado rótulo é muito ambicioso, especialmente se considerarmos que este processo seja realizado de forma automática, sem qualquer tipo de “feedback” humano (proposta do algoritmo STEGO).

Para descobrir esses objetos sem a orientação de um ser humano, o STEGO procura objetos semelhantes que aparecem ao longo de “datasets” (conjunto de dados). Em seguida, associa esses objetos semelhantes para construir uma visão consistente da realidade a partir de todas as imagens já aprendidas.

O STEGO foi testado em uma série de domínios visuais que abrangem imagens gerais, imagens de condução e fotografias aéreas de alta altitude. Em cada domínio, o STEGO foi capaz de identificar e segmentar objetos relevantes que estavam estreitamente alinhados com os julgamentos humanos.

A referência mais diversificada da STEGO foi o dataset “COCO-Stuff”, que é composto por diversas imagens de todo o mundo, desde cenas internas, pessoas praticando esportes até árvores e vacas. Veja a seguir e acesse AQUI no GitHub o dataset.

STEGO

Os sistemas anteriores mais avançados poderiam capturar a essência de uma cena, mas pecava nos detalhes finos. Por exemplo, uma motocicleta poderia ser capturada como pessoa. Nestas mesmas cenas, o STEGO dobrou o desempenho dos sistemas anteriores e descobriu animais, edifícios, pessoas, móveis e muitos outros.

O algoritmo STEGO também deu saltos semelhantes em outros domínios visuais. Quando aplicado a datasets de veículos autônomos, segmentou com sucesso as estradas, pessoas e placas de rua, com resolução e granularidade muito superiores aos sistemas anteriores. Em relação às imagens do espaço (ex.: mapas), o sistema segmentou cada metro quadrado da superfície da Terra em estradas, vegetação e edifícios.

Além disso, o STEGO se baseia no algoritmo DINO, que aprendeu sobre o mundo por meio de 14 milhões de imagens do banco de dados ImageNet (acesse AQUI no GitHub). A STEGO refinou a espinha dorsal do DINO através de um processo de aprendizagem que imita nossa própria maneira de costurar pedaços do mundo para fazer sentido.

“A ideia é que esses novos tipos de algoritmos (STEGO) possam encontrar agrupamentos consistentes de forma automatizada para que não tenhamos que fazer isso nós mesmos”, diz diz Mark Hamilton, doutorando em engenharia elétrica e ciência da computação no MIT, afiliado à pesquisa do MIT CSAIL e engenheiro de software da Microsoft.

Acesse aqui STEGO no GitHub (Mark Hamilton).

APLICAÇÃO NA REALIDADE BRASIL

Por que devemos dar destaque a visão computacional aqui no Brasil?

Em primeiro lugar, sistemas que podem “ver” são cruciais para uma ampla gama de tecnologias emergentes, como veículos autônomos, modelagem preditiva etc. e como o STEGO pode aprender sem a necessidade de esforço humano, certamente poderá ajudar a acelerar a aplicação em um país carente de mão de obra especializada.

Segundo, em função da conhecida dificuldade de nosso Estado, a maioria das empresas no Brasil, principalmente as pequenas e médias, não terão no curto prazo a mesma facilidade que países mais desenvolvidos têm para implementar sistemas automatizados. Assim, por meio da Visão Computacional, abriremos espaço para soluções mais simples e funcionais, que hoje até já fazem parte de algumas empresas aqui no nosso país, mas que certamente avançarão muito mais.

AINDA COM LIMITAÇÕES, MAS JÁ É REFERÊNCIA

Apesar de seu desempenho superior, o algoritmo STEGO tem suas limitações… por exemplo, ele até pode identificar massas e grãos como “produtos alimentícios”, mas não os diferencia muito bem. Além disso, também pode ficar meio confuso com imagens sem muito sentido como por exemplo, se você apoiar uma banana sobre uma base de telefone, onde um ser humano perceberia facilmente a realidade, os algoritmos ainda avançarão cada vez mais.

“Considero a segmentação não supervisionada (STEGO) uma referência para o progresso na compreensão da imagem e um problema muito difícil. A comunidade de pesquisa fez um progresso fantástico na compreensão de imagens de forma não supervisionadas”, destaca Andrea Vedaldi, professor de Computer Vision e Machine Learning do departamento de ciência de engenharia da Universidade de Oxford.

Parabéns a todo time MIT e vamos em frente…

Boa semana a todos!

Eduardo BANZATO

Conheça as aplicações na IMAM

Fonte: artigo de Rachel Gordon, MIT CSAIL: A new state of the art for unsupervised computer vision | MIT News | Massachusetts Institute of Technology

Post Views: 76
Você também pode gostar
A revoluçâo dos 100 dias

A REVOLUÇÃO DOS 100 DIAS

Por IMAM em 7 de março de 2025
Segurança no Armazém

Segurança no Armazém – Dicas para Garantir a Saúde e a segurança

Por Marcos Maregatti em 7 de fevereiro de 2025
Codificação De Materiais

Codificação De Materiais: O Que É E Qual Objetivo?

Por IMAM em 7 de agosto de 2024

Deixe um comentário Cancelar resposta

-

E-book Grátis

Check Sua Intralogística
Entendendo a Logistica
e-book guia para treinar e desenvolver equipes logísticas


ctas_300x300_azul_foto-9

Posts populares

  • almoxarifado
    Almoxarifado: O Que é, Conceito, Função e Organização.
  • recebimento-de-mercadoria
    Recebimento de Mercadorias: Conheça As Etapas E Muito Mais
  • upstream
    Upstream: saiba tudo o que precisa!

Sobre o blog

O IMAM leva você mais longe!
Acompanhe aqui as principais tendências da área de capacitação profissional, logística e supply chain.

Categorias

  • Desenvolvimento Organizacional
  • Embalagem
  • Engenharia de Produção e Operações
  • Estratégias e operações
  • Estratégias e Performance (Lean, Toc, 6 Sigma)
  • Série Armazenagem
  • Supply Chain e Logística

Entre em contato

  • Rua Machado Bitencourt, 190 Conj 606/607 Metrô Sta. Cruz, Vila Mariana, 04044-000, São Paulo/SP

  • (11) 5575-1400

  • imam@imam.com.br

  •  (11) 97550-8384
Site criado por Rock Content.