Barcelos na NET

Lista de jornais e sites de notícias portugueses sobre esportes, política, negócios, saúde, empregos, viagens e educação.

O novo algoritmo de atualização do Google faz maravilhas: o segredo está no hype

O Google desenvolveu um modelo de aprendizado de máquina treinado para converter uma imagem de baixa resolução em uma imagem de alta resolução. Nada de novo ainda, mas a equipe de cérebro do Google usou um método híbrido para chegar à superfidelidade e também trabalhar ao contrário: Em vez de começar pela imagem, comecei pelo seu “hype”.

Ao longo dos anos, o Google ganhou uma grande experiência no gerenciamento de fotos, que surgiu para os usuários principalmente por meio dos avanços nas soluções de smartphones Pixel que ainda hoje chegam à escola e que se beneficiaram da genialidade de Mark Levoy. Embora Levoy tenha deixado o Google para trabalhar com a Adobe, partes de Mountain View nunca perderam o interesse no processamento de imagens, que já foi aprimorado graças ao aprendizado de máquina.

Pai do Google Camera contratado pela Adobe: criará um aplicativo de fotografia “universal”

Vá para aprofundar

Entenda qual é a imagem por trás de todo o barulho

Apresentar o tema com alta precisão de imagens Um modelo de aprendizado de máquina é treinado para converter uma imagem de baixa resolução em uma imagem de alta resolução. Um sistema capaz de restaurar fotos antigas e também aprimorar fotos resultantes de exames médicos.

Na última postagem em Blog do Google AIA equipe do Brain descobriu um conceito antigo de imagens de super-resolução que remonta a 2015, chamado de “modelo de difusão”, mas ao longo dos anos foi deixado de lado pelo crescente interesse no “modelo gerador profundo”.

Voltando aos antigos modelos de difusão, o Google desenvolveu o SR3 definido como “Super resolução de imagem por meio de otimização iterativa”.

READ  Como se preparar para o desconto de 11 e 12 de outubro

O Google mostra que SR3 é um modelo de difusão de resolução ultra-alta que pega uma imagem de baixa resolução como entrada e constrói uma imagem de alta resolução correspondente a partir de ruído puro; Ou seja, o modelo é treinado no processo de danos à imagem O ruído é gradualmente adicionado a uma imagem de alta resolução até que apenas o ruído puro permaneça.

O ruído gaussiano adicionado (que pode ser obtido de uma forma muito simples mesmo com um filtro Photoshop) torna-se num determinado ponto fazendo com que a imagem fique indistinguível: muito semelhante ao efeito “neve” dos televisores antigos, mas do tipo estático.

Depois de treinado sobre o tipo de ruído que a imagem poderia fazer, o modelo SR3 do Google aprendeu a fazer o processo inverso, Ou seja, começando com o ruído puro e gradualmente removendo-o para obter uma distribuição de pixels guiada pela imagem de baixa resolução usada como entrada.

Abra o arquivo original

SR3 provou ter um bom desempenho na atualização de retratos e fotos de paisagens. Quando usado para atualizar 8x em faces, a “taxa de confusão” é próxima a 50%, enquanto os métodos atuais alcançam apenas 34% na melhor das hipóteses.

Abra o arquivo original

A taxa de confusão se refere à porcentagem de tempo que os avaliadores humanos levam para selecionar a saída do modelo das imagens de referência. Quanto maior for a taxa de confusão, maior será a qualidade HD, porque Os avaliadores vão demorar mais para entender qual das duas imagens sendo comparadas é a imagem de referência.

Ruído + cachoeira = fotos melhores

Não satisfeitos com o resultado, os pesquisadores da equipe do cérebro implementaram um “modelo de difusão sequencial” (CDM, modelos de difusão sequencial). Esta abordagem sequencial envolve uma série de modelos generativos múltiplos em diferentes resoluções espaciais: um modelo de difusão que gera dados em baixa resolução, seguido por uma série de modelos de difusão SR3 de super-resolução que aumentam progressivamente a resolução da imagem gerada. maior precisão.

Soluções desse tipo se tornam uma dádiva para obter imagens detalhadas com sensores minúsculos ou óticas minúsculas, como as dos smartphones, que não conseguem detectar a entrada de luz como as lentes projetadas para câmeras. Tudo isso se encaixa no mundo cada vez mais explorado e produzido de imagens computacionais.