banner
Lar / blog / Acadêmicos de Stanford desenvolvem o Street View
blog

Acadêmicos de Stanford desenvolvem o Street View

Jul 25, 2023Jul 25, 2023

Um trio de cientistas da computação de Stanford desenvolveu um modelo de aprendizado profundo para localizar geograficamente imagens do Google Street View, o que significa que ele pode descobrir onde uma foto foi tirada apenas olhando para ela.

Diz-se que o software funciona bem o suficiente para vencer os melhores jogadores do GeoGuessr, um popular jogo online de adivinhação de localização.

Isso não quer dizer que o modelo acadêmico possa identificar exatamente onde uma foto de rua foi tirada; em vez disso, ele pode descobrir o país com segurança e fazer uma boa estimativa, dentro de 24 quilômetros do local correto, na maior parte do tempo - embora, na maioria das vezes, esteja mais longe do que essa distância.

Em um artigo pré-impresso intitulado "PIGEON: Predicting Image Geolocations", Lukas Haas, Michal Skreta e Silas Alberti descrevem como desenvolveram o PIGEON.

É um modelo de geolocalização de imagem derivado de seu próprio modelo CLIP pré-treinado chamado StreetCLIP. Tecnicamente falando, o modelo é complementado com um conjunto de geocélulas semânticas – áreas delimitadas de terra, semelhantes a condados ou províncias, que consideram detalhes específicos da região, como marcações rodoviárias, qualidade da infraestrutura e sinalização rodoviária – e ProtoNets – uma técnica de classificação usando apenas alguns exemplos.

PIGEON competiu recentemente contra Trevor Rainbolt, um jogador bem classificado do GeoGuessr conhecido simplesmente como Rainbolt no YouTube, e venceu.

Os especialistas em seu artigo afirmam que PIGEON é o “primeiro modelo de IA que vence consistentemente os jogadores humanos no GeoGuessr, classificando-se entre os 0,01% dos melhores jogadores”. Cerca de 50 milhões ou mais de pessoas jogaram GeoGuessr, disseram-nos.

Alberti, doutorando em Stanford, disse ao The Register: “Foi como se fosse nossa pequena competição Deep Mind”, uma referência à afirmação do Google de que seu sistema DeepMind AlphaCode pode escrever código comparável a programadores humanos.

​​Acho que esta foi a primeira vez que a IA venceu o melhor ser humano do mundo no GeoGuessr

“Acho que esta foi a primeira vez que a IA venceu o melhor ser humano do mundo no GeoGuessr”, disse ele, observando que Rainbolt prevaleceu em duas partidas anteriores com sistemas de IA.

A geolocalização de imagens tornou-se uma espécie de arte entre os investigadores de código aberto, graças ao trabalho de organizações de pesquisa jornalística como a Bellingcat. O sucesso do PIGEON mostra que é também uma ciência, que tem implicações significativas na privacidade.

Embora o PIGEON tenha sido treinado para localizar geograficamente imagens do Street View, Alberti acredita que essa técnica pode facilitar a localização geográfica de quase qualquer imagem, pelo menos em ambientes externos. Ele disse que ele e seus colegas testaram o sistema com conjuntos de dados de imagens que não incluem imagens do Street View e funcionou muito bem.

Alberti contou uma discussão com um representante de uma plataforma de inteligência de código aberto que manifestou interesse em sua tecnologia de geolocalização. “Acreditamos que é provável que nosso método também possa ser aplicado a esses cenários”, disse ele.

Questionado sobre se esta tecnologia tornará ainda mais difícil ocultar onde as imagens foram capturadas, Alberti disse que se você estiver em qualquer rua, a geolocalização se tornará bastante provável porque há muitos sinais reveladores sobre onde você está.

“Outro dia me perguntaram ‘e se você estiver fora das ruas, em algum lugar no meio da natureza?'”, Disse ele. "Mesmo lá, você tem muitos sinais de onde poderia estar, como a forma como as folhas estão, o céu, a cor do solo. Estes certamente podem dizer em que país ou região de um país você está, mas provavelmente você não conseguirá localizar a cidade em particular. Acho que as fotos do interior provavelmente continuarão muito difíceis de localizar.

Acho que as fotos internas provavelmente permanecerão muito difíceis de localizar

Alberti disse que uma das principais razões pelas quais o PIGEON funciona bem é que ele depende do CLIP da OpenAI como modelo básico.

"Muitos outros modelos de geolocalização anteriores apenas treinavam o modelo do zero ou usavam um modelo baseado em ImageNet. Mas notamos que usando o CLIP como modelo básico, ele viu muito mais imagens, viu muito mais pequenos detalhes, e é, portanto, muito mais adequado para a tarefa."