As 300 bilhões de fotos do Pokémon Go estão a ensinar os robots de entrega a reconhecer o caminho

Autor: Will Douglas Heaven

Tradução: 深潮 TechFlow

Deep潮 guia: Niantic transformou as 30 mil milhões de fotos urbanas tiradas pelos jogadores de Pokémon Go numa nova oportunidade de negócio. A sua subsidiária de IA, Niantic Spatial, utilizou esses dados para treinar um sistema de localização visual que atinge precisão ao nível do centímetro, muito superior ao GPS em ambientes urbanos. O primeiro grande cliente é a empresa de robôs de entrega Coco Robotics. Desde capturar Pikachu até entregar pizzas, esta pode ser uma das vias de comercialização de dados crowdsourcing mais surpreendentes.

O texto completo:

Pokémon Go é o primeiro jogo de AR de grande impacto a nível mundial. Lançado em 2016 pela subsidiária do Google, Niantic, este jogo baseado na IP Pokémon, com elementos de realidade aumentada, conquistou rapidamente o mundo. De Chicago a Oslo, de Enoshima a várias cidades, os jogadores saíram às ruas na esperança de apanhar um Jigglypuff, um Squirtle ou, com muita sorte, um Zapdos de Galar — flutuando no mundo real, quase ao alcance.

Simplificando, isto significa que milhões de pessoas usam os seus telemóveis para tirar fotos de edifícios e marcos urbanos. “Cinco centenas de milhões de pessoas instalaram esta app em 60 dias”, diz Brian McClendon, CTO da Niantic Spatial. A Niantic Spatial é uma empresa de IA criada em maio do ano passado, após a divisão da Niantic. Segundo dados da Scopely (que na mesma altura adquiriu Pokémon Go da Niantic), o jogo ainda conta com mais de 100 milhões de jogadores ativos em 2024, oito anos após o lançamento.

Agora, a Niantic Spatial está a aproveitar este vasto repositório de dados crowdsourcing — fotos de marcos urbanos captadas por centenas de milhões de jogadores de Pokémon Go, com marcações de localização extremamente precisas — para construir um Modelo Mundial (World Model). Esta é uma das áreas mais quentes atualmente, com o objetivo de ancorar a inteligência de grandes modelos de linguagem (LLMs) no ambiente real.

O produto mais recente da empresa é um modelo que, com algumas fotos de edifícios ou outros marcos, consegue determinar a sua localização na mapa com precisão de poucos centímetros. Pretendem usá-lo para ajudar robôs a navegar com maior precisão em locais onde o GPS é pouco confiável.

Como validação inicial da tecnologia, a Niantic Spatial acaba de firmar uma parceria com a Coco Robotics. A Coco é uma startup que deploya robôs de entrega de última milha em várias cidades dos EUA e Europa. “Todos acham que o AR é o futuro, que os óculos de AR estão a chegar”, diz McClendon, “mas os robôs é que estão a conquistar os utilizadores.”

De Pikachu a entregas de pizza

A Coco Robotics implantou cerca de 1000 robôs do tamanho de uma mala de viagem em Los Angeles, Chicago, Jersey City, Miami e Helsínquia, capazes de transportar até oito pizzas grandes ou quatro sacos de compras. Segundo o CEO Zach Rash, estes robôs já fizeram mais de 500 mil entregas, percorrendo milhões de milhas em várias condições meteorológicas.

Para competir com humanos, os robôs da Coco (que se deslocam a cerca de 8 km/h na passadeira) precisam ser altamente confiáveis. “A nossa melhor abordagem é garantir que chegam a tempo ao destino”, explica Rash. Ou seja, não podem perder-se.

O problema é que não podem confiar no GPS. Nas cidades, os sinais de rádio refletem-se nos edifícios, interferindo entre si, e o sinal de GPS é fraco. “Fazemos entregas em áreas densas com arranha-céus, túneis subterrâneos e pontes elevadas, onde o GPS quase nunca funciona”, afirma Rash.

“Os canyons urbanos são os piores locais para o GPS em todo o mundo”, diz McClendon. “Vê aquele ponto azul no telemóvel, que muitas vezes oscila 50 metros, e acaba por te colocar noutro quarteirão, noutra direção, do outro lado da rua.” É este o problema que a Niantic Spatial quer resolver.

Nos últimos anos, a Niantic Spatial tem vindo a compilar dados de jogadores de Pokémon Go e Ingress (o seu jogo AR anterior, lançado em 2013), para criar um sistema de localização visual (Visual Positioning System) — que determina onde estás com base no que vês. “Fazer o Pikachu correr na rua de verdade e fazer o Coco navegar com segurança pelas cidades é, na essência, o mesmo problema”, afirma John Hanke, CEO da Niantic Spatial.

“Localização visual não é uma tecnologia nova”, diz Konrad Wenzel, da ESRI, empresa de mapas digitais e análise geoespacial. “Mas é evidente que quanto mais câmeras houver lá fora, melhor ela funciona.”

A Niantic Spatial treinou o seu sistema com 30 mil milhões de fotos de ambientes urbanos, captadas em locais de interesse — como ginásios de batalha Pokémon, que incentivam os jogadores a visitar esses pontos. “Temos mais de um milhão de locais em todo o mundo onde podemos determinar a tua posição com precisão de centímetros”, diz McClendon. “Sabemos onde estás e em que direção olhas.”

Assim, para cada um desses locais, a Niantic Spatial dispõe de milhares de fotos tiradas de ângulos diferentes, em momentos distintos, com condições meteorológicas variadas, todas com metadados detalhados: a posição exata do telemóvel no espaço, orientação, postura, se está em movimento, velocidade, direção, etc.

A empresa treina o sistema com este conjunto de dados, permitindo que ele use o que vê para determinar a sua localização com precisão — mesmo em áreas fora dos 1 milhão de pontos de interesse, onde as imagens e os dados de localização são escassos.

Para além do GPS, os robôs da Coco (equipados com quatro câmeras) usam este sistema para determinar onde estão e para onde vão. As câmeras estão colocadas na altura do quadril, voltadas para todos os lados, com um campo de visão diferente do que os jogadores de Pokémon Go, mas Rash afirma que adaptar os dados não é complicado.

Os concorrentes também usam sistemas de localização visual. Como a Starship Technologies, fundada em 2014 na Estónia, que afirma que os seus robôs usam sensores para criar mapas 3D do ambiente, marcando bordas de edifícios e postes de luz.

Mas Rash aposta que a tecnologia da Niantic Spatial dará vantagem à Coco. Acredita que permitirá aos robôs parar com precisão na entrada dos restaurantes, sem bloquear o caminho de ninguém, e estacionar na porta do cliente, em vez de alguns metros de distância — algo que já aconteceu várias vezes.

A explosão dos robôs

Quando começou a desenvolver sistemas de localização visual, a Niantic Spatial tinha como objetivo aplicá-los em AR, explica Hanke. “Se usares óculos de AR, queres que o mundo virtual esteja alinhado com a tua direção de visão, e precisas de um método para isso. Mas agora estamos a testemunhar uma grande revolução na robótica.”

Alguns robôs precisam de partilhar espaço com humanos, como em canteiros de obras ou passadeiras. “Para que os robôs se integrem nesses ambientes sem incomodar as pessoas, precisam de uma compreensão espacial semelhante à humana”, afirma Hanke. “Quando os robôs são empurrados ou colidem, conseguimos ajudá-los a recuperar a sua localização com precisão.”

A parceria com a Coco é apenas o começo. Hanke diz que a Niantic Spatial está a construir o que chama de “Mapa Vivo” (Living Map), uma simulação de mundo virtual de alta precisão que evolui com o mundo real. À medida que os robôs da Coco e de outras empresas percorrem o mundo, fornecem novas fontes de dados cartográficos, tornando as réplicas digitais cada vez mais detalhadas.

Para Hanke e McClendon, os mapas não só estão a ficar mais detalhados, mas também a ser cada vez mais utilizados por máquinas. Isto muda a finalidade dos mapas. Desde sempre, eles ajudaram os humanos a localizar-se. De 2D para 3D, e agora para 4D (como os gêmeos digitais em tempo real), o princípio básico mantém-se: pontos no mapa correspondem a pontos no espaço ou no tempo.

Porém, mapas orientados para máquinas podem precisar de se parecer mais com guias turísticos, repletos de informações que os humanos consideram óbvias. Empresas como a Niantic Spatial e a ESRI querem acrescentar descrições aos mapas, para que as máquinas possam entender o que veem, com atributos para cada objeto. “A missão desta era é construir descrições úteis do mundo para as máquinas”, afirma Hanke. “Os dados que temos são um excelente ponto de partida para entender como as ligações no mundo funcionam.”

Hoje, o Modelo Mundial está em alta, e a Niantic Spatial sabe disso. Os LLMs parecem entender tudo, mas quase não têm senso comum na interpretação e interação com o ambiente cotidiano. O Modelo Mundial visa resolver esse problema. Algumas empresas, como a Google DeepMind e a World Labs, estão a desenvolver modelos que geram mundos virtuais instantaneamente, usados como campo de treino para agentes de IA.

A Niantic Spatial afirma que aborda o problema de diferentes ângulos. Quanto mais detalhado for o mapa, mais coisas capturará, diz McClendon: “Ainda não chegámos lá, mas estamos a trabalhar para lá chegar. Estou muito focado em tentar reconstruir o mundo real.”

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar