🤖 MAP-E
Sobre cómo los modelos de inteligencia artificial pueden ayudar en el diseño y la programación cartográfica
Tras más de dos meses sin escribir, vuelve El Gran Círculo, un boletín donde se tratan temas en la intersección de la geografía y la tecnología. Aunque intenté que esta fuese una publicación mensual, la vida, la salud y el trabajo (y un nuevo ser peludo) me han quitado de leer y escribir como antes. En esta octava entrada hablaremos de la disruptora aparición de los modelos de inteligencia artificial (IA) en el ámbito del diseño cartográfico y la programación del análisis y visualización espacial.
¿Sustituirán los algoritmos a cartógrafas y programadoras? Para responder a esta pregunta en esta ocación tenemos la ayuda inestimable de Gepeto Trias, investigador principal de IA aplicada a la práctica cartográfica por el Instituto de Invent AI. Además de sus expertas opiniones basadas en un estudio exhaustivo de millones de textos e imágenes presentes en Internet, iremos probando modelos y aplicaciones IA para generar mapas, imágenes satélite e incluso código para analizar y diseñar visualizaciones de datos geográficos, y así conocer el estado actual de estas tecnologías.
El ocaso de las cartógrafas
Existe cierto debate entre las investigadoras sobre que fue antes el mapa o el lenguaje1. Aunque hay argumentos que apuntan a que la naturaleza gráfica del lenguaje cartográfico era un vehículo mucho más directo para expresar el pensamiento geográfico que el lenguaje hablado, parece que la opción de primero llegó el habla y luego el mapa es la cronología que más apoyo académico está recibiendo.
Una nueva generación de modelos basados en técnicas de IA están intentando replicar justo eso, la traducción del lenguaje escrito al visual, originar imágenes a través de texto. Esta traducción dista bastante de una que vimos hace unos meses cuando hablamos de la geocodificación. Mientras que los algoritmos para traducir una dirección en una localización en un mapa están basados en instrucciones diseñadas y programadas por un desarrollador, las tripas de estos nuevos modelos están compuestos por redes neuronales entrenadas con técnicas de aprendizaje profundo2. Para ver el salto de gigante entre uno y otro enfoque, mientras que el primero fue capaz de ganar a Kasparov al ajedrez, el segundo consiguió batir cuatro de cinco partidas al campeón mundial de Go, un juego infinitamente más complicado que el ajedrez.
![](https://substackcdn.com/image/fetch/w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fbucketeer-e05bbc84-baa3-437e-9518-adb32be77984.s3.amazonaws.com%2Fpublic%2Fimages%2Fc5bcc04c-f520-4c49-b526-180887c19ff5_1600x855.png)
El primer modelo de generación de imágenes a partir de texto en aparecer (y dar que hablar) fue DALL-E de OpenIA. Le pregunté a Gepeto que nos explicara como se construían estos modelos. Lo primero es necesario entrenarlos. "Los datos fuente de estos modelos generalmente contienen un conjunto de imágenes muy grande. Por ejemplo, DALL-E fue entrenado con un dataset de alrededor de mil millones de imágenes" apunta Gepeto. Todas estas imágenes son extraídas de Internet, y todas llevan una etiqueta o descripción asociada. El entrenamiento por tanto consigue relacionar textos determinados con patrones, estilos, colores y diseños. Como muy bien resumen Gepeto Trias: "aprende a través de ejemplos". Y lo hace ella solita.
![](https://substackcdn.com/image/fetch/w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fbucketeer-e05bbc84-baa3-437e-9518-adb32be77984.s3.amazonaws.com%2Fpublic%2Fimages%2F144b3f87-5b6b-47d7-b771-cee8fb3f911a_1600x855.png)
Podemos pedirle cualquier cosa como un mapa o una imágen satélite. Pero el resultado devuelto se basará en el dataset de entrenamiento. Con todos los problemas que esto acarrea. Como dijo Borges, "el mapa no es el territorio". Y "las imágenes de Internet, no es un fiel reflejo de la realidad". Sin embargo, los resultados son más que sorprendentes como se puede comprobar en las dos capturas anteriores. Le pregunté a Gepeto si estos algoritmos podrían llegar a sustituir a las cartógrafas. "Es difícil de decir. Los cartografos son profesionales con una extensa formación y años de experiencia, sería complicado que la IA los reemplace por completo. De todas maneras, creo que estos modelos pueden ayudarlos generando mapas que puedan ser utilizados como punto de partida".
![](https://substackcdn.com/image/fetch/w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fbucketeer-e05bbc84-baa3-437e-9518-adb32be77984.s3.amazonaws.com%2Fpublic%2Fimages%2F2c3caa92-589c-4fc3-8ce4-0a6d09ee39a8_512x512.png)
Otro de los problemas es el de los deep fakes, es decir, imágenes, vídeos o audios recreados con IA y que intentan pasar como verdaderos. El retrato anterior, por ejemplo, se ha generado utilizando Stable Diffusion de stability.ia, otro modelo de generación de imágenes, pero este de código libre. Pero esta técnica maliciosa no solo puede utilizarse para suplantar a famosos o políticos. En el campo de la cartografía y la teledetección también podría darse. A partir de ahora, según Gepeto, habrá que estar vigilante. "Si por ejemplo estás viendo una imágen satélite de una ciudad, y ves que los edificios están perfectamente alineados y no hay coches en las calles, entonces, seguramente esa imagen sea falsa". También nos recordaba la importancia de "educar a la ciudadanía y continuar mejorando la tecnología de detección". Una carrera armamentística como ya hemos visto con los virus y malware por un lado, y los antivirus, por el otro.
A los mandos del copiloto
Supongo que en este punto ya te habrás dado cuenta que Gepeto Trias investigador de Invent IA no existe, y que en realidad es una inteligencia artificial. Concretamente el Carmen Mola de mi boletín es GPT-3 de OpenIA, un modelo de generación de texto el que ha estado respondiendo a mis preguntas3. Estos modelos también basados en redes neuronales obtenidas a través de aprendizaje profundo, son entrenadas por millones de textos encontrados en la red. En sus tripas las palabras son transformadas en vectores, localizadas en sistemas de coordenadas complejos4. Por un lado tenemos su posición semántica. Seguramente los nombres con significados parecidos o que compartan una temática estén más cercanos en este espacio de coordenadas semánticas. Y, por otro lado, estas mismas palabras tendrán afinidad con otras palabras a la hora de formar frases. A esto se le llama embeddings o incorporaciones. Lo increíble de este modelo es las aplicaciones que se han construido a partir de él. Una de ellas ya lo hemos visto en la sección anterior, DALL-E usa GPT-3 y Stable Diffusion un modelo parecido llamado ClipText.
Sin embargo, la aplicación que más me tiene fascinado, y la que más me ha ayudado a mejorar mi productividad es Github Copilot también de OpenIA5. Este plugin o complemento de mi editor de texto -algo así como el word de los programadores- sugiere código en función de comentarios, el código circundante y el nombre del propio archivo. Github que ahora pertenece a Microsoft, es el mayor repositorio de código libre, un dataset perfecto para entrenar a modelos de IA como Codex. En mi caso lo uso sobre todo para completar operaciones repetitivas en modelos de datos generados por SQL (Lenguaje de Consulta Estructurada por sus siglas en inglés) pero también funciona perfectamente en lenguajes más utilizados como Python o Javascript.
M. Rajoy dijo que había "que fabricar máquinas para fabricar máquinas" y que "lo que no hace la máquina es fabricar máquinas". Complicado de entender. Seguramente GPT3 lo podría explicar mejor. Bromas aparte. Creo sinceramente que estamos en un cambio de paradigma, un punto de inflexión semejante a la aparición de Internet o de los smartphones. Los modelos de aprendizaje profundo y sus aplicaciones, como la generación de imágenes y texto, cambiarán radicalmente una gran diversidad de ámbitos y sectores profesionales, si no lo están haciendo ya. Estas aplicaciones ayudarán a mejorar el rendimiento de diseñadores y cartógrafas por igual, otros puestos de trabajo como los llamados “prompts engineers” podrían empezar a demandarse, aunque otros tantos desaparecerán.
En el próximo episodio trataré un mundo nuevo que también va a revolucionar como interaccionamos con la geografía en nuestros dispositivos móviles: los videojuegos.
Recomiendo leer el apartado de Origins of Cartography de Matthew H. Edney en Edney, M.H. 2019. Cartography. The Ideal and Its History. The University of Chicago Press, 309 pp.
Existe muchísima información en la web sobre deep learning o aprendizaje profundo, desde canales de youtube, newsletters, artículos y libros. Para los más interesados recomiendo leer Kelleher, J.D. 2019. Deep Learning. The MIT Press Essential Knowledge Series. The MIT Press, 280 pp.
Podéis leer la entrevista completa en este enlace.
Algo que me recuerda a como se posicionaban los tuiteros cuando hablamos de la viralidad de los mapas en una newsletter pasada.
Recientemente se ha denunciado a Microsoft por el uso de código con copyright en esta herramienta. La sentencia de este juicio podría sentar jurisprudencia en este complejo ámbito donde operan las IAs.
Eso es lo que estamos explorando en Bettermaps.ai, la creación de mapas usando lenguaje natural. No puedo concebir un futuro en el que no sea la manera en la que interactuamos con cartografía digital. Solo es pedirlo, y deberíamos tenerlo. Gracias por la divulgación del trabajo que se esta haciendo en la convergencia de Geoespacial e IA.