Todo el tiempo escuchamos que “los datos son el nuevo petróleo”. Esta es una de las analogías más usadas para describir la importancia de los datos como recurso estratégico del siglo XXI, principalmente por su uso para el entrenamiento de sistemas de aprendizaje automático y de inteligencia artificial (IA). El uso de esta analogía también se extiende a la denominada “carrera de la IA” entre China y Estados Unidos. De acuerdo con Kai-Fu Lee, autor del libro AI Superpowers, “si los datos son el nuevo petróleo, China es la nueva OPEP”.
Pero, como algunos expertos en tecnología han comenzado a señalar, la analogía de los datos como el nuevo petróleo tiene sus fallas. Y las conclusiones a las que a partir de esta analogía están llegando los responsables de elaborar políticas–a saber, que el acceso a la mayor cantidad de datos representa por sí mismo una ventaja para el desarrollo de IA– amenazan con resultar en malas políticas basadas en conceptos erróneos sobre el rol que tienen los datos como combustible de la IA. El riesgo está en que los responsables de elaborar políticas eviten una posible legislación sobre privacidad por miedo a que limitar el acceso a datos constituya una desventaja para Estados Unidos.
A diferencia del petróleo, los datos no son un recurso limitado. Caracterizarlos como tal sería ignorar completamente la facilidad con la que gobiernos, corporaciones, institutos de investigación, universidades e incluso personas pueden encontrar y recopilar datos por todas partes. Además, el petróleo no es reutilizable, mientras que los datos pueden usarse, copiarse y modificarse muchas veces. Esto no quiere decir que la analogía “los datos son el nuevo petróleo” no tenga ningún fundamento. Podríamos argumentar que Internet es una industria de extracción, que succiona valor de los datos de los consumidores, como las petroleras succionan petróleo de la Tierra. Pero en líneas generales, la analogía se queda muy lejos de la realidad.
Sin embargo, el problema principal con “los datos son el nuevo petróleo” no se limita a la descripción figurativa, sino a la conclusión a la que muchos han llegado luego de escuchar la analogía: que el acceso a la mayor cantidad de datos ofrece por sí sola la mayor ventaja estratégica y comercial, debido al rol que tienen los datos en la alimentación del desarrollo de la IA. Desde las políticas del gobierno de Trump hasta informes en los medios y artículos de opinión, se habla especialmente sobre la “ventaja de datos que tiene China”. Debido a su gran población y a su laxa normatividad respecto a la vigilancia gubernamental, se dice, el país asiático tiene una ventaja estratégica en IA sobre los Estados Unidos. En gran parte, esta noción ha sido alimentada por el libro AI Superpowers, de Kai-Fu Lee, quien sostiene que el acceso a datos para entrenar sistemas de aprendizaje automático es el factor más importante en el dominio global de la tecnología de IA. El problema es que todavía falta ver exactamente qué tan importantes son los datos para el desarrollo de la IA, y, sobre todo, si en realidad son el factor más importante.
Hay otros factores clave en el desarrollo y la implementación de la IA, como el hardware sobre el que se despliegan los algoritmos de aprendizaje automático. “Una de las mayores limitaciones para el progreso del aprendizaje profundo es la capacidad de cómputo disponible”, dice Vivienne Sze del MIT. Después de todo, fueron los avances en hardware informático los que permitieron que técnicas de aprendizaje automático desarrolladas hace décadas dieran paso a la actual revolución de la IA. Esto seguirá siendo así en el futuro. Sze y sus colegas encontraron que el hardware con alta capacidad de procesamiento y de eficiencia energética es “fundamental para expandir el desarrollo de [redes neuronales profundas] tanto en los campos existentes como en los nuevos”. “Los algoritmos de aprendizaje automático más creativos están limitados por sistemas que no logran aprovechar su poder”, escribió un vicepresidente de IBM, y agregó que “si queremos hacer grandes avances en tecnología de IA, nuestro hardware también debe cambiar”. Y el software también es importante; un algoritmo malo no se arregla con grandes cantidades de datos.
Muchos han expresado que el talento es otro elemento fundamental para el desarrollo de tecnología de IA. “A medida que la adopción de IA toma impulso, el valor de las habilidades que no pueden reemplazarse con máquinas también está aumentando”, señala un informe de PricewaterhouseCoopers. “Las personas tendrán que ser responsables de determinar la aplicación estratégica de la IA, así como de cuestionar y supervisar las decisiones”. En relación con esto, “la falta de talento, es decir, personas capacitadas en tecnología de análisis y aprendizaje profundo, puede fácilmente convertirse en el obstáculo más difícil de sortear para las grandes empresas”, escribe el antiguo jefe de investigación del Instituto Australiano de Inteligencia Artificial. Se necesitan habilidades humanas no solo para diseñar las tecnologías sino también para implementarlas con éxito (algo que China parece reconocer bien, a juzgar por su inversión en capacitación de talento nacional en tecnología de IA). Y, al igual que los datos, este factor humano no necesariamente se concentra en un solo lugar. De acuerdo con un estudio, China ocupa un puesto más alto que E.U. en cuanto a la calidad y volumen de citas en artículos científicos sobre IA. Pero, de acuerdo con otra fuente, los E.U. están muy por encima en cuanto al talento de la fuerza de trabajo especializada en IA.
Incluso si los datos son el principal factor decisivo para el desarrollo de aplicaciones de inteligencia artificial superiores, todavía seguimos sin saber qué tipo de datos son los más importantes. Esto se debe a que los datos no se pueden utilizar de manera generalizada. Por ejemplo, los sistemas de aprendizaje automático entrenados con rostros de tez blanca no funcionan bien con rostros de tez más oscura. Del mismo modo, un algoritmo de procesamiento del idioma hablado para el francés no comprende de inmediato todos los demás idiomas. Los constantes esfuerzos de las empresas tecnológicas estadounidenses por penetrar en mercados extranjeros y recopilar datos, así como la respuesta de algunos de esos países en defensa de la soberanía de los datos, representan más evidencia en este aspecto. Para las empresas y otras entidades que quieren desarrollar sistemas de IA globales, contar con distintos tipos de datos de diferentes países del mundo es muy importante.
En este campo, las plataformas de internet de China tienen una clara desventaja, dados los desafíos que enfrentan para expandirse fuera de su mercado interno. Los factores que han hecho que los titanes de la tecnología chinos sean exitosos dentro de China –en particular, un sistema cerrado y controlado– quizás no se trasladen bien a todo el mundo. Tener muchos datos sobre lo que compran en línea los adolescentes chinos puede tener poca importancia para desarrollar aplicaciones de IA que puedan competir en el resto del mundo; este puede ser uno de los motivos por los cuales los investigadores chinos (al igual que sus contrapartes estadounidenses) están usando conjuntos de datos de todo el mundo.
Vale la pena preguntarse a quién le sirve esta confusa analogía de los datos como petróleo, tal y como han señalado Graham Webster y Scarlet Kim. (Webster es nuestro colega en New America; New America trabaja en colaboración con Slate y Arizona State University en el proyecto Future Tense). Por ejemplo, Facebook ha utilizado esta retórica de “la ventaja de datos que tiene China” para argumentar en contra de su propia regulación. De acuerdo con Zuckerberg, si se sujeta a Facebook a determinadas normas sobre recopilación de datos, quedaría “detrás de los competidores chinos” y de otros mercados que no tengan estas normas.
Además, sostener que los datos son el factor más importante para el desarrollo de IA promueve la noción errada de una “carrera armamentista” centrada en esa tecnología. Dicha noción sugiere que llegar primero a determinado lugar es mejor, cuando, de hecho, las primeras implementaciones de aplicaciones de IA suelen ser impredecibles, caóticas y propensas a presentar errores, como suele suceder con muchas tecnologías emergentes. Por lo tanto, pensar que lo más importante es recopilar la mayor cantidad de datos lo antes posible es llegar a una conclusión errada.
Pero muchos responsables de elaborar políticas en Estados Unidos están tomando esa dirección, y los resultados podrían ser dañinos. Al pensar que lo más importante es recopilar la mayor cantidad de datos, se corre el riesgo de hacer que los políticos estadounidenses descuiden las normas de privacidad para las grandes empresas tecnológicas por miedo a perjudicar su competitividad. Además, esta noción ignora que la competencia por el acceso a datos de entrenamiento de IA no se debe priorizar en la misma medida para tipos de datos distintos, tanto por el uso que se les da (reconocimiento facial, procesamiento natural del lenguaje, etc.) como por su origen (región, país, grupo de personas, etc.).
En esencia, la analogía “los datos son el nuevo petróleo” sugiere que se debe sacrificar privacidad por innovación. Pero simplemente no es así. Crear políticas que comprendan este punto ayudará mucho a que las grandes empresas estadounidenses de tecnología recuperen la confianza del público. También impulsará avances en tecnología de IA que beneficien a la humanidad, en campos como el diagnóstico de enfermedades y la seguridad en el transporte. Pero, en un mundo cada vez más centrado en la IA, crear malas políticas basadas en conceptos equivocados sobre la importancia y la naturaleza de los datos terminará perjudicando la competitividad tecnológica de Estados Unidos y las protecciones democráticas alrededor de la tecnología.
Este artículo es publicado gracias a una colaboración de Letras Libres con Future Tense, un proyecto de Slate, New America, y Arizona State University.
es estudiante en la universidad de Duke, miembro del Duke Center on Law & Techonology y asociado de políticas de ciberseguridad en New America.