En la novela En el café de la juventud perdida, de Patrick Modiano, hay un personaje que apunta en una libreta las entradas y salidas de sus compañeros del café Le Condé. “Soñaba con un gigantesco registro donde quedasen apuntados los nombres de los clientes de todos los cafés de París en los últimos cien años, con mención de sus sucesivas llegadas y partidas. Lo obsesionaban lo que él llamaba ‘los puntos fijos’.” Es un tema recurrente en Modiano: la idea de un catastro personal “para no tener ya esa impresión de navegar a la aventura”, para que “sean más estables los encuentros azarosos”. Un registro que ayude a cubrir todos esos huecos y lagunas de la memoria. En 2011, los hackers Alasdair Allan y Pete Warden desvelaron que el iPhone registraba automáticamente la localización gps de cada usuario. Crearon el iPhone Tracker, una aplicación que visualiza en un mapa todo ese registro. A partir de ello, el artista James Bridle editó un libro, Where the F**k was I?, compuesto por más de doscientos mapas con sus desplazamientos. El catastro de Modiano en la era digital: cientos de puntitos rojos esparcidos en mapas que registran tu vida y sustituyen a la memoria, efímera, voluble y menos fiable.
Pero no todas las localizaciones registradas eran correctas. Un Bridle espectral y digital había visitado sitios que el Bridle real no había visitado nunca. Al sistema se le puede conceder cierto margen de error, un concepto que, gracias al Big Data, cada vez tiene menos defensores. El Big Data es el análisis de cantidades masivas de datos, pero también la creencia de que podemos eliminar o reducir casi a cero el margen de error de una predicción o estimación simplemente aumentando la muestra hasta el infinito. Según la ley de los grandes números, cuanto mayor es una muestra aleatoria, menor es el error de muestreo. Pero llega un momento en el que un aumento de la muestra no reduce el margen de error, e incluso puede multiplicarse, como afirma Nassim Taleb, autor de Antifrágil. A no ser que el límite sea el cielo y la muestra el universo entero. O eso piensan los mayores defensores del Big Data. ¿Por qué conformarnos con una muestra si podemos analizarlo todo? O, por citar el famoso artículo (“The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”) pro Big Data que escribió en 2008 Chris Anderson, director de la revista Wired, “¿quién sabe por qué la gente hace lo que hace? La cuestión es que lo hace, y podemos rastrearlo y medirlo con una fidelidad sin precedentes. Con suficientes datos, los números hablan por sí solos”.
La exposición Big Bang Data ofrece un recorrido por la historia de los datos (su transporte, almacenamiento, uso comercial, político y artístico) evitando la idolatría y el espíritu de “fin de la historia” (o “fin de la teoría”) de los seguidores del Big Data.
Los datos, por sí solos, sin manipulación, filtración, racionalización, no hacen más que ocupar espacio. Incluso en la nube. El cloud computing se sustenta en la falacia de que es abstracto. La exposición se plantea como una gran visualización de las diferentes facetas o transformaciones de los datos para demostrar que, aunque en apariencia intangibles, ocupan también un lugar físico. Ya en la entrada, un enorme cuadro (que luego resulta ser un montaje fotográfico) representa 2,3 millones de trajes de presos estadounidenses. Tres metros de alto, siete de largo. Su autor, el fotógrafo Chris Jordan, quiere denunciar injusticias visualizando grandes números. A su lado, un enorme tríptico-pantalla con un vídeo del centro de datos de Telefónica en Alcalá de Henares para demostrar que un servidor de internet es una bestia tangible que respira, parpadea y emite un ruido blanco sedante. Y a lo largo de la exposición, más muestras de cómo los datos ocupan espacio: un pequeño documental sobre el Internet Archive, el proyecto que aspira a compilar “todo el conocimiento universal” en un archivo digital (como la idea del artista Kenneth Goldsmith de imprimir internet, pero al contrario y en serio), y las naves industriales donde guardan y escanean todo su contenido; un mapa que visualiza el trazado del sistema de fibra óptica submarino que nos conecta globalmente a internet (y que, como los oleoductos, puede ser boicoteado, e incluso espiado: Snowden desveló que la nsa tenía un programa específicamente destinado a obtener datos en bruto de los cables submarinos); vídeos sobre el gran data center de Facebook en Lulea, al noreste de Suecia, donde las bajas temperaturas contrarrestan el insoportable calor que producen sus decenas de miles de servidores.
En el año 2002 ya había más información almacenada en formato digital que analógicamente. En 2007 un 94% de la información estaba codificada digitalmente. En 2020 se estima que, con el desarrollo del internet de las cosas y de dispositivos que no dejan de producir datos, se alcanzará un techo de almacenamiento. Probablemente la solución llegue antes. En 2013, la revista Nature publicó una investigación del Instituto Europeo de Bioinformática sobre las posibilidades de almacenamiento en adn. El grupo de investigación consiguió almacenar 739 kilobytes (que incluían los 154 sonetos de Shakespeare y el discurso “I Have a Dream” de Martin Luther King) en una molécula de adn. El cern (Organización Europea para la Investigación Nuclear) almacena alrededor de 90 petabytes (un petabyte son 1015 bytes, esto es, un uno y quince ceros) de datos repartidos en dos edificios. Esa misma cantidad cabe en apenas 41 gramos de adn.
¿Qué hacer con tanta información, aparte de almacenarla? Glenn Greenwald, el periodista que desveló el caso Snowden, afirma en Sin un lugar donde esconderse, donde desgrana los planes de espionaje a gran escala de la nsa, que tras la filosofía de collect it all no había en muchas ocasiones ningún plan más allá de violar los derechos constitucionales: la agencia acumulaba más información de la que podía procesar. Miles de empresas, incluso el periodismo y las ciencias sociales, depositan sus esperanzas en esa nueva buzzword que es Big Data, como lo fue (y sigue siendo) el seo o las redes sociales, sin saber en muchas ocasiones el potencial que ofrece. Cada vez tenemos más datos, pero eso no siempre significa que sean buenos o útiles, o que sepamos qué hacer con ellos. Nate Silver llega incluso a afirmar en su libro La señal y el ruido que la era de la información y el Big Data está aumentando la brecha entre “lo que sabemos y lo que creemos saber”, e insiste en la necesidad de distinguir entre “la señal y el ruido”, entre lo significativo y lo accesorio.
Sin el Big Data Silver no habría podido pronosticar los resultados de las elecciones estadounidenses de 2012 (aunque él insiste en la necesidad de la teoría y en que “correlación no implica necesariamente causalidad”), no existiría el traductor de Google (que no traduce sino que analiza millones de documentos ya traducidos por humanos y busca patrones que copiar), las smart cities no tendrían sentido y la biotecnología, la bioinformática o la astrofísica, que llevan décadas procesando enormes cantidades de datos, estarían varios pasos atrás. Pero su utilidad no es ilimitada ni infalible, ni parece que vaya a suponer “el fin de la teoría” o vaya a hacer obsoleto el método científico: nunca podremos eliminar el error o la incertidumbre de una encuesta electoral, de la especulación bursátil, de una encuesta de pobreza y quizá tampoco predecir un terremoto. El margen de error es “la consecuencia inevitable de la aleatoriedad de la naturaleza” (y del ser humano), como afirma el periodista y matemático Charles Seife.
Los entusiastas del Big Data, los que creen que ha enterrado la teoría, aspiran a un cielo en el que n = todo, en el que la muestra es igual al universo. En el que no hay margen de error porque directamente no hay margen: la muestra es todo, porque todo está monitorizado. En el que no puede haber sesgos muestrales porque no hay selección cuando se selecciona todo. En el que lo único que importa son las correlaciones y no las causalidades, lo cuantitativo y no lo cualitativo, obviando, como dice esa frase tan naif y superficial usada casi siempre para denostar a la estadística, pero tan verdadera aquí, que “tras los números hay personas” (o caos). El escenario opuesto es un mundo de pruebas anecdóticas, en el que la pobreza de un solo individuo es extrapolable, muchas veces de forma ideológica, a todo su entorno, en el que “yo no veo la crisis, mira cómo están de llenos los bares”. En un término medio más sensato está el cuidado por la teoría, la estadística, la creencia en la falibilidad de la ciencia y en el error humano, la percepción de que el Big Data no es la respuesta, sino otra forma de preguntar. ~
La exposición “Big Bang Data” puede verse en la Fundación Telefónica de Madrid hasta el 24 de mayo.
Ricardo Dudda (Madrid, 1992) es periodista y miembro de la redacción de Letras Libres. Es autor de 'Mi padre alemán' (Libros del Asteroide, 2023).