En la novela En el cafรฉ de la juventud perdida, de Patrick Modiano, hay un personaje que apunta en una libreta las entradas y salidas de sus compaรฑeros del cafรฉ Le Condรฉ. “Soรฑaba con un gigantesco registro donde quedasen apuntados los nombres de los clientes de todos los cafรฉs de Parรญs en los รบltimos cien aรฑos, con menciรณn de sus sucesivas llegadas y partidas. Lo obsesionaban lo que รฉl llamaba ‘los puntos fijos’.” Es un tema recurrente en Modiano: la idea de un catastro personal “para no tener ya esa impresiรณn de navegar a la aventura”, para que “sean mรกs estables los encuentros azarosos”. Un registro que ayude a cubrir todos esos huecos y lagunas de la memoria. En 2011, los hackers Alasdair Allan y Pete Warden desvelaron que el iPhone registraba automรกticamente la localizaciรณn gps de cada usuario. Crearon el iPhone Tracker, una aplicaciรณn que visualiza en un mapa todo ese registro. A partir de ello, el artista James Bridle editรณ un libro, Where the F**k was I?, compuesto por mรกs de doscientos mapas con sus desplazamientos. El catastro de Modiano en la era digital: cientos de puntitos rojos esparcidos en mapas que registran tu vida y sustituyen a la memoria, efรญmera, voluble y menos fiable.
Pero no todas las localizaciones registradas eran correctas. Un Bridle espectral y digital habรญa visitado sitios que el Bridle real no habรญa visitado nunca. Al sistema se le puede conceder cierto margen de error, un concepto que, gracias al Big Data, cada vez tiene menos defensores. El Big Data es el anรกlisis de cantidades masivas de datos, pero tambiรฉn la creencia de que podemos eliminar o reducir casi a cero el margen de error de una predicciรณn o estimaciรณn simplemente aumentando la muestra hasta el infinito. Segรบn la ley de los grandes nรบmeros, cuanto mayor es una muestra aleatoria, menor es el error de muestreo. Pero llega un momento en el que un aumento de la muestra no reduce el margen de error, e incluso puede multiplicarse, como afirma Nassim Taleb, autor de Antifrรกgil. A no ser que el lรญmite sea el cielo y la muestra el universo entero. O eso piensan los mayores defensores del Big Data. ¿Por quรฉ conformarnos con una muestra si podemos analizarlo todo? O, por citar el famoso artรญculo (“The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”) pro Big Data que escribiรณ en 2008 Chris Anderson, director de la revista Wired, “¿quiรฉn sabe por quรฉ la gente hace lo que hace? La cuestiรณn es que lo hace, y podemos rastrearlo y medirlo con una fidelidad sin precedentes. Con suficientes datos, los nรบmeros hablan por sรญ solos”.
La exposiciรณn Big Bang Data ofrece un recorrido por la historia de los datos (su transporte, almacenamiento, uso comercial, polรญtico y artรญstico) evitando la idolatrรญa y el espรญritu de “fin de la historia” (o “fin de la teorรญa”) de los seguidores del Big Data.
Los datos, por sรญ solos, sin manipulaciรณn, filtraciรณn, racionalizaciรณn, no hacen mรกs que ocupar espacio. Incluso en la nube. El cloud computing se sustenta en la falacia de que es abstracto. La exposiciรณn se plantea como una gran visualizaciรณn de las diferentes facetas o transformaciones de los datos para demostrar que, aunque en apariencia intangibles, ocupan tambiรฉn un lugar fรญsico. Ya en la entrada, un enorme cuadro (que luego resulta ser un montaje fotogrรกfico) representa 2,3 millones de trajes de presos estadounidenses. Tres metros de alto, siete de largo. Su autor, el fotรณgrafo Chris Jordan, quiere denunciar injusticias visualizando grandes nรบmeros. A su lado, un enorme trรญptico-pantalla con un vรญdeo del centro de datos de Telefรณnica en Alcalรก de Henares para demostrar que un servidor de internet es una bestia tangible que respira, parpadea y emite un ruido blanco sedante. Y a lo largo de la exposiciรณn, mรกs muestras de cรณmo los datos ocupan espacio: un pequeรฑo documental sobre el Internet Archive, el proyecto que aspira a compilar “todo el conocimiento universal” en un archivo digital (como la idea del artista Kenneth Goldsmith de imprimir internet, pero al contrario y en serio), y las naves industriales donde guardan y escanean todo su contenido; un mapa que visualiza el trazado del sistema de fibra รณptica submarino que nos conecta globalmente a internet (y que, como los oleoductos, puede ser boicoteado, e incluso espiado: Snowden desvelรณ que la nsa tenรญa un programa especรญficamente destinado a obtener datos en bruto de los cables submarinos); vรญdeos sobre el gran data center de Facebook en Lulea, al noreste de Suecia, donde las bajas temperaturas contrarrestan el insoportable calor que producen sus decenas de miles de servidores.
En el aรฑo 2002 ya habรญa mรกs informaciรณn almacenada en formato digital que analรณgicamente. En 2007 un 94% de la informaciรณn estaba codificada digitalmente. En 2020 se estima que, con el desarrollo del internet de las cosas y de dispositivos que no dejan de producir datos, se alcanzarรก un techo de almacenamiento. Probablemente la soluciรณn llegue antes. En 2013, la revista Nature publicรณ una investigaciรณn del Instituto Europeo de Bioinformรกtica sobre las posibilidades de almacenamiento en adn. El grupo de investigaciรณn consiguiรณ almacenar 739 kilobytes (que incluรญan los 154 sonetos de Shakespeare y el discurso “I Have a Dream” de Martin Luther King) en una molรฉcula de adn. El cern (Organizaciรณn Europea para la Investigaciรณn Nuclear) almacena alrededor de 90 petabytes (un petabyte son 1015 bytes, esto es, un uno y quince ceros) de datos repartidos en dos edificios. Esa misma cantidad cabe en apenas 41 gramos de adn.
¿Quรฉ hacer con tanta informaciรณn, aparte de almacenarla? Glenn Greenwald, el periodista que desvelรณ el caso Snowden, afirma en Sin un lugar donde esconderse, donde desgrana los planes de espionaje a gran escala de la nsa, que tras la filosofรญa de collect it all no habรญa en muchas ocasiones ningรบn plan mรกs allรก de violar los derechos constitucionales: la agencia acumulaba mรกs informaciรณn de la que podรญa procesar. Miles de empresas, incluso el periodismo y las ciencias sociales, depositan sus esperanzas en esa nueva buzzword que es Big Data, como lo fue (y sigue siendo) el seo o las redes sociales, sin saber en muchas ocasiones el potencial que ofrece. Cada vez tenemos mรกs datos, pero eso no siempre significa que sean buenos o รบtiles, o que sepamos quรฉ hacer con ellos. Nate Silver llega incluso a afirmar en su libro La seรฑal y el ruido que la era de la informaciรณn y el Big Data estรก aumentando la brecha entre “lo que sabemos y lo que creemos saber”, e insiste en la necesidad de distinguir entre “la seรฑal y el ruido”, entre lo significativo y lo accesorio.
Sin el Big Data Silver no habrรญa podido pronosticar los resultados de las elecciones estadounidenses de 2012 (aunque รฉl insiste en la necesidad de la teorรญa y en que “correlaciรณn no implica necesariamente causalidad”), no existirรญa el traductor de Google (que no traduce sino que analiza millones de documentos ya traducidos por humanos y busca patrones que copiar), las smart cities no tendrรญan sentido y la biotecnologรญa, la bioinformรกtica o la astrofรญsica, que llevan dรฉcadas procesando enormes cantidades de datos, estarรญan varios pasos atrรกs. Pero su utilidad no es ilimitada ni infalible, ni parece que vaya a suponer “el fin de la teorรญa” o vaya a hacer obsoleto el mรฉtodo cientรญfico: nunca podremos eliminar el error o la incertidumbre de una encuesta electoral, de la especulaciรณn bursรกtil, de una encuesta de pobreza y quizรก tampoco predecir un terremoto. El margen de error es “la consecuencia inevitable de la aleatoriedad de la naturaleza” (y del ser humano), como afirma el periodista y matemรกtico Charles Seife.
Los entusiastas del Big Data, los que creen que ha enterrado la teorรญa, aspiran a un cielo en el que n = todo, en el que la muestra es igual al universo. En el que no hay margen de error porque directamente no hay margen: la muestra es todo, porque todo estรก monitorizado. En el que no puede haber sesgos muestrales porque no hay selecciรณn cuando se selecciona todo. En el que lo รบnico que importa son las correlaciones y no las causalidades, lo cuantitativo y no lo cualitativo, obviando, como dice esa frase tan naif y superficial usada casi siempre para denostar a la estadรญstica, pero tan verdadera aquรญ, que “tras los nรบmeros hay personas” (o caos). El escenario opuesto es un mundo de pruebas anecdรณticas, en el que la pobreza de un solo individuo es extrapolable, muchas veces de forma ideolรณgica, a todo su entorno, en el que “yo no veo la crisis, mira cรณmo estรกn de llenos los bares”. En un tรฉrmino medio mรกs sensato estรก el cuidado por la teorรญa, la estadรญstica, la creencia en la falibilidad de la ciencia y en el error humano, la percepciรณn de que el Big Data no es la respuesta, sino otra forma de preguntar. ~
La exposiciรณn “Big Bang Data” puede verse en la Fundaciรณn Telefรณnica de Madrid hasta el 24 de mayo.
Ricardo Dudda (Madrid, 1992) es periodista y miembro de la redacciรณn de Letras Libres. Es autor de 'Mi padre alemรกn' (Libros del Asteroide, 2023).