¿Debemos permitir que nuestros tweets y videos de YouTube se utilicen para investigaciones?

Si bien el uso de publicaciones en redes sociales para investigaciones es legal, no es necesariamente ético. Por ello vale la pena plantear preguntas sobre cómo y por qué los investigadores las usan y si ese uso podría llegar a ser perjudicial.

Por Jane C. Hu

19 junio 2019

AÑADIR A FAVORITOS

ClosePlease loginn

Uno puede llegar a adivinar muchas cosas de una persona a partir de su voz: su género, su edad y quizás hasta su raza. En estos casos el cerebro hace suposiciones basadas en experiencias previas, pero a veces esas suposiciones están equivocadas (por ejemplo, cuando hablo por teléfono con alguien que no sabe mi nombre, a menudo asume que soy blanca, porque hablo inglés sin ningún acento distintivo, y suele sorprenderse cuando digo que soy de ascendencia asiática). En un estudio reciente, un grupo de investigadores del MIT se propuso analizar cuáles aspectos físicos de una persona puede deducir una computadora a partir de su voz.

Para eso, entrenaron a su modelo usando un conjunto de datos llamado AVSpeech, una selección de videos de YouTube compilado por un grupo de investigadores de Google para otro proyecto. El modelo se alimentó con los datos faciales y de voz de miles de ejemplos de YouTube. Luego, los investigadores le dieron muestras de voz al modelo y le pidieron que creara rostros que correspondieran con esa voz. Al final, los resultados fueron bastante decentes: por lo general, el modelo pudo predecir el aspecto de las personas según su voz, pero tuvo dificultades con personas de ciertas identidades. Por ejemplo, si bien el modelo identifica a un asiático-americano que habla chino como un “hombre asiático”, cuando ese mismo hombre habla en inglés, el modelo lo cataloga como “hombre blanco”. También tuvo problemas con el tono de las voces –ya que asumió que las voces más agudas eran de mujeres y las más graves, de hombres– y con la edad de las personas. En resumen, parece que el modelo aprendió algunos estereotipos básicos sobre las voces y las caras de las personas.

Nick Sullivan, jefe de criptografía de Cloudfare, contribuyó sin saberlo a la “educación” de este modelo. Contó que un amigo le envió el trabajo publicado y que él quedó “bastante sorprendido y confundido” al ver su cara entre los resultados “exitosos”. “Vi una foto mía, una reconstrucción computarizada de mi cara y una imagen generada por computadora que no tenía nada que ver conmigo, salvo porque tenía una nariz y una quijada parecidas a las mías”, explicó Sullivan (yo diría que está siendo bastante generoso con la imagen generada por computadora; a mí me parece totalmente irreconocible).

So this is weird. Apparently, I was used as an example in a paper in which an attempt was made to reconstruct images of speakers from audio alone. It didn't work out great. I'm including a current picture for reference. H/T @lotharrr for finding this. https://t.co/jsuXIlVfX0 pic.twitter.com/OIbB8dO3YI
— Nick Sullivan (@grittygrease) 26 de mayo de 2019

Parte de su confusión provenía de que él no recordaba haber firmado ninguna cesión de derechos para formar parte de un estudio de aprendizaje automatizado, pero sí había firmado algunas al aparecer en diversos videos de YouTube, de modo que supuso que uno de esos videos había terminado en el conjunto de datos que usaron los investigadores. Sin embargo, escarbando un poco más dio con el video que se usó en el set de datos, solo que no recordaba haber firmado ninguna cesión para ese video en particular.

En realidad, el que Sullivan haya firmado o no un papel es anecdótico. En la mayoría de las investigaciones que usan datos de participantes humanos se requiere que los investigadores obtengan su consentimiento informado (en general, en forma de cesiones de derechos). Pero los videos de YouTube son considerados información disponible públicamente y no son clasificados como “investigación en seres humanos”, incluso si los investigadores están estudiando las complejidades de tu cara y tu voz. Y si bien los usuarios de YouTube tienen los derechos de autor de sus propios videos, los investigadores que usan ese contenido podrían argumentar que su trabajo califica como “uso legítimo” de los materiales protegidos, porque el resultado final “transforma” el contenido original (en el caso de los datos de Speech2Face, el modelo literalmente transforma los datos sobre tu cara y tu voz en algo completamente distinto). Casey Fiesler, profesora asistente de Ciencias de la Información en la Universidad de Colorado Boulder, dijo que jamás ha visto que los propietarios de los derechos de autor hayan denunciado a investigadores que usaron sus publicaciones en Internet como datos de estudio. “Es probable que no exista ningún problema legal con eso”, explicó.

Pero que algo sea legal no significa que también sea ético. Tampoco significa necesariamente que sea antiético, pero vale la pena plantear preguntas sobre cómo y por qué los investigadores usan publicaciones en redes sociales y si ese uso podría llegar a ser perjudicial. Alguna vez yo fui una investigadora que tuvo que obtener la aprobación para investigaciones en seres humanos por parte de la junta de revisión institucional de la universidad y sé que el proceso de solicitud puede ser muy riguroso e implicar largos tiempos de espera. Recopilar datos de personas también lleva mucho tiempo. Si pudiéramos usar videos de YouTube en vez de recopilar los datos manualmente, ahorraríamos tiempo, dinero y mucho trabajo. Pero, claro, eso sería a expensas de las personas cuyos datos estamos aprovechando.

Alguien podría argumentar que si las personas no quieren ser estudiadas en línea, entonces no deberían publicar nada. Pero la mayoría no entiende por completo lo que significa la clasificación de “disponible públicamente” ni sus ramificaciones. “Es posible que, a nivel intelectual, entiendas que técnicamente cualquiera puede ver un tweet, pero sigues pensando que tu público son los 200 seguidores de tu cuenta”, explicó Fiesler. En sus estudios, ha descubierto que la mayoría de las personas que entrevistó no tenía idea que los tweets públicos se utilizan en investigaciones.

Algunos pueden no estar de acuerdo en que los investigadores tienen la responsabilidad de sortear la ignorancia de los usuarios de redes sociales, pero Fiesler y otros están hciendo un llamado a sus colegas a ser más conscientes al realizar trabajos que utilicen datos disponibles públicamente. Por ejemplo, Ashley Patterson, profesora asistente de Lengua y Alfabetización en la Universidad de Penn State, finalmente optó por usar videos de YouTube para su trabajo de tesis sobre las experiencias educativas de personas con más de un origen étnico. Llegó a esta decisión tras evaluar cuidadosamente sus opciones en cada etapa de la investigación. “Tuve que establecer mis propios niveles de ética y seguirlos al pie de la letra, porque sabía que nadie lo haría por mí”, compartió. Uno de los primeros pasos para Patterson fue preguntarse qué videos de YouTube aportarían valor a su trabajo y si había otras formas de recopilar esa información. “No se trata de si me simplifica la vida o de si son ‘datos que están ahí disponibles’ y que de otro modo se desperdiciarían. La naturaleza de mi pregunta y la respuesta que buscaba hacían que esta fuera una acción adecuada [para mi cuerpo de trabajo]”, explicó.

Los investigadores también podrían considerar indicios contextuales y cualitativos difíciles de cuantificar a la hora de sopesar sus decisiones éticas. Para empezar, ¿qué tipo de datos se está utilizando? Fiesler señala que, por ejemplo, los tweets sobre un programa de televisión son mucho menos personales que los que hablan sobre una condición médica. El uso de materiales escritos, como publicaciones de Facebook, sin revelar su autoría, sería menos invasivo que tomar la cara y la voz de una persona de un video de YouTube. También vale la pena considerar las posibles consecuencias del proyecto de investigación. Fiesler y otros han señalado que los investigadores que utilizaron videos de YouTube de personas que están documentando su experiencia con la terapia de reemplazo de hormonas para entrenar al modelo de IA para poder identificar a personas trans podrían estar poniendo en peligro a personas que –sin saberlo– fueron parte del estudio. No se sabe con exactitud para qué se van a usar los resultados de Speech2Face, pero cuando se les preguntó a los autores del trabajo, dijeron que preferían citar su publicación, que indicaba un propósito útil: dar una “cara representativa” en función de la voz de una persona durante una llamada telefónica. Pero es muy fácil imaginarse usos más peligrosos de la herramienta, como publicar información privada de youtubers anónimos.

Quizás,una forma de anticiparse a esto es informar explícitamente a los participantes que sus datos están siendo usados. Fiesler dijo que, cuando su equipo le preguntó a los participantes cómo se sentirían si se enteraran de que sus tweets habían sido usados con fines de investigación, “no todos estaban necesariamente tan molestos, aunque la mayoría sí estaban sorprendidos”. También mostraron curiosidad: el 85 % de los participantes dijo que si sus tweets fueran incluidos en un estudio, les gustaría leer el trabajo final. “En los estudios en seres humanos, el estándar ético es el consentimiento informado, pero informar y obtener consentimiento no siempre van de la mano: a veces uno puede llegar a informar a alguien sin obtener su consentimiento”, sugirió Fiesler.

Sullivan dice que le habría gustado que le notificaran que su voz y cara eran parte de una base de datos de investigación, pero también reconoce que, dado el tamaño del estudio, habría sido una tarea compleja. Y, en el caso de Speech2Face, los investigadores estaban usando un conjunto de datos que, originalmente, habían sido recopilados para otro proyecto. Incluso si los investigadores originales hubieran notificado a los participantes que usarían sus videos, ¿los usuarios de Speech2Face también tendrían la responsabilidad de volver a notificar a los participantes y brindar datos sobre su trabajo? En todo caso, los investigadores podrían notificar al menos a las personas cuyos datos personales se publican en el trabajo. “Ya que mi imagen y mi voz se usaron específicamente como ejemplo en el trabajo de Speech2Face, y no como un punto de datos en un estudio estadístico, habría sido bueno que me informaran o que me pidieran permiso”, dijo Sullivan.

De todas formas, puede pasar que informar a los youtubers tampoco sea la mejor decisión en todos los casos. Por ejemplo, Patterson consideró tomar esta medida, pero lo descartó por dos razones. Por un lado,algunos de los youtubers eran menores de 18 años, lo que significa que, para pedir su consentimiento, primero debería contactar a los padres. A juzgar por la franqueza con la que hablaban en los videos acerca de sus familias y sus experiencias escolares, dijo la investigadora, la audiencia que imaginaban los youtubers sin duda no eran sus propios padres. “Parecía una violación a lo que ellos esperaban de la plataforma”, explica, si bien también reconoce que la mirada de un investigador podría representar una violación semejante. Por otro lado, Patterson comentó que, cuando habló con los miembros de la junta de revisión institucional, dijeron que no había precedentes acerca de contactar a los creadores de contenido disponible públicamente, como los videos de YouTube, y que ese proceso podría llevar meses de trabajo. En el caso de Patterson, simplemente no parecía práctico.

En definitiva, no hay una solución única para determinar si es adecuado utilizar datos disponibles públicamente para fines de investigación, pero no cabe duda de que hay mucho espacio para seguir discutiendo el tema. “Sería bueno ver que más reflexión por parte de los investigadores en cuanto a por qué esto es aceptable”, explicó Fiesler y luego sugirió que los trabajos publicados podrían abordar las consideraciones éticas que se tuvieron en cuenta en el proceso (cabe aclarar que el trabajo de Speech2Face sí tenía una sección de “ética”, pero no abordaba este tipo de análisis y que, cuando solicité más información, la respuesta fue dirigirme a esa sección). Patterson concuerda: “creo que, sin duda, va a haber más conversaciones al respecto y que, en un futuro no tan lejano, quizás ya no podamos siquiera hacer este tipo de trabajo”.

Este artículo es publicado gracias a una colaboración de Letras Libres con Future Tense, un proyecto de Slate, New America, y Arizona State University.