โCuando una medida se convierte en un objetivo, deja de ser una buena medidaโ
Charles Goodhart
โMuรฉstrame cualquier cosa que represente el progreso institucional en Estados Unidos, resultados de exรกmenes escolares, estadรญsticas de delincuencia, informes de arrestos, estadรญsticas de detenciones, cualquier cosa con la que un polรญtico pueda presentarse, cualquier cosa con la que alguien pueda conseguir un ascenso. Y en cuanto inventes esa categorรญa estadรญstica, 50 personas de esa instituciรณn se pondrรกn manos a la obra para intentar que parezca que se estรก progresando cuando en realidad no se estรก progresando nadaโฆโ
David Simon, creador de The Wire.
Hace poco vi The Wire por tercera vez. En la serie, vemos a las personas que hay detrรกs de dos organigramas: el del Departamento de Policรญa de Baltimore y el de una operaciรณn de narcotrรกfico callejera. Ambas son burocracias complejas que luchan por sobrevivir. Pero solo la segunda consigue hacer algo.
La diferencia radica en cรณmo se mide el รฉxito. En el departamento de policรญa, el objetivo es reducir las estadรญsticas de delincuencia y quedar bien en las reuniones del mando policial (ComStat). ยฟCuรกl es el resultado? La delincuencia no disminuye, simplemente desaparece de los registros oficiales. La agresiรณn se convierte en un delito menor de lesiones. Los delitos de robo se transforman en pequeรฑos hurtos. Las cifras parecen buenas. Pero las calles no son mรกs seguras.
En una de las secuencias mรกs inquietantes, los cadรกveres desaparecen entre las paredes de casas abandonadas. Cuando son descubiertos โcadรกveres en descomposiciรณn sellados tras yeso y listonesโ, los jefes de policรญa prefieren no encontrarlos oficialmente: estรกn optimizando el mantenimiento de las estadรญsticas de criminalidad en lugar de resolver los asesinatos.
La operaciรณn del narcotraficante Stringer Bell ofrece un marcado contraste. Mientras las instituciones de la ciudad se manipulan, Stringer Bell dirige su negocio de la droga como si fuera una empresa. Maximiza los beneficios y el mercado recompensa las prรกcticas que aportan โvalorโ a los clientes. Como resultado, la organizaciรณn hace lo que se supone que debe hacer.
El trabajo de Bengt Holmstrรถm y Paul Milgrom sobre la teorรญa de los contratos contiene el primer anรกlisis en economรญa de este problema bajo el epรญgrafe de โincentivos multitareaโ. La naturaleza humana (sรญ, el odiado pero bastante resistente homo economicus) responde a los incentivos. Si le das a la gente un objetivo con consecuencias significativas, encontrarรก el camino mรกs eficiente para alcanzarlo, por cualquier medio que encuentre adecuado. Pero cuando varias tareas compiten por la atenciรณn de un agente, las recompensas basadas en la mediciรณn del rendimiento pueden ser contraproducentes. El problema no es la precisiรณn de la mediciรณn, sino la alineaciรณn entre lo que podemos medir y lo que realmente queremos conseguir.
Piense en ellos como si fueran dos vectores. El primer vector es lo que podemos medir: resultados de exรกmenes, estadรญsticas de delincuencia, beneficios trimestrales. El segundo es lo que realmente queremos: el aprendizaje de los estudiantes, la seguridad pรบblica, el crecimiento sostenible de las empresas. A veces estos vectores estรกn estrechamente alineados, como en la operaciรณn de Stringer Bell, donde el beneficio de la venta de drogas mide directamente el รฉxito. Pero a menudo son ortogonales o incluso opuestos, como en el departamento de policรญa de Baltimore, donde unas estadรญsticas de delincuencia mรกs bajas podrรญan indicar una actuaciรณn policial peor.
El problema del sector pรบblico, y la razรณn por la que la burocracia parece tan burocrรกtica, es que los resultados de las organizaciones pรบblicas son necesariamente difรญciles de medir. En el trรกfico de drogas (o de petrรณleo), la mรฉtrica del รฉxito es sencilla: los beneficios obtenidos. Pero en el servicio pรบblico, los verdaderos objetivos โโpolicรญa eficazโ, โseguridad pรบblicaโโ son intrรญnsecamente complejos y multidimensionales. (Los mismos retos afectan a las ONG.) Esta complejidad hace que la manipulaciรณn del sistema sea no solo posible, sino inevitable cuando se imponen parรกmetros simplificados.
La reducciรณn de la delincuencia, la mejora de la educaciรณn, la mejora de la sanidad pรบblica… ninguna de ellas se presta a una mediciรณn sencilla. La policรญa no puede saber con exactitud si los ciudadanos se sienten seguros y confiados, o sรญ, pero solo hasta que, segรบn la ley de Goodhart, la medida se utiliza como objetivo y se vincula a incentivos, en cuyo caso la correlaciรณn desaparece. Una vez que se elige una mรฉtrica, los empleados acaban optimizando esa aproximaciรณn, en lugar de la real, lo que conduce a la desalineaciรณn. Cuanto mayor es la complejidad, mรกs se convierte el sistema en un baile de apariencias. En The Wire, el ayuntamiento trata de mostrar su progreso desplazando a los sin techo, los funcionarios intentan quedar bien con CompStat y los profesores enseรฑan el examen.
Y al revรฉs, un trabajador honrado que se da cuenta de este desajuste e intenta hacer lo โcorrectoโ encuentra poca recompensa y mucha frustraciรณn. Los incentivos les empujan a seguir a todos los demรกs y a engaรฑar a la mรฉtrica. Tambiรฉn animan a los demรกs a castigar a los desertores que desafรญan el desajuste. Bunny Colvin, el comandante de policรญa que comprende que la guerra contra las drogas es un juego de trileros, lo desafรญa y es despedido por ello. Tommy Carcetti, que se convierte en alcalde como un idealista que intenta cambiar el sistema, acaba jugando con los nรบmeros como el mejor de los polรญticos maquinales corruptos.
En la cuarta temporada, el sistema escolar ofrece otro buen ejemplo. En realidad, los profesores no enseรฑan mejor cuando los resultados de los exรกmenes se convierten en la รบnica mรฉtrica, sino que se convierten en expertos en la preparaciรณn de exรกmenes. Todo el plan de estudios se distorsiona. Se oculta a los alumnos con dificultades. El material avanzado se abandona en favor de rituales de preparaciรณn de exรกmenes que hacen que la escuela parezca buena. Si, como Prez, el maravilloso policรญa reconvertido en profesor, intentas hacer lo correcto por los niรฑos, pones en peligro la existencia de toda tu escuela. No esperes que nadie te reconozca: tendrรกs suerte si no te despiden a ti.
Roland โPrezโ Pryzbylewski: No lo entiendo, ยฟtodo esto para que saquemos mejores notas en los exรกmenes estatales? Si estamos enseรฑando a los niรฑos las preguntas del examen, ยฟquรฉ estamos evaluando en ellos?
Profesor: Nada, nos evalรบan a nosotros. Si los resultados suben, pueden decir que las escuelas estรกn mejorando. Si los resultados bajan, no pueden.
Prez: Trampeando las estadรญsticas
Profesor: ยฟPerdรณn?
Prez: Convirtiendo robos en hurtos, haciendo desaparecer violaciones. Trampeamos las estadรญsticas, y los mayores se convierten en coroneles. He estado aquรญ antes.
(Fuente: Bill Moyers Journal)
Cuanto mรกs complejo sea el resultado deseado, mรกs cuidado debemos tener a la hora de medir e incentivar el rendimiento. Las mรฉtricas sencillas funcionan bien para objetivos sencillos, pero pueden fracasar catastrรณficamente cuando se aplican a objetivos sociales complejos. La genialidad de The Wire reside en mostrarnos esta verdad a travรฉs de mรบltiples instituciones, cada una de ellas luchando con la brecha entre lo que pueden medir y lo que realmente quieren conseguir.
The Wire es algo mรกs que una gran serie de televisiรณn. Es una clase magistral de economรญa organizativa, una demostraciรณn brutal y hermosa de cรณmo los incentivos moldean el comportamiento humano y de cรณmo los sistemas mejor intencionados pueden producir los resultados mรกs perversos.
Estos problemas โla diferencia entre lo que deseamos y lo que podemos medirโ son omnipresentes. Consideremos dos aplicaciones actuales y de actualidad:
1. El greenwashing. El mundo de los crรฉditos de carbono estรก plagado de empresas que mejoran sus indicadores medioambientales mediante una contabilidad creativa. Por ejemplo, las compensaciones de carbono mediante crรฉditos de preservaciรณn forestal. Las empresas pueden reclamar la neutralidad de carbono pagando para proteger bosques que nunca estuvieron en riesgo de tala. Cuantos mรกs รกrboles se salven en comparaciรณn con el bosque de referencia, mรกs crรฉditos de carbono se ganan.
Un caso reciente en Zimbabue ilustra perfectamente los problemas que plantea este sistema: South Pole, la mayor empresa de compensaciรณn de carbono del mundo, vendiรณ crรฉditos por proteger tierras forestales cerca del lago Kariba. Cuando descubrieron que tanto su bosque protegido como el bosque de referencia estaban prรกcticamente intactos โbuenas noticias para el planeta pero malas para el negocio de los crรฉditos de carbonoโ siguieron vendiendo crรฉditos de todos modos. Un ejecutivo, cuando le preguntaron si los crรฉditos reflejaban la realidad, respondiรณ: โยฟQuรฉ es la realidad?โ. La mediciรณn se convierte en el objetivo, en lugar de la reducciรณn real de carbono.
Como ha seรฑalado Matt Levine en Bloomberg, existe un incentivo perverso: se podrรญa ganar aรบn mรกs dinero organizando en secreto la destrucciรณn del bosque de referencia, con lo que el bosque protegido parecerรญa mรกs exitoso en comparaciรณn. Al igual que los mandos policiales de Baltimore preferรญan no encontrar cadรกveres para mantener bajas las estadรญsticas de asesinatos, los comerciantes de compensaciones de carbono podrรญan preferir ver arder los bosques de referencia para demostrar que sus esfuerzos de protecciรณn โfuncionabanโ
Del mismo modo, se pretende que los criterios ESG (medioambientales, sociales y de gobierno corporativo) proporcionen una inversiรณn limpia, pero maximizar los criterios ESG puede significar gastar en invertir en empresas sucias. Por ejemplo, una empresa energรฉtica divide sus operaciones entre una filial โverdeโ que obtiene financiaciรณn favorable a travรฉs de bonos verdes, y una entidad โmarrรณnโ que posee activos mรกs sucios y recurre a la financiaciรณn tradicional. Saudi Aramco crea dos filiales separadas de oleoductos y gasoductos y vende el 49% de cada una a vehรญculos de inversiรณn en Luxemburgo. Estos vehรญculos utilizan prรฉstamos bancarios para pagar a Aramco. Los vehรญculos luxemburgueses โEIG Pearl y Greensaif Pipelinesโ no estรกn seรฑalados por los sistemas de calificaciรณn ESG del mismo modo que Aramco. Aunque esencialmente financian la infraestructura de combustibles fรณsiles de Aramco, los fondos ESG pueden comprar sus bonos sin activar los criterios de exclusiรณn. Las agencias de calificaciรณn crediticia se dan cuenta de ello, otorgando a estos bonos la misma calificaciรณn que a Aramco, pero los marcos ESG los tratan como entidades separadas. Al igual que las estadรญsticas de The Wire, se trata de hacer que los nรบmeros parezcan buenos en lugar de lograr un cambio real.
2. Puntos de referencia de la IA. La noticia para la humanidad en esta รฉpoca prenavideรฑa fue el asombroso progreso del modelo o3 de OpenAI. La empresa anunciรณ un rendimiento sin precedentes en el Corpus de Abstracciรณn y Razonamiento (ARC) de Franรงois Chollet, una prueba diseรฑada para medir la inteligencia genuina. Los medios tecnolรณgicos se llenaron de entusiasmo. Algunos incluso bromeaban con la llegada de la Inteligencia Artificial General. Luego estallรณ una gran polรฉmica. Algunos (sobre todo Gary Marcus) argumentaron que OpenAI estaba, para decirlo en un lenguaje que Prez entenderรญa, enseรฑando a o3 a hacer la prueba.
Cuando la medida del progreso de la IA es el rendimiento de los puntos de referencia, se corre el riesgo de que, en lugar de desarrollar un autรฉntico razonamiento abstracto, los modelos de IA se dediquen a una elaborada forma de optimizaciรณn mรฉtrica. Del mismo modo que la โeficacia policialโ se resiste a una mediciรณn sencilla, la โinteligencia artificialโ desafรญa la evaluaciรณn comparativa fรกcil. El creador de ARC, Franรงois Chollet, estรก desarrollando ahora una versiรณn mรกs dura, reconociendo que la actual se ha โsaturadoโ con este tipo de tรฉcnicas.
Epรญlogo: Consejos profesionales: elige bien tu organizaciรณn
Un consejo profesional para nuestros lectores mรกs jรณvenes. Averigua rรกpido si tu organizaciรณn (y tu trabajo) valora hacer lo correcto, y si no es asรญ, dรฉjala. Si resuelves delitos, puede que seas feliz en tu trabajo. Si tu organizaciรณn se dedica a cubrirte las espaldas, probablemente no lo serรกs. El trabajo es casi un tercio de tu vida. Ya sea cocinando, resolviendo delitos o dando clases, puedes hacer un trabajo honesto y serio โlo que McNulty llama โhacer de buen policรญaโโ o puedes estar en un lugar que te exige que finjas.
He trabajado en el mundo acadรฉmico, en la polรญtica y en el sector privado, y he encontrado de los dos tipos. Hay organizaciones acadรฉmicas que miran constantemente las clasificaciones y hacen hincapiรฉ en lo que โcuentaโ (puede ser por alguna mรฉtrica arbitraria inventada, por ejemplo, por un editor de FT) y otras en las que te animan a hacer tu mejor trabajo independientemente de dรณnde acabe. Los partidos polรญticos son famosos, por supuesto, por anteponer otros parรกmetros, sobre todo la lealtad, al mรฉrito, aunque es mรกs probable que un partido emergente recompense el mรฉrito. Incluso en las empresas, donde la maximizaciรณn de beneficios deberรญa ser un parรกmetro claro, he visto muchos juegos de azar, como invertir en proyectos con un VPN (Valor Presente Neto) negativo para que las cifras a corto plazo parezcan buenas.
En todos estos casos, hay que mirar mรกs allรก de las declaraciones de misiรณn y los valores corporativos pegados en las paredes. Enron era famosa por defender โLa Integridad, la Comunicaciรณn, el Respeto, la Excelenciaโ, hasta que colapsรณ. En su lugar, estudia lo que realmente se recompensa, a quiรฉn se asciende. ยฟRecompensa este lugar el trabajo bueno, creativo, intenso y honesto o prefieren a los que manipulan las estadรญsticas?
Traducciรณn del inglรฉs de Ricardo Dudda.
Publicado originalmente en Silicon Continent.
Luis Garicano es economista, exeurodiputado y profesor en London School of Economics