sábado, 5 de octubre de 2019

El Algoritmo al desnudo, para influencers.

En esta entrada procederé a explicar cómo está el deep learning hoy día para que la gente de la calle comprenda que no hay teoría de la conspiración con Youtube. Que se trata de un problema puramente tecnológico..., y oscuro a la vez.



Así que vamos a empezar con un enlace que apunta a la exposición del problema y aquí un resumen de lo que dice:

El enlace es una reacción de un youtuber a las reflexiones hechas por otro relativo a la manera que tiene Youtube de monetizar los vídeos y de censurar contenidos. Ese enlace se conecta con una segunda parte donde se presentan las teorías que tienen sobre cómo funciona el algoritmo y la empresa Youtube. Debido a que creo que están muy desencaminados, he decidido escribir esta entrada.

De aquí surge una pregunta importante a desarrollar: ¿por qué cuando un youtuber pone en su título la palabra LGTB directamente aparece en amarillo?


Una primera aportación técnica:


El algoritmo que está detrás debe encajar dentro de dos posibles filosofías informáticas


1. Filosofía conectivista
2. Filosofía conexionista


La filosofía conectivista se fundamenta en dar una explicación para cada cosa que se hace, en controlar con un modelo todo lo que se implementa. Mientras que la conexionista consiste en dejar que el propio algoritmo se adapte por sí mismo al ambiente y modifique sus parámetros más internos.


En unos aspectos una filosofía es mejor que la otra y, en esencia, ambas pueden hacer lo mismo; lo que pasa es que le puede salir más caro a una hacer lo que a la otra le sale mejor.


Dicho esto, hay que decir que resulta evidente que el algoritmo de youtube se basa en una filosofía conexionista, porque no parece que sus decisiones se puedan controlar. Y porque es habitual (~95%) que ese tipo de asuntos se resuelva con ese tipo de algoritmos.

Pues bien, ahora nos metemos en el Deep Learning, algoritmos dentro de la filosofía conexionista:

1. Supervisados.
2. No supervisados.
3. Competitivos (Reinforcement Learning).


Para pregunta que nos compete (que el algoritmo de youtube reconozca términos morales humanos), automáticamente descartamos los algoritmos no supervisados; por lo que debemos examinar si se trata de los del primer tipo o de los del segundo tipo.


En este punto debemos matizar el tipo de problema del que estamos hablando en términos técnicos:

P1. Regression Problem. El objeto es recrear el modelo más sencillo que genere el comportamiento.
P2. Classification Problem. El objeto es clasificar instancias en virtud de cómo han sido clasificadas las instancias anteriormente.


La diferencia entre P1 y P2 para el asunto que nos compete significaría que o el algoritmo genera un sistema de valores morales internos o, simplemente, tiene una línea separatoria (por colores) de los distintos tipos de vídeos en base a criterios que le funcione bien.


Pues bien, todo apunta a que el famoso algoritmo de youtube se acerca más a P2, debido a que su comportamiento parece persistente y no circunstancial a la hora de catalogar los vídeos; como si ya tuviera la clasificación preconcebida.


Ahora bien, esto implicaría que el algoritmo sería un algoritmo supervisado frente a uno competitivo ¿Cuál es la principal diferencia entre uno y otro? El supervisado para clasificar problemas suele usar principalmente los modelos neuronales, de donde extraemos dos tipos de máquinas que funcionan muy bien:


N1. Neuronales de convolución. Para reconocimiento gráfico.
N2. Neuronales recurrentes. Para reconocimiento de una memoria temporal.


Tanto N1 como N2, a diferencia de los modelos competitivos, cumplen que el bot, si cambiara de opinión, deberá hacerlo de una manera continua: ante variaciones pequeñas las decisiones serán mínimamente diferentes. Y esto es algo que me chocó por lo que dijo el otro youtuber: son como bots que hacen varias pasadas.


De ahí deduzco que hay dos máquinas: la primera debe basarse probablemente en una neuronal recurrente para clasificar el vídeo a partir del título. Pero cuando se reclama a que te lo revise una persona todo apunta a que no va a ser una persona (salvo que sea un youtuber grande, empero), y lo hará un algoritmo competitivo que tendrá por objeto construirse la simulación de lo que habría hecho un trabajador de Youtube.


Ahora debemos incorporar unas cuantas máximas a modo de postulados para intentar ubicarnos:
M1) Cada vez que hay una denuncia por parte de usuarios de Youtube el vídeo generará sobrecostes de gestión.
M2) Puede encontrarse una correlación entre las palabras del título y si va a generar sobrecostes de gestión.
M3) Puede encontrarse aspectos dentro de los vídeos que ayuden a promocionar mejor los anuncios, para que los anunciantes le den más valor a invertir en anuncios.


Por tanto, si mis pesquisas son ciertas:
1) En base a M2 deduzco que el algoritmo que corrige el título es un algoritmo recurrente. De hecho, se ha demostrado que las redes neuronales podrían volverse hasta racistas, porque lo que hacen es no buscarle una explicación a lo que clasifican, sino que clasifican los títulos en base a resultados prácticos. En este caso para evitar sobrecostes al exigir una gestión más manual del vídeo.

2) En base a M3 deduzco que el algoritmo que corrige al primero se fija en el contenido mediante un algoritmo competitivo basado en los contenidos estéticos compatibles con la idea del family friendly y lo que se enseña que fomenta el ser un buen promocionador de anuncios. Estos algoritmos pueden parecerse a:
2-a) Q-learning, si simplemente el bot recorre el vídeo y devuelve una impresión
2-b) SARSA, si el bot tiene experiencia con fakes y compite adivinando si realmente es conveniente.

La diferencia entre 2-a y 2-b es que con 2-a automáticamente los bots no entran a distinguir cuándo una palabra es para atacar a los gays (no tiene memoria ni entra en valoraciones), mientras que en 2-b lo malsonante es automáticamente eso. Pero 2-b es más caro que 2-a, yo apuntaría a que lógicamente Youtube está perdiendo mucho por invertir en menos personal y generar tanta polémica, así que habrá invertido en un modelo más parecido al SARSA.

Eso apunta a que el propio Youtube tendría una manera de saber hasta qué punto está generando falsos negativos y esos costes es probable que los tenga asumidos. Por lo que eso nos lleva a la siguiente conclusión:

3) No es cierto que Youtube elija los contenidos que a la empresa le guste. Es más fácil pensar que los contenidos han sido escogidos por los propios usuarios y que éstos son reflejados por los propios algoritmos. Si la mayoría de los usuarios odian a los gays, entonces ese odio quedará reflejado en los vídeos, puede que provoque que pinchen a otro enlace al oir la palabra - por lo que la impresión que pueda tener un youtuber sobre cómo ganarse suscriptores puede que sea demasiado sesgada en comparación con lo que aconsejaría la propia máquina; concretamente lo que calculen los bots basados en el sistema SARSA.


Nota: Aquí no he desarrollado varios aspectos relativos a tendencias y lo que provoca que  un vídeo sea viral; eso lo dejaré para más adelante. Esta entrada me ha salido un tanto larga.



Algunas referencias

Enlaces técnicos que ayudarán a ver las cosas de una manera más técnica:
  • Aquí un enlace técnico que puede servirle a quien quiera deducir por su cuenta cómo debe ser el algoritmo que se usa bajo la filosofía conexionista.
  • Este artículo se lo recomiendo a los youtubers que se piensan que una máquina no puede ser racista, o que para meterle esa clase ideas raras hay que tener mala leche por dentro.

Otros enlaces, pero míos, que también hablan del tema:

  • Hace tiempo publiqué esta entrada donde explicaba lo mismo pero mucho menos técnico, más directo hacia el asunto en cuestión y mezclándolo con experiencias personales. En esta ocasión, voy a hacer un estudio analítico y aséptico desde el punto de vista de los influencers; es decir, voy a aportar técnicas de ingeniería inversa, ya que desde nuestra posición es imposible saber cuál es el algoritmo de Youtube, pero se puede uno imaginar cómo está configurado a partir de lo que dicen los propios youtubers.
  • Huelga mencionar que en Medium ya publiqué un artículo donde mencioné que los algoritmos del deep learning ya están consiguiendo superar en inteligencia al ser humano y nos tienen exclavizados mientras nos preocupamos de sus juguetitos versión antropomorfa.
  • En este otro artículo en Medium hablé de la otra cara, de cómo los influencers se están convirtiendo en los posibles esclavos del futuro.
  • Aquí, sin embargo, presento un artículo que intenta establecer un código deóntico sobre los informáticos y, al mismo tiempo, cómo introducir la ética en una máquina. Este artículo demuestra que las máquinas pueden ser inmorales y peligrosas, además de que algo así estaría fuera de control.










No hay comentarios:

Publicar un comentario

Tierra: Día 19/07/24 punto de inflexión

Ayer se produjo el punto de inflexión a escala mundial. Dependiendo de lo que hagan y no hagan los gobiernos tras lo sucedido ayer las dos c...

Entradas populares