El Motor Oculto

Glosario

Imagina abrir tu aplicación de redes sociales favorita y sentir que te lee la mente: los videos, publicaciones y canciones que aparecen parecen elegidos justo para tus gustos. Al mismo tiempo, piensas en algo, lo buscas en Google, y en fracciones de segundo obtienes exactamente la respuesta que necesitabas. Detrás de esta aparente magia se oculta un entramado complejo de algoritmos de recomendación y de búsqueda que operan incansablemente para personalizar tu experiencia digital. En este extenso reportaje, de estilo periodístico pero con rigor técnico, desentrañamos cómo funcionan realmente estos algoritmos en plataformas como TikTok, YouTube e Instagram, así como en motores de búsqueda tipo Google (con su famoso PageRank), centrándonos en su funcionamiento técnico y estructural.

¿Por qué tantas piezas en juego? Porque el objetivo final de estos sistemas suele ser ambicioso: entender al usuario casi mejor de lo que él se entiende a sí mismo. Esto tiene un trasfondo comercial ineludible: “En primer lugar, todos estos algoritmos tienen un fundamento de colectar dinero”, aclara Carlos Muñoz, señalando que detrás de redes sociales y buscadores hay empresas optimizando para mantenernos enganchados y mostrarnos publicidad relevante. En la práctica, optimizar la experiencia del usuario y optimizar el rendimiento comercial van de la mano: a más satisfacción y tiempo en la plataforma, más ingresos por publicidad u otras vías. Pero lograr esa satisfacción personalizada requiere procesar muchísima información y tomar decisiones rápidas, y allí es donde entran en juego múltiples algoritmos especializados que colaboran.

Los datos que alimentan al algoritmo

El combustible de todo algoritmo de recomendación es la información que obtiene de nosotros. Cada “me gusta”, cada video en el que nos detenemos unos segundos de más, cada búsqueda, cada seguidor con quien interactuamos… todo forma parte de nuestra huella digital y proporciona señales de usuario que los sistemas utilizan para inferir qué mostrarnos. “En realidad todo evento [importa]. No hay nada que pase desapercibido. Porque si algo no gusta, no te lo ofrezco… Entonces todo es válido” resume Muñoz de forma gráfica: para el algoritmo, prácticamente cualquier comportamiento (o su ausencia) es una pieza del rompecabezas.

En resumen, los sistemas de recomendación beben de tres grandes fuentes de datos (las “tres dimensiones clave” según Candia):

Datos individuales (demográficos): Información de perfil como edad, género, ubicación, idioma, dispositivo, etc. Son datos estáticos o lentos de cambiar, que sirven como contexto (por ejemplo, TikTok tendrá en cuenta tu ubicación e idioma preferido para no mostrarte contenido irrelevante geográficamente).
Datos conductuales (comportamiento): Toda interacción directa con la plataforma: qué contenidos ves y por cuánto tiempo, a cuáles les das like o compartes, en cuáles escribes comentario, qué buscas, qué anuncios saltas o ignoras, etc. Estas señales son implícitas (derivadas de tu conducta) o explícitas (cuando deliberadamente calificas algo, como darle una estrella o pulgar arriba). En redes sociales prevalecen las implícitas (difícilmente alguien califica videos con estrellas, pero sí los mira o no). Por ejemplo, TikTok valora especialmente la “finalización” de video –que lo veas completo– como señal de que te interesó. YouTube, por su parte, presta atención al tiempo de visualización, el número de videos que ves de un canal, el porcentaje de clics (CTR) que obtiene una miniatura y otras métricas de interacción. En definitiva, cuanto más engagement generes con un tipo de contenido, más el algoritmo tenderá a mostrarte contenidos similares.
Datos relacionales (sociales): Tu gráfico social, es decir, con quién te conectas, sigues, o interactúas, y el comportamiento de esas personas. Este aspecto se inspira en el principio de homofilia: la idea de que las personas con vínculos tienden a tener intereses comunes. Así, si ciertos amigos tuyos o gente que sigues tienden a consumir un contenido que tú aún no has visto, esa preferencia puede trasladarse a tu feed. Candia lo expresa claramente: “lo que les gusta… a tus amigos… también dice mucho de ti”.

Todas estas señales alimentan sistemas de perfilado que construyen (en tiempo real y a largo plazo) una representación interna de quién eres y qué te interesa. Vale aclarar que no existe un “perfil” único y transparente del usuario, sino más bien vectores matemáticos y parámetros dentro de modelos que encapsulan esos gustos. Las empresas a veces revelan pistas: por ejemplo, Spotify te muestra una lista de “gustos musicales” que ha inferido, o Google permite ver categorías de intereses asociadas a tu cuenta. Pero en general, el perfil vive dentro del modelo.

Además de los datos que proporcionamos dentro de la plataforma, muchas veces se cruzan datos entre servicios para afinar la personalización. Por eso no es coincidencia que tras buscar cierto producto en Google o Facebook, luego Instagram te muestre anuncios relacionados –los algoritmos de distintas empresas están comunicándose mediante la publicidad segmentada.

La matematica de la información · Carlos Muñoz

Filtrado colaborativo

¿Cómo decide el sistema qué contenido recomendar? Una de las técnicas más clásicas y efectivas es el filtrado colaborativo (collaborative filtering). Su lógica es simple: recomendarte lo que le gustó a personas con gustos similares. En vez de analizar las características del contenido, se fija en patrones de consumo colectivo. Es “colaborativo” porque aprovecha la experiencia de muchos usuarios para generar sugerencias útiles entre ellos.

Hay dos variantes principales: basada en usuarios y basada en ítems. En la primera, el sistema busca usuarios “vecinos”, aquellos que suelen ver o dar like a lo mismo que tú, y te recomienda lo que ellos han disfrutado y tú aún no. En la segunda, el algoritmo detecta ítems similares a los que ya te gustaron y te sugiere esos análogos. Ambas variantes suelen usarse en conjunto.

Ejemplo: si en YouTube ves muchos videos de cocina y otro usuario tiene un historial muy parecido al tuyo (siguen a los mismos chefs, ven recetas similares), el sistema notará la coincidencia. Si esa persona vio un nuevo video de “cómo hacer tarta de limón” que tú aún no has visto, es probable que YouTube te lo sugiera. Amazon también popularizó este enfoque con su clásica frase: “quienes compraron X también compraron Y”, basada en patrones de compra colectiva.

Detrás de esto, el sistema trabaja con matrices enormes que cruzan usuarios con ítems (como una matriz Usuarios × Videos con valores que indican si cada usuario vio o le gustó cierto contenido). El filtrado colaborativo tradicional usa métricas de similitud —como correlación o distancia coseno— para comparar filas (usuarios) o columnas (ítems) y encontrar cercanos. También aplica técnicas como k-nearest neighbors para identificar usuarios similares y promediar sus preferencias.

La matematica de la información · Marcelo Mendoza

TikTok es un caso moderno que eleva el filtrado colaborativo a otro nivel, debido a su enorme base de usuarios y contenido. Su algoritmo, considerado uno de los más adictivos, combina estrategias de filtrado colaborativo usuario-usuario e ítem-ítem para conectar gustos de manera muy afinada. Por ejemplo, si frecuentemente interactúas con videos de baile, TikTok detecta no solo tu preferencia personal sino también agrupa comunidades de usuarios “danzantes” y te pondrá más videos de baile que hayan conquistado a ese público. Esa red de preferencias interconectadas en TikTok es un elemento clave de su éxito.

El filtrado colaborativo clásico funciona bien, pero tiene sus límites, especialmente cuando hay muchos usuarios y muchos ítems con datos dispersos (lo que se llama problema de la matriz dispersa, donde la mayoría de usuarios no han valorado la mayoría de ítems). Para mejorar la calidad de las recomendaciones, surgió una técnica matemática poderosa: la factorización de matrices.

¿En qué consiste? En términos simples, descompone la gran matriz de valoraciones (usuario vs. ítem) en matrices más pequeñas de factores latentes. Es decir, busca patrones ocultos o gustos fundamentales que explican por qué a alguien le atrae cierto conjunto de cosas. Cada usuario se representa como un vector de “gustos latentes” y cada ítem como un vector de “atributos latentes”; la afinidad entre ambos se calcula a partir de esos vectores. Esta técnica fue clave en el concurso Netflix Prize (2006–2009), donde equipos de todo el mundo intentaron mejorar el sistema de recomendación de Netflix. La solución ganadora utilizó factorizaciones como SVD (Singular Value Decomposition) para identificar dimensiones ocultas en las películas (como “nivel de romance”, “acción” o “humor negro vs. blanco”), combinadas con otros métodos. Netflix reveló que en esa competencia los mejores resultados los lograron combinando modelos de factorización de matrices y modelos basados en redes neuronales (RBM). Es decir, combinaron lo mejor de dos mundos: factores latentes lineales y aprendizaje profundo.

La factorización de matrices abrió el camino a lo que hoy usamos ampliamente: embeddings aprendidos por redes neuronales, que básicamente es una forma no lineal (más flexible) de obtener esos vectores de representación tanto para usuarios como para ítems. Pero antes de entrar en las redes neuronales, veamos otra pieza del rompecabezas de recomendaciones: analizar el contenido mismo.

Filtrado basado en contenido

Otra estrategia complementaria es el filtrado basado en contenido (content-based filtering). A diferencia del enfoque que se apoya en otros usuarios, este se basa en las características del contenido en sí. ¿Qué significa esto? Que si a alguien le gustó Star Wars, el sistema puede recomendarle otras películas de ciencia ficción por compartir género o temática, sin mirar el comportamiento de otros. Aquí se asume que lo que te gustó antes definirá lo que te gustará después, si el contenido es similar.

Implementarlo requiere describir los ítems con atributos o etiquetas. En música, por ejemplo, un recomendador puede clasificar canciones por género, tempo, instrumentos o incluso “estado de ánimo” (como “melancólica” o “enérgica”). Si solo escuchas rock de los 70, la app te sugerirá más del mismo tipo o con rasgos musicales parecidos. En cine, se pueden usar metadatos como director, elenco, género, año o sinopsis para encontrar equivalencias.

Hoy día, con los avances en inteligencia artificial, el filtrado basado en contenido va más allá de etiquetas manuales: algoritmos de visión por computadora y procesamiento de lenguaje natural analizan directamente el contenido multimedia. TikTok, por ejemplo, no solo mira quién vio qué video, sino que analiza el video en sí: qué objetos salen en pantalla, si es de baile, si suena una canción popular, qué texto tiene la descripción o los hashtags. De esta manera, puede encontrar contenido similar aunque provenga de usuarios totalmente distintos. “TikTok emplea técnicas avanzadas de visión computacional, disecando elementos como el género, el estilo y el tema de cada video mediante análisis de imagen y audio. Entendiendo la esencia de cada video, el algoritmo adapta las recomendaciones basadas en el historial de engagement del usuario con contenidos similares”, señala un análisis especializado. Esto explica, por ejemplo, cómo tras ver un par de videos de gatitos en TikTok, tu página Para Ti se llena de mininos: el sistema “entiende” que esos videos compartían cierto contenido (animales tiernos, quizás cierta canción de fondo) y busca otros que encajen con esa esencia que te enganchó.

Sin embargo, el filtrado basado en contenido puro también tiene limitaciones. Tiende a quedarse en más de lo mismo (si solo miras ciencia ficción, te seguirá dando ciencia ficción, quizá ignorando que también podrías disfrutar de una comedia si se te mostrara). Por eso, muchas plataformas usan enfoques híbridos.

Mezclando enfoques: sistemas híbridos y modelos complejos

En la práctica, las mejores plataformas combinan filtrado colaborativo y basado en contenido, aprovechando las fortalezas de cada uno. YouTube, por ejemplo, sabe que para un usuario nuevo con poco historial, es útil recurrir a la popularidad general y a la similitud de contenido (p.ej., videos destacados del género que esté viendo); pero para un usuario veterano, su patrón personal y el de sus suscripciones pesa más. TikTok es famoso por su enfoque híbrido: toma en cuenta quién eres y qué hiciste (colaborativo), y qué estás viendo (contenido) para afinar. Un ejemplo descrito en un artículo: “Si un usuario disfruta videos de baile con un género musical específico, el algoritmo refina las sugerencias para alinear con esta doble preferencia”. Es decir, combinaría datos de quién ve (perfil y comunidad) con qué ve (características del video).

Con el aumento de la complejidad, surgieron arquitecturas de múltiples etapas. Un enfoque común usa un modelo de recuperación inicial que filtra rápidamente millones de ítems hasta dejar unos pocos cientos relevantes. Luego, un modelo de ranking más pesado ordena esos candidatos y elige el top 10 o 20 a mostrar. En 2016, YouTube reveló que su sistema usaba dos redes neuronales con esta lógica: una generaba candidatos basándose en embeddings de usuario y video, y otra los rankeaba según la probabilidad de acciones como ver o dar like. Este enfoque por etapas es clave para escalar: un modelo simple descarta lo irrelevante y otro más complejo afina la selección.

DEEP LEARNING

Hemos mencionado ya las redes neuronales: ¿qué aportan exactamente al mundo de las recomendaciones? En una palabra, flexibilidad. Las redes neuronales profundas (Deep Learning) pueden aprender prácticamente cualquier función que relacione entradas (por ejemplo, tus datos demográficos + histórico de interacciones + características de un video) con una salida (la probabilidad de que te guste ese video).

Antes del auge actual, el filtrado colaborativo y de contenido usaba técnicas más específicas como vecinos cercanos, factorización lineal o árboles de decisión. Las redes neuronales permiten combinar múltiples variables heterogéneas (imágenes, texto, números) y capturar relaciones altamente no lineales entre ellas. Por ejemplo, una red puede aprender que cierto patrón de vistas sucesivas indica aburrimiento, y otro, satisfacción. TikTok, sin duda, entrena redes neuronales masivas con los billones de datos generados por sus usuarios. Estas redes pueden integrar embeddings de usuarios e ítems (como en la factorización, pero aprendidos de forma no lineal) junto con datos de contexto (hora del día, dispositivo, etc.) para predecir el interés en un video.

Mendoza señala que una ventaja de usar modelos (en particular redes neuronales) es detectar relaciones sutiles mejor que con reglas humanas: “uno no interactúa con los datos sino con un modelo [pre-entrenado], porque el modelo es capaz de detectar relaciones que directamente a partir de los datos no podríamos”. Ese modelo actúa como cerebro condensado de la plataforma. Pero entrenar este cerebro no es trivial…

Modelos pre-entrenados

Entrenar un algoritmo de recomendación desde cero cada vez que un usuario entra sería impráctico. En cambio, las plataformas mantienen modelos pre-entrenados con enormes conjuntos de datos históricos. Un modelo pre-entrenado es uno que ya fue “cocinado” con datos acumulados de muchos usuarios y por mucho tiempo, de tal forma que resume en sus millones de parámetros la esencia de las interacciones pasadas. Cuando un usuario se conecta, el sistema no parte de cero, sino que aplica ese modelo ya aprendido.

El resultado es un conjunto de pesos numéricos (por ejemplo, en una red neuronal) que encapsula patrones de comportamiento: el modelo aprende que cierto tipo de usuario suele disfrutar cierto tipo de contenido a cierta hora, etc.

Una vez listo, “uno no interactúa [directamente] con los datos sino con un modelo” pre-entrenado, enfatiza Mendoza. Ese modelo actúa como base para hacer predicciones rápidas. Después, entra en juego la actualización con datos de la sesión actual (lo que se denomina a veces “inferencia en tiempo real con feedback”).

Retroalimentación en tiempo real

Aunque exista un modelo pre-entrenado general, los algoritmos de recomendación son extremadamente reactivos a la retroalimentación inmediata. Es decir, aprenden de tus acciones en tiempo real para ajustar lo que te muestran en cuestión de segundos o minutos.

La matematica de la información · Cristian Candia

En otras palabras, cada vez que aceptas la “sugerencia” viendo un video completo o dándole like, el modelo que te recomienda interpreta que acertó y refuerza ese camino (esto tiene que ver con aprendizaje por refuerzo, donde el algoritmo ajusta sus parámetros para repetir las acciones que llevaron a un resultado positivo). Si por el contrario comienzas a saltar rápidamente ciertos contenidos, el sistema detecta la señal negativa y cambiará de estrategia: por ejemplo, “mostrémosle menos de este estilo, quizá probemos otra cosa”. TikTok, de nuevo, es famoso por su bucle de prueba y ajuste: con un par de swipes y unos segundos de reproducción ya infiere si el nuevo contenido te está interesando o no, y ajusta la selección siguiente. “El algoritmo de TikTok… aprende de los resultados de sus recomendaciones. Cuando un video recomendado consigue mucho engagement, el algoritmo lo interpreta como un resultado positivo, refinando futuras sugerencias; en cambio, un bajo engagement provoca ajustes, asegurando un proceso de aprendizaje continuo que mejora la calidad de las recomendaciones con el tiempo”.

Esto es posible gracias a que muchos modelos de recomendación se entrenan de forma supervisada, prediciendo probabilidades de interacción. Por ejemplo, YouTube entrena sus redes para predecir la probabilidad de que des clic, veas un video completo, le des like, etc. Cada vez que tú realmente haces (o no haces) alguna de esas acciones, el sistema obtiene un dato nuevo para comparar con su predicción y afinarla. Ese afinamiento puede ocurrir en línea (algunos sistemas ajustan un poco los pesos del modelo con cada nueva interacción, lo que se llama online learning) o, más comúnmente, en mini entrenamientos periódicos (por ejemplo, cada día o cada pocas horas incorporan los datos recientes para re-entrenar o ajustar el modelo global).

Además del aprendizaje supervisado (donde se conoce el resultado a predecir, como “clic/no clic”), pueden usarse técnicas no supervisadas para entender mejor los datos. Por ejemplo, el clustering permite agrupar usuarios en segmentos como “cinéfilos nostálgicos” o “fans de estrenos taquilleros”, y luego personalizar las recomendaciones según ese grupo. También pueden emplearse autoencoders, una red neuronal no supervisada, para generar embeddings de ítems a partir de patrones de co-ocurrencia sin etiquetas. Estas técnicas revelan estructuras ocultas y complementan el enfoque supervisado.

El buscador Google y el algoritmo PageRank

PageRank parte de una idea brillante: aprovechar la propia estructura de la web (sus enlaces entre páginas) como indicador de relevancia. Cada enlace de una página A hacia otra página B se considera como un “voto” de A a favor de B. No todos los votos valen igual: si la página A a su vez es muy enlazada (es importante), su voto pesa más. Así, PageRank genera una especie de puntuación de autoridad para cada página basada en cuántos y qué tan importantes son los otros sitios que la enlazan. A finales de los 90 esto supuso una gran innovación, porque los buscadores anteriores se enfocaban más en el contenido interno de cada página, mientras que Google supo aprovechar la dimensión social de los links como indicador de calidad. Como describe un artículo especializado, “Decidieron construir [el sistema] sobre enlaces, que servían como votos de confianza… cuantos más recursos externos enlacen a una página, más información valiosa tendrá”.

Técnicamente, PageRank se calcula de forma iterativa: imagina a un “navegante aleatorio” que salta de página en página siguiendo enlaces. Cada cierto rato, el navegante también puede aburrirse y teletransportarse a una página aleatoria (ese es el llamado damping factor, típicamente 0,85, que representa la probabilidad de seguir navegando vs. saltar al azar). La probabilidad de que ese navegante termine en una página dada, después de una larga caminata aleatoria, es el PageRank de esa página.

En la fórmula original, simplificada, tenemos:

Este algoritmo generó una forma objetiva de ordenar resultados: las páginas con más “votos fuertes” aparecen arriba. Por ejemplo, si buscas “enciclopedia en línea”, una página como Wikipedia recibía muchísimos enlaces de calidad, así que PageRank la pondría muy alto. Y funcionó: Google empezó a dar resultados percibidos como más relevantes que sus competidores gracias a esta métrica. PageRank fue la clave del éxito inicial de Google.

Con los años, por supuesto, Google incorporó cientos de otros factores en su algoritmo de búsqueda. El contenido de la página (coincidencia con las palabras clave de la consulta), la relevancia semántica, la localización geográfica, el comportamiento del usuario (por ejemplo, si muchos hacen clic en el tercer resultado ignorando el primero, quizá el tercero era más relevante)… todo eso también cuenta. Hoy en día se sabe que PageRank sigue existiendo pero diluido entre muchos componentes, y Google ha integrado incluso modelos de lenguaje pre-entrenados (como BERT) para entender mejor las consultas en lenguaje natural. BERT, introducido en 2019, ayuda a Google a interpretar la intención de búsqueda considerando el contexto de las palabras, algo que antes no hacía tan bien (por ejemplo, distinguir “banco de río” de “banco financiero” según el contexto de la frase). Esto muestra cómo los motores de búsqueda también aplican IA avanzada y modelos pre-entrenados para mejorar sus resultados.

Hemos recorrido el fascinante funcionamiento interno de los algoritmos que determinan gran parte de lo que vemos en internet. Desde cómo aprenden de nuestros clics, tiempo de visualización y amistades, hasta las técnicas matemáticas que emplean –sean vecindarios de usuarios, descomposición en factores, o profundas redes neuronales que destilan millones de experiencias pasadas en modelos predictivos–, todo confluye para ofrecernos una experiencia personalizada. Estas fórmulas, estas “recetas” invisibles, buscan patrones incansablemente: “Algoritmo es una fórmula… que busca patrones, que busca algún tipo de tendencia” resume Carlos Muñoz. Y vaya si las encuentra.

En palabras de Candia, “en una plataforma como Instagram [o] TikTok… lo que hacen justamente es priorizar la información… que el algoritmo predice que [a la persona] le va a gustar más”. Priorizar significa elegir qué va primero, qué aparece y qué se oculta. Esa jerarquización algorítmica es poderosa: moldea nuestras percepciones y experiencias digitales cotidianas. Sin entrar a fondo en lo filosófico, baste decir que entender cómo funciona nos prepara para reflexionar luego sobre sus consecuencias.

Hoy nos centramos en la mecánica interna: en cómo esos algoritmos hacen lo que hacen, cómo aprenden de nosotros y cómo nos modelan a su vez en sus cálculos. Queda claro que no hay magia sino ingeniería: sistemas automáticos que procesan cantidades colosales de datos (imposibles de manejar por humanos, como apuntaba un blog de YouTube: con 3,7 millones de videos subidos cada día, solo un algoritmo puede catalogar ese océano). Y sin embargo, el resultado puede sentirse mágico, casi inquietante, cuando un algoritmo parece anticiparse a nuestros deseos o pensamientos.