Qué es la visión por computador y cómo usarla para comparar marcas
De los píxeles a los embeddings: cómo las máquinas aprenden a "ver" un logo y a medir cuánto se parece a otro, y por qué esto cambió la búsqueda de marcas.
Para una persona, decir si dos logos se parecen es instantáneo. Para una computadora, no lo es: una imagen es, en el fondo, una rejilla de números. La visión por computador es la disciplina que enseña a las máquinas a extraer significado de esos números. En el contexto de marcas, esto significa poder comparar miles de logos y decir cuáles se parecen. Veamos cómo.
Qué es la visión por computador
La visión por computador (computer vision) es el campo de la inteligencia artificial dedicado a que las máquinas interpreten contenido visual: imágenes y video. No se trata solo de "leer" píxeles, sino de entender qué representan: formas, objetos, texturas, composición.
Una imagen digital es una matriz de píxeles. Cada píxel tiene valores numéricos de color (por ejemplo, sus componentes rojo, verde y azul). Una imagen de 224×224 píxeles a color son más de 150.000 números. El reto es pasar de esa masa de datos crudos a una conclusión útil como "esto es un logo circular con un ave".
De los píxeles a las características
Los primeros sistemas de visión usaban características hechas a mano (handcrafted features): los ingenieros programaban detectores de bordes, esquinas o histogramas de color.
- •Detección de bordes (como el operador de Sobel o Canny) resalta los contornos.
- •Histogramas de color describen la paleta dominante.
- •Descriptores como SIFT o SURF identifican puntos de interés robustos a rotación y escala.
Estos métodos funcionaban, pero eran frágiles: un cambio de iluminación o un logo ligeramente rotado podía romperlos.
La revolución del aprendizaje profundo
Todo cambió con las redes neuronales convolucionales (CNN). En lugar de programar a mano qué buscar, la red aprende las características relevantes a partir de millones de ejemplos.
Cómo funciona una CNN, paso a paso
Una CNN procesa la imagen en capas sucesivas, cada una detectando patrones más abstractos:
- •Capas convolucionales: aplican filtros que recorren la imagen detectando patrones locales. Las primeras capas detectan bordes y colores; las intermedias, formas; las profundas, conceptos complejos (un círculo, un animal estilizado).
- •Capas de pooling: reducen la resolución conservando lo esencial, lo que da robustez a pequeños desplazamientos.
- •Capas finales: integran todo en una representación compacta.
El concepto clave: embeddings
Aquí está la idea central para comparar marcas. En lugar de usar la CNN para clasificar ("esto es un gato"), la usamos para generar un embedding: un vector de unos cientos de números que resume la imagen en un espacio de características.
La propiedad mágica de este espacio es que la cercanía geométrica equivale a la similitud visual. Dos logos parecidos producen vectores cercanos; dos logos distintos, vectores lejanos.
| Concepto | En el mundo de las imágenes |
|---|---|
| Embedding | Vector que resume el logo |
| Espacio vectorial | "Mapa" donde viven todos los logos |
| Distancia corta | Logos visualmente parecidos |
| Distancia larga | Logos visualmente distintos |
Cómo se mide la similitud
Una vez que cada logo es un vector, comparar dos imágenes se reduce a medir la distancia entre sus vectores. Las métricas más usadas:
- •Similitud del coseno: mide el ángulo entre dos vectores. Valores cercanos a 1 indican alta similitud. Es la métrica más común porque ignora diferencias de magnitud y se enfoca en la "dirección" del vector.
- •Distancia euclidiana: la distancia "en línea recta" entre dos puntos del espacio.
Aplicado a la comparación de marcas
Llevar esto a la práctica con marcas implica un proceso claro:
1. Indexación: cada logo del repositorio se pasa por la CNN y se guarda su embedding.
2. Consulta: cuando subes tu logo, se genera su embedding al vuelo.
3. Búsqueda por vecinos cercanos: se calcula la similitud de tu vector contra los del repositorio y se devuelven los más cercanos.
4. Ranking: los resultados se ordenan por puntuación de similitud.
Lo notable es la velocidad: comparar una imagen contra miles de logos toma segundos, algo imposible de hacer a ojo.
Retos y límites
La visión por computador es poderosa, pero no infalible:
- •Sesgo de los datos de entrenamiento: el modelo "ve" según lo que aprendió.
- •Similitud conceptual vs. visual: dos logos pueden representar lo mismo (un sol) con estilos muy distintos; la similitud visual pura podría no capturarlo.
- •El criterio humano sigue siendo necesario: la herramienta acelera y amplía la búsqueda, pero la decisión final sobre riesgo de confusión combina contexto, mercado y juicio experto.
Conclusión
La visión por computador convirtió la comparación de logos de una tarea manual y subjetiva en un proceso medible, rápido y escalable. Gracias a las CNN y los embeddings, hoy una máquina puede recorrer un repositorio entero de marcas y señalar, en segundos, cuáles se parecen visualmente a la tuya. Es una de las capas que hace posible una búsqueda de marcas verdaderamente completa.
Referencias
- •Szeliski, R. (2022). Computer Vision: Algorithms and Applications (2.ª ed.). Springer.
- •LeCun, Y., Bengio, Y., & Hinton, G. (2015). "Deep learning". Nature, 521(7553), 436–444.
- •Krizhevsky, A., Sutskever, I., & Hinton, G. (2012). "ImageNet Classification with Deep Convolutional Neural Networks". NeurIPS.
- •He, K., Zhang, X., Ren, S., & Sun, J. (2016). "Deep Residual Learning for Image Recognition". CVPR.
- •Lowe, D. G. (2004). "Distinctive Image Features from Scale-Invariant Keypoints". International Journal of Computer Vision, 60(2), 91–110.
- •Schroff, F., Kalenichenko, D., & Philbin, J. (2015). "FaceNet: A Unified Embedding for Face Recognition and Clustering". CVPR.
- •Johnson, J., Douze, M., & Jégou, H. (2019). "Billion-scale similarity search with GPUs". IEEE Transactions on Big Data.
¿Listo para buscar tu marca?
Verifica si tu marca ya existe en el repositorio del SENADI antes de invertir en el registro.
Buscar mi marca gratis