Inicio Actualidad Reflexiones en torno a los sistemas de reconocimiento automático de contenido en las plataformas de contenido generado por usuarios

Reflexiones en torno a los sistemas de reconocimiento automático de contenido en las plataformas de contenido generado por usuarios

por PÓLEMOS
28 vistas

Reflexiones en torno a los sistemas de reconocimiento automático de contenido en las plataformas de contenido generado por usuarios

Sebastián Carruitero Cárdenas[1] 

Asociado del Estudio Rodríguez Angobaldo. Abogado por la Universidad de San Martín de Porres


  1. Concepto y origen de los sistemas de reconocimiento automático de contenido

La era digital ha traído consigo una increíble facilidad para acceder y compartir contenido en línea, desde música y libros hasta videojuegos y software; sin embargo, esta revolución en la forma cómo se comparte y accede a contenido también ha traído consigo retos enormes para la protección de los derechos de autor. Debido al gran número de usuarios que suben contenido infractor de forma reiterada y considerando el riesgo de procesos judiciales de parte de los titulares de los derechos, algunas plataformas digitales optaron por implementar capaces de reconocer contenido de forma automática[2].

Ahora bien, las tecnologías de ACR están lejos de ser perfectas, pues enfrentan limitaciones tales como su incapacidad para determinar si el uso presuntamente infractor se encuentra dentro de excepciones al derecho de autor o la dificultad de reconocer contenido infractor cuando los archivos subidos a las plataformas presentan una baja calidad de datos o han sido alterados e incluso problemas técnicos relacionados al diseño de las tecnologías[3].

  1. Funcionamiento de los sistemas de reconocimiento automático de contenido en las plataformas de contenido generado por usuarios

Las formas en las que las tecnologías de ACR trabajan son esencialmente cuatro: (a) el hashing, (b) la marca de agua digital, (c) la huella dactilar y (d) las soluciones basadas o mejoradas mediante inteligencia artificial[4].

    1. Hashing

El hashing es el proceso a través del cual un archivo digital se transforma en códigos cortos (denominados hash) mediante un algoritmo (denominado función hash o función resumen), de forma que facilita la consulta y almacenamiento de datos a gran escala, reduciendo los recursos utilizados[5].

La detección de contenido a través de hashing contempla esencialmente dos etapas: (a) la etapa de generación del hash y su almacenamiento en la base de datos y (b) la comparación de archivos hash con los almacenados en la base de datos de referencia, a fin de analizar si existen coincidencias. Al generar el hash, se procesan los datos mediante un algoritmo determinado, dando como resultado un hash de longitud específica, independientemente de la magnitud de la información o archivo[6]. Además, las funciones hash son deterministas, es decir que siempre que se introduzcan los mismos datos a la función, el hash resultante será el mismo[7].

    1. Marca de agua digital

La marca de agua digital (watermarking por su nombre en inglés) consiste en agregar una señal (que no afecta la calidad, pero que debe ser detectable e imborrable) en el archivo original, de manera que se pueda detectar la presencia de una marca de agua siempre que la obra se utilice[8]. La marca de agua de la obra lleva información como la identidad del autor o titular, las formas en las que su uso está permitido o desencadenar acciones como llevar al usuario a páginas web determinadas[9].

El proceso de watermarking generalmente contempla dos momentos: el de marking, en el que se aplica la marca de agua a la copia o copias del archivo y el de identificación, en el que se reconoce la marca de agua, ya sea mediante su identificación visual o a través de softwares especializados.

Pese a la ventaja de que no se requiere una base de datos destinada para almacenar los datos de referencia, la principal desventaja de los sistemas de reconocimiento de contenido basados en marcas de agua digitales es que los sistemas solo podrán identificar los archivos que han sido marcados previamente, lo que resulta particularmente complejo si las marcas de agua deben ser generadas para cada archivo único[10].

    1. Huella dactilar

La huella dactilar o digital fingerprint es un método no invasivo[11] que, a diferencia del hashing o marca de agua digital, no implica convertir el archivo en un código o incorporar una señal en el archivo original, sino que consiste en extraer fragmentos de información de los datos de la obra protegida, de forma que tales datos permitan posteriormente identificar la obra[12].

El procedimiento de digital fingerprint comprende dos fases claramente definidas: (i) la fase de entrenamiento, en la que se extraen distintos elementos característicos –huellas dactilares– que permitan distinguir al elemento y almacenarlos en una base de datos de referencia junto con otros metadatos que permitan identificar la obra y (ii) la fase de reconocimiento, en la que se genera una huella dactilar del contenido subido a la plataforma y se compara con la base de datos del resto de huellas dactilares generadas a efectos de encontrar alguna coincidencia o similitud[13].

    1. Soluciones basadas o mejoradas mediante inteligencia artificial

Las tecnologías de ACR basadas o mejoradas mediante inteligencia artificial tienen distintas funcionalidades como (i) la identificación y comparación de logos, (ii) el reconocimiento de rostros y emociones, (iii) el reconocimiento de textos mediante reconocimiento óptico de contenido (OCR) y (iv) la detección y clasificación de objetos[14].

Las tecnologías de ACR basadas o mejoradas mediante inteligencia artificial tienen una mayor robustez que el resto de las tecnologías de ACR en la medida que distintas técnicas de machine learning permiten arribar a mejores resultados respecto a contenidos editados o distorsionados[15]; sin embargo, necesitan una gran cantidad de recursos computacionales, así como expertos que puedan desarrollar la solución más adecuada para cada tipo de plataforma[16].

  1. Limitaciones de los sistemas de reconocimiento automático de contenido e implicancias de su adopción obligatoria

Como mencionamos anteriormente, las tecnologías de ACR están lejos de ser perfectas, pues si bien son útiles para detectar el uso no autorizado de obras, lo cierto es que tienen ciertas limitaciones técnicas que pueden causar la detección errónea de presuntas infracciones, así como a la búsqueda de usuarios por eludirlas.

Así mismo, la implementación obligatoria de tecnologías de ACR podría tener distintas implicancias tanto para las plataformas como para los creadores de contenidos y usuarios de estas.

  1. Entre falsos positivos y falsos negativos

En líneas generales, los sistemas de reconocimiento de contenido pueden ser problemas cerrados o abiertos. Se habla de problemas cerrados cuando todos los archivos procesados corresponden a una clase asignada, mientras que, en el caso de los problemas abiertos, los archivos procesados pueden o no corresponder a una clase asignada.

Ahora bien, los sistemas de detección de contenido protegido con derechos de autor son problemas abiertos[17]. La razón por la que se opta por sistemas abiertos en estos casos es evidente: no todos los archivos subidos a las plataformas guardan correspondencia con un archivo existente en la base de datos, independientemente de lo grande que aquella pueda ser. Lo anterior da lugar a dos escenarios particularmente interesantes: (i) los falsos positivos y (ii) los falsos negativos.

Por un lado, los falsos positivos se pueden presentar en situaciones en los que la tecnología de ACR reconoce erróneamente una similitud entre dos contenidos (véase el caso del youtuber SmellyOctopus[18]) o casos en los que un usuario sube contenido original que es posteriormente utilizado por un tercero que sube el contenido a la plataforma y reclama los derechos de dicho contenido (véase el caso del youtuber Sw1tched y la serie Family Guy[19]).

Por otro lado, los falsos negativos se producen cuando, pese a usarse contenido protegido por derechos de autor, el sistema no detecta su uso. Esta situación es clave pues incentiva a usuarios a buscar el error del sistema a fin de utilizar contenido protegido sin verse afectados por su uso[20]. Así, algunos creadores de contenido como Jaime Altozano[21] o Hbomberguy[22] han llegado a admitir explícitamente que se ven incentivados a editar los contenidos protegidos que usan a fin de que el sistema de ACR no los reconozca.

  1. La incapacidad de las tecnologías de ACR para reconocer excepciones al derecho de autor

En el acápite anterior únicamente se ha mencionado la posibilidad de que los falsos positivos se generen porque el sistema ACR (i) interpreta erróneamente similitudes entre el contenido subido y el contenido de referencia y (ii) un tercero utiliza contenido previamente subido a la plataforma para realizar un reclamo; sin embargo, no es el único escenario en el que pueden aparecer falsos positivos, ya que los sistemas de ACR todavía no son capaces de reconocer excepciones al derecho de autor, ya sea que hablemos de uso honrado, fair use o fair dealing según la jurisdicción de cada país.

Aunado a lo anterior, se debe de tener en cuenta que incluso en el caso de que los sistemas de ACR pudieran reconocer las excepciones a los derechos de autor, lo cierto es que todavía se debería hacer frente a la falta de armonización legal en materia de derechos de autor.

En este sentido, mientras que las excepciones de uso honrado son establecidas expresamente por ley, los supuestos de fair use norteamericano no son establecidos legalmente, sino que dependen del cumplimiento de determinados requisitos establecidos en la Copyright Act de 1976. Por su parte, la regulación del fair dealing tampoco es uniforme, pues mientras en Reino Unido se habla de “grados” de lo que puede o no constituir fair dealing[23], Canadá la trata como un derecho de los usuarios para mantener un balance apropiado con los derechos de los titulares de las obras[24].

Así las cosas, la falta de armonización legal podría llevar a las plataformas a tener que realizar análisis caso por caso de qué contenido resultaría infractor de acuerdo a cada jurisdicción, tarea que resultaría excesivamente compleja, sobre todo considerando la cantidad de contenido subido diariamente.

  1. Posibles efectos de la implementación obligatoria de las tecnologías de ACR

El 17 de abril de 2019 se promulgó la Directiva (UE) 2019/790 del Parlamento Europeo y del Consejo sobre los derechos de autor y derechos afines en el mercado único digital (DAMUD) cuyo artículo 17 establece que los prestadores de servicios para compartir contenidos en línea deben remover inmediatamente los contenidos no autorizados disponibles en sus sitios web luego de que los titulares de derechos lo soliciten y hacer los mayores esfuerzos para que los mismos no se carguen nuevamente bajo parámetros de estricta de diligencia profesional.

La promulgación de la DAMUD generó preocupación en algunos usuarios que consideraban que la directiva establecía la obligación de contar con filtros basados en tecnologías de detección automática de contenido (ACR por sus siglas en inglés); sin embargo, mediante una nota de prensa[25], el Parlamento Europeo señaló que tales filtros ya venían siendo usados por grandes empresas, pero que no serían necesarios si se encontraban soluciones más novedosas.

Ahora bien, fuera de las dificultades intrínsecas a las que se enfrentan los sistemas de ACR, su implementación obligatoria podría tener efectos respecto a (i) la competencia en el mercado de plataformas de contenido generado por usuarios y (ii) el derecho a la privacidad.

En primer lugar, la obligación de implementar y mantener sistemas de ACR no es una labor simple, pudiendo resultar extremadamente onerosa para plataformas digitales pequeñas y/o startups, lo que eventualmente podría permitir que grandes empresas consolidar su poder de mercado, reduciendo la competencia en el mercado digital. Lo anterior no es intrínsecamente negativo, no obstante, las exigencias regulatorias pueden significar un freno a la innovación de las plataformas de contenido generado por usuarios mientras que la presencia de falsos positivos puede frenar el surgimiento de nuevos creadores de contenido.

En segundo lugar, la aplicación obligatoria de las tecnologías de ACR conlleva indefectiblemente a que cada contenido subido sea analizado –independientemente de si dicho contenido fue o no publicado–, lo que implicaría una monitorización constante y masiva de parte de las plataformas, pudiendo recopilar y analizar datos de usuarios que no necesariamente entienden cómo funcionan las tecnologías de ACR.

En este sentido, los efectos de la aplicación de tecnologías de ACR no se limitan al análisis del contenido subido, sino que pueden conllevar diversos efectos en la competencia del mercado de las plataformas y la privacidad de los usuarios.

  1. Conclusiones

Es claro que las tecnologías de ACR representan una valiosa herramienta para proteger la protección de los derechos de autor en el entorno digital, pero su uso no está libre de problemas. Así las cosas, aunque útiles, no deben tomarse como una solución absoluta, máxime si enfrentan limitaciones técnicas y pueden conllevar a efectos más allá de las propias plataformas. Por ello, su implementación requiere un enfoque crítico que aproveche los avances tecnológicos sin dejar de lado la observancia de las posibles consecuencias de la implementeación.


  1. Asociado del Estudio Rodríguez Angobaldo. Abogado por la Universidad de San Martín de Porres (2021), donde obtuvo mención sobresaliente con su tesis titulada “El sistema de Content ID de YouTube frente a la excepción de uso honrado del derecho peruano”, con especializaciones en Derecho de la Competencia (Universidad Carlos III de Madrid, 2022), Public Policy Analysis (London School of Economics and Political Science, 2023) y Derecho Digital y Legaltech (Universidad de San Martín de Porres, 2024).
  2. Urban, J., Karaganis, J., & Schofield, B. (2017). Notice and Takedown in Everyday Practice (UC Berkeley Law, Research Paper No. 2755628), p.8.
  3. Lester, T., & Pachamanova, D. (2017). The Dilemma of False Positives: Making Content ID Algorithms more Conducive to Fostering Innovative Fair Use in Music Creation. UCLA Entertainment Law Review, 24(1), p.64.
  4. European Union Intellectual Property Office. (2020). Automated content recognition: discussion paper. Phase 1, Existing technologies and their impact on IP’, p.4.
  5. Song, J., Zhang, H., Li, X., Gao, L., Wang, M., & Hong, R. (2018). Self-Supervised Video Hashing With Hierarchical Binary Auto-Encoder. IEEE Transactions on Image Processing 27(7), p.3210. Institute of Electrical and Electronics Engineers (IEEE).
  6. European Data Protection Supervisor & Agencia española de protección de datos. (2019). Introduction to the hash function as a personal data pseudonymisation technique. European Data Protection Supervisor, pp.5-6.
  7. Ofcom (2022) Overview of Perceptual Hashing Technology. Ofcom, p.7.
  8. Gomes, L. de C. T., Cano, P., Gómez, E., Bonnet, M., & Batlle, E. (2003). Audio Watermarking and Fingerprinting: For Which Applications? Journal of New Music Research 32 (1), 66.
  9. Nin, J. & Ricciardi, S. (2013). Digital Watermarking Techniques and Security Issues in the Information and Communication Society. 2013 27th International Conference on Advanced Information Networking and Applications Workshops, p.1554.
  10. David, I., & Leška, R. (2023). Playing the System. Masaryk University Journal of Law and Technology, 17(1), p.133.
  11. Herre, J. (2003). Content Based Identification (Fingerprinting). Digital Rights Management, p.94.
  12. Afandi, W., Bukhari, S. M., Khan, M. U., Maqsood, T., & Khan, S. U. (2022). Fingerprinting technique for YouTube videos identification in Network Traffic. IEEE Access, 10, p.76734.
  13. Herre, J. (2003). Content Based Identification (Fingerprinting). Digital Rights Management, p.94-95.
  14. European Union Intellectual Property Office, pp.21-22.
  15. Hendrycks, D., & Dietterich, T. (2019). Benchmarking Neural Network Robustness to Common Corruptions and Perturbations, p.7.
  16. European Union Intellectual Property Office, p.24.
  17. Saadatpanah, P., Shafahi, A., & Goldstein, T. (2020). Adversarial Attacks on Copyright Detection Systems. International Conference on Machine Learning, 119, p.8308.
  18. Katzowitz, J. (10 de enero de 2019). How broken is YouTube’s copyright system? This dude’s voice just got claimed. The Daily Dot. https://www.dailydot.com/upstream/smellyoctopus-youtube copyright-claim/
  19. Maxwell, A. (20 de mayo de 2016). Fox ‘stole’ a game clip, used it in family guy & DMCA’d the original. TorrentFreak. https://torrentfreak.com/fox-stole-a-game-clip-used-it-in-family-guy-dmcad-the-original-160520/
  20. Guzman-Zavaleta, Z. J., & Feregrino-Uribe, C. (2016). Towards a video passive content fingerprinting method for partial-copy detection robust against non simulated attacks. En PLOS ONE, 11(11), p.2.
  21. Jaime Altozano (18 de mayo de 2018). El Copyright en Youtube | Jaime Altozano. https://www.youtube.com/watch?v=4xJw0JIC2BA
  22. Trendacosta, K. (2020). Unfiltered: How YouTube’s Content ID Discourages Fair Use and Dictates What We See Online. https://www.eff.org/es/wp/unfiltered-how-youtubes-content-id-discourages-fair-use-and-dictates-what-we-see-online
  23. Ver Hubbard v. Vosper.
  24. Ver CCH Canadian Ltd v Law Society of Upper Canada.
  25. European Parliament. (27 de marzo de 2019). Questions and Answers on issues about the digital copyright directive. https://www.europarl.europa.eu/news/en/press-room/20190111IPR23225/questions-and-answers-on-issues-about-the-digital-copyright-directive

Artículos relacionados

Deja un comentario

Si deseas publicar un artículo en Pólemos, envíanos un mensaje.

    El Portal Jurídico-Interdisciplinario «Pólemos» es un espacio virtual orientado al análisis de temas jurídicos y de actualidad. Nos distinguimos por tratar el Derecho desde un enfoque interdisciplinario, integrando conocimientos de distintas disciplinas para ofrecer una comprensión más integral y enriquecedora.

    EQUIPO EDITORIAL

    Directora: Alejandra Orihuela Tellería

    Consejo Editorial:
    Marilyn Elvira Siguas Rivera
    Raquel Huaco De la Cruz
    Claudia Dueñas Chuquillanqui
    Mariana Tonder Trujillo
    Carlos Curotto Aristondo
    Gustavo Sausa Martínez
    Guadalupe Quinteros Guerra
    Daira Salcedo Amador

    Camila Alexandra Infante García

    Jenner Adrián Fernández Paz

    SELECCIONADO POR EDITORES

    ÚLTIMOS ARTÍCULOS

    Pólemos @2024 – Todos los derechos reservados. Página web diseñada por AGENCIA DIGITAL MANGO