Proliferación de bases de datos de secuencias de ADN digitalizadas


por Eric MEUNIER, Frédéric PRAT, 21 de febrero de 2020



Existen importantes diferencias entre los Estados en cuanto a la condición jurídica de las secuencias de ADN digitalizadas en las bases de datos. Lo que está en juego es si el acceso a esas secuencias digitalizadas está sujeto a las mismas condiciones que las establecidas para los inventarios de recursos genéticos: consentimiento previo, compromiso de compartir los beneficios derivados de su utilización, protección de los conocimientos tradicionales asociados y/o prohibición de hacer valer los derechos de propiedad intelectual. Un informe presentado al Convenio sobre la Diversidad Biológica a finales de 2018 permite comprender mejor el funcionamiento y las limitaciones de esas bases de datos. Inf'OGM resume los puntos principales aquí.

El Instituto Europeo de Bioinformática (EBI) alberga una base de datos de secuencias genéticas digitalizadas (véase el recuadro que figura a continuación). El sitio de Internet de esta base de datos permite realizar diversas búsquedas: genoma como tal, secuencias genéticas particulares, secuencias de proteínas, moléculas pequeñas, enfermedades, etc. Además de estas búsquedas accesibles a cualquier usuario de Internet, la base de datos ofrece herramientas para comparar secuencias entre sí y buscar secuencias similares. Por supuesto, los resultados son de libre acceso, pero su comprensión está reservada a los especialistas.

Un léxico muy profuso
El informe al Convenio sobre la Diversidad Biológica (CDB) comienza con la cuestión de los términos utilizados. Señala que en los debates sobre políticas de acceso y participación en los beneficios (APB), las diferencias de terminología suelen reflejar puntos de vista divergentes sobre el alcance del Protocolo de Nagoya y las leyes nacionales que aplican esa participación. Los Estados que deseen que las secuencias digitalizadas queden cubiertas por Nagoya se referirán a ellas como recursos genéticos, mientras que los que deseen que no queden cubiertas insistirán en el término "digitalizadas" para diferenciarlas de los recursos físicos.
El informe del CDB detalla que la terminología utilizada también varía de un proceso político a otro. El término "datos de secuencias digitales" se utiliza en el estudio de alcance de la biología sintética encargado por el Tratado Internacional de Semillas (Tirpaa). La Comisión de Recursos Genéticos para la Alimentación y la Agricultura (CRGAA) de la FAO utiliza el término "información de secuencia digital". En la Convención de las Naciones Unidas sobre el Derecho del Mar para la conservación y el uso sostenible de la diversidad biológica marina fuera de las zonas de jurisdicción nacional se han utilizado los términos "recursos in silico" y "datos de secuencia digital". Por su parte, la Organización Mundial de la Salud (OMS) pudo utilizar el término "datos de secuencias genéticas", definido como "el orden de los nucleótidos que se encuentran en una molécula de ADN o ARN... que contiene la información genética que determina las características biológicas de un organismo o un virus".

En 2018, el Convenio sobre la Diversidad Biológica (CDB) recibió un informe [1] sobre el estado de las bases de datos que contienen las secuencias genéticas digitalizadas de los organismos vivos. Centrándose en las bases de datos públicas, el presente informe permite comprender mejor su funcionamiento y sus limitaciones. Un informe importante para el CDB porque proporciona un marco para la famosa "distribución de beneficios" entre los titulares de los recursos y los usuarios (véase el recuadro que figura a continuación). Un reparto de beneficios que varios gobiernos quisieran conseguir en relación con los recursos genéticos físicos y las secuencias digitalizadas [2].

¿Compartir o no compartir los beneficios del uso de secuencias digitalizadas?
Desde 1992, el Convenio sobre la Diversidad Biológica (CDB) ha determinado que los recursos genéticos están bajo la soberanía de los Estados que los acogen. El Protocolo de Nagoya, adoptado en 2010 [3] prevé "el acceso a los recursos genéticos y la participación justa y equitativa en los beneficios que se deriven de su utilización". En cuanto a los cultivos, es el Tratado Internacional de Semillas (Tirpaa) el que desempeña este papel.

Si con estos textos internacionales los derechos de los Estados sobre los recursos están más o menos claros, el debate se ha desplazado a la naturaleza de las secuencias genéticas digitalizadas: ¿deben asimilarse a las propias plantas, en cuyo caso debe garantizarse "una participación justa y equitativa en los beneficios derivados de su utilización"; o bien se trata de secuencias de naturaleza diferente, y entonces podrían ser liberadas legalmente de forma gratuita en Internet, sin ninguna compensación? [4]

Almacenamientos virtuales
La base de datos del EBI es una de las 1.500 bases de datos públicas existentes identificadas por el CDB. Esas bases de datos son lugares de almacenamiento de secuencias digitalizadas de ADN, ARN y proteínas... Algunas bases de datos se centran en una enfermedad, otras en un organismo, como la base de datos de los plátanos [5], los gusanos [6] o la bacteria Streptococcus pneumoniae [7]. Incluso la epigenética es objeto de bases de datos específicas como el Atlas del Genoma Humano [8]. En lo que respecta a la epigenética de las plantas, hay que visitar la metabase del Consorcio Internacional de Epigenómica Vegetal [9].

Sin embargo, ese número de bases de datos se ha vuelto problemático, ya que los usuarios no saben qué base de datos utilizar preferentemente. La respuesta fue crear otras llamadas metabases de datos, que reúnen datos de diferentes bases de datos en un solo lugar virtual. Así pues, se creó una Colaboración Internacional de Bases de Datos de Secuencias Nucleares (INSDC), que se divide en tres: el Archivo Europeo de Nucleótidos (EMBL-EBI), alojado en el Reino Unido, el GenBank, alojado en los Estados Unidos de América, y la Base de Datos sobre ADN, alojada en el Japón. ¿Su objetivo? Captar, preservar e intercambiar colecciones de secuencias de nucleótidos e información asociada", explica el informe del CDB.

Organismos públicos y privados están impulsando las bases de datos digitales
Históricamente, la información almacenada en estas bases de datos se deriva de muestras tomadas del medio silvestre, incluidos los organismos biológicos domesticados por las comunidades humanas. Además, institutos como los jardines botánicos, los museos de historia natural, las universidades y otros se han dedicado a digitalizar sus colecciones. El Real Jardín Botánico de Kew, en el Reino Unido, por ejemplo, tiene alrededor de siete millones de especímenes botánicos en su herbario, 50.000 especímenes botánicos en sus jardines y 35.000 semillas en su banco de semillas. Cada año recibe unas 26.000 muestras. El instituto comprueba entonces que se han recogido las autorizaciones necesarias (e informa de ello si no es así) y registra los especímenes en su herbario. Se extrae el ADN y la información genética se almacena en una base de datos como el GenBank. Las semillas se conservan en frío. Algunas bases de datos como el EMBL o el GenBank han alcanzado ya unos cuantos cuatrillones, es decir, "10 a la potencia de 24" [10] nucleótidos registrados para unas 300.000 especies de plantas [11].

Ya sea en bases de datos públicas o privadas, las secuencias registradas se han obtenido mediante la secuenciación del genoma de organismos vivos. El CDB señala que hoy en día "la recolección de muestras físicas en el campo es menor en las estrategias de investigación comercial" que en la década de 1980. Pero la investigación pública sigue centrada en estas muestras físicas, especialmente para las especies microbianas u organismos que viven en zonas de gran diversidad de especies, condiciones ambientales extremas o nichos ecológicos. Los llamados programas de ciencia ciudadana, descritos en el informe del CDB, participan en la recolección de muestras de todo el mundo "para comprender la diversidad genética y biológica". En el informe se señala que esos programas permiten a la investigación "evitar gastar tiempo y dinero en expediciones de obtención de muestras" y dan lugar a "cantidades masivas de datos, que abarcan grandes zonas geográficas".

Esa labor de muestreo y secuenciación debe continuar: la naturaleza está en constante cambio y su diversidad es potencialmente infinita... y los dispositivos de secuenciación, que se han vuelto portátiles, son cada vez más asequibles. De hecho, el informe estima que "los individuos pronto podrán secuenciar fácil y económicamente los genes de muestras físicas en cualquier parte del mundo y enviarlos a través de Internet... lejos del sitio de obtención de la muestra".

En cuanto al uso de bases de datos públicas, las cifras son asombrosas. Sólo en el proyecto europeo EMBL-EBI se registran 12,6 millones de consultas al mes, incluidas las búsquedas de similitudes entre una secuencia de genes y las registradas en las bases de datos. Sin dar cifras precisas, el informe del CDB señala que "el número de secuencias, el número de individuos y el número de especies secuenciadas [...] está aumentando". Las revistas [científicas] exigen que las secuencias de genes se depositen en bases de datos públicas como condición para su publicación. También establece que "las oficinas de patentes también pueden presentar las secuencias incluidas en las solicitudes de patentes a estos bancos.

En los últimos años se han incluido el contexto ambiental y la ubicación de origen de las muestras secuenciadas, "lo que es importante para la ciencia y puede contribuir a la distribución de los beneficios" (sic). Pero esta información no siempre está actualizada.

¿Cuál es el propósito de estas bases, bajo qué condiciones?
La primera función de una base de datos es proporcionar acceso a los datos propiamente dichos. Una obviedad, por supuesto, pero que tiene importantes consecuencias en el uso de los datos. En el documento del Convenio sobre la Diversidad Biológica se detalla que un uso común de las bases de datos es, por ejemplo, la búsqueda de regiones similares entre dos secuencias, una de las cuales se encuentra en la base de datos y la otra en manos del usuario. Para la comunidad de investigadores, esto permite comparar secuencias y estudiarlas según su función, su evolución de un organismo a otro o a lo largo del tiempo.

Una consecuencia importante, según el CDB, "también permite a los investigadores encontrar secuencias idénticas en diferentes organismos para no utilizar secuencias cuya situación jurídica sería incierta en lo que respecta a la distribución de beneficios". Otro uso: la información digital puede utilizarse para reconstituir el ADN, ARN, proteínas, etc., sin tener acceso a la muestra física en sí.

Por ejemplo, algunas bases de datos -pero no todas- exigen que todo uso de una secuencia de genes digitalizada se haga con el acuerdo del país en que se recogió el organismo secuenciado y que se informe al CDB sobre el uso comercial. Otro enfoque es el del código abierto. En esta política, las secuencias digitalizadas son de libre acceso para todos.

Sin embargo, estos pocos ejemplos de condiciones de acceso o uso no reflejan la mayoría de las bases de datos. En el informe del CDB se señala que "la mayoría de las secuencias genéticas digitalizadas son accesibles a través de bases de datos públicas que no requieren que los colaboradores o los usuarios se registren o identifiquen, acepten las condiciones o firmen acuerdos de usuario". Una política de acceso abierto a menudo requerida por los gobiernos que financian estas bases de datos, según el informe del CDB.

Tres limitaciones importantes
Esta política de libre acceso es una primera limitación importante en el uso que se hace de las secuencias registradas, porque sin condiciones específicas de uso no se puede hacer un control de los posibles derechos de propiedad intelectual registrados sobre secuencias similares o incluso parecidas.

Sobre todo porque un segundo límite refuerza este riesgo, el de no informar al usuario del origen de las secuencias registradas. Esta vez es una razón técnica. El informe del CDB sugiere que, aunque algunas bases de datos lo hacen, no siempre sería posible garantizar a posteriori el origen de las secuencias digitalizadas. Hay una razón práctica para ello: las secuencias genéticas de una misma especie pueden variar de un hábitat a otro debido a mutaciones naturales y/o a la domesticación; mientras que las secuencias de diferentes especies y de diferentes orígenes pueden ser similares y, en ausencia de trazabilidad, se hace imposible rastrear el origen exacto de las mismas en una base de datos. Es interesante observar aquí que tal hallazgo nunca ha impedido que se conceda una patente sobre una secuencia de genes, ni siquiera que el titular de la patente se haya dotado de los medios para asegurar su trazabilidad con el fin de hacer valer sus derechos.

Esta incertidumbre en cuanto a la fiabilidad del origen de las secuencias de genes digitalizadas también alimenta una dificultad final que se debe al propio sistema. Como se señala en el informe del Convenio sobre la Diversidad Biológica, la frontera entre la investigación pública y privada se ha vuelto difusa, en particular como resultado de las asociaciones entre los sectores público y privado. Dado que una secuencia de genes digitalizada en una base de datos pública es accesible a todos, "no siempre está claro cómo se utilizará este material en el futuro". Y para detallar que las secuencias obtenidas a través de la investigación pública, registradas en una base de datos, pueden ser utilizadas comercialmente, por varias personas, "sin el conocimiento del proveedor original" …

Se han propuesto varias vías para responder a los problemas que plantea la identificación fiable de la fuente de una secuencia genética digitalizada, su proveedor inicial y, un concepto reciente, el cálculo del valor financiero que se le puede atribuir. Entre estas vías, y además de las condiciones generales de uso, el informe del CDB menciona el establecimiento básico tanto de datos adicionales que se adjuntarán a una secuencia como de un identificador único para los investigadores. Pero el mismo informe del CDB señala que al principio del almacenamiento de datos, no se proporcionó esta información que describe la ubicación y el contexto ambiental en el que se recogió el organismo secuenciado. Para algunos organismos, puede que no se dé el nombre del propio organismo. Esa información se considera ahora esencial según el Consorcio de Normas sobre el Genoma, fundado en 2015. Pero aún hoy, no todos los registros de las bases de datos tendrían esta información a pesar de las normas establecidas. El CDB, dando la palabra a un administrador de la base de datos, explica que "dependemos de los que presentan los datos. No podemos comprobar todo con una presentación cada seis minutos de media. Y no nos comunicamos mucho con las personas que envían los datos. Estamos trabajando en ello y esperamos que todos se responsabilicen eventualmente. Esa información es, en efecto, imprescindible para poder aplicar la distribución de beneficios, pero también para poder trabajar. La base de datos del EMBL-EBI explica que "para comprender las asociaciones entre el rendimiento de los cultivos y las diferencias en la flora del suelo, es útil saber cuándo y dónde se recogieron las muestras" [12].

Por lo tanto, el Convenio sobre la Diversidad Biológica se enfrenta ahora a una simple cuestión. ¿Es posible que las bases de datos proporcionen retroactivamente información sobre el origen de los recursos genéticos subyacentes a las secuencias registradas? La respuesta debería darse en futuras reuniones como la de octubre de 2020 que se celebrará en Kunming (China). Recordemos, sin embargo, que para algunos actores el problema es ante todo el de abandonar toda patentabilidad de la materia viva y no el de una ilusoria repartición de los beneficios…

Referencias:

[5] http://banana-genome- hub.southgreen.fr/
[10] un quadrillion : un million puissance 4, d’où son nom, soit un 1 suivi de 24 zéros.
[11] Le nombre total des organismes vivants est inconnu, mais estimé autour de 10 à 15 millions. Un projet, le Earth bioGenome Project (EGP) a pour objectif de séquencer l’ensemble de ces génomes, voir : Inf'OGM« Numériser les gènes pour posséder le vivant sans partage ? »Eric MEUNIER, 9 avril 2018

----------------------------

Entradas populares