Proliferación de bases de datos de secuencias de ADN digitalizadas
por Eric MEUNIER, Frédéric PRAT, 21 de febrero de 2020
Existen
importantes diferencias entre los Estados en cuanto a la condición
jurídica de las secuencias de ADN digitalizadas en las bases de
datos. Lo que está en juego es si el acceso a esas secuencias
digitalizadas está sujeto a las mismas condiciones que las
establecidas para los inventarios de recursos genéticos:
consentimiento previo, compromiso de compartir los beneficios
derivados de su utilización, protección de los conocimientos
tradicionales asociados y/o prohibición de hacer valer los derechos
de propiedad intelectual. Un informe presentado al Convenio sobre la
Diversidad Biológica a finales de 2018 permite comprender mejor el
funcionamiento y las limitaciones de esas bases de datos. Inf'OGM
resume los puntos principales aquí.
El
Instituto Europeo de Bioinformática (EBI) alberga una base de datos
de secuencias genéticas digitalizadas (véase el recuadro que figura
a continuación). El sitio de Internet de esta base de datos permite
realizar diversas búsquedas: genoma como tal, secuencias genéticas
particulares, secuencias de proteínas, moléculas pequeñas,
enfermedades, etc. Además de estas búsquedas accesibles a cualquier
usuario de Internet, la base de datos ofrece herramientas para
comparar secuencias entre sí y buscar secuencias similares. Por
supuesto, los resultados son de libre acceso, pero su comprensión
está reservada a los especialistas.
Un
léxico muy profuso
El
informe al Convenio sobre la Diversidad Biológica (CDB) comienza con
la cuestión de los términos utilizados. Señala que en los debates
sobre políticas de acceso y participación en los beneficios (APB),
las diferencias de terminología suelen reflejar puntos de vista
divergentes sobre el alcance del Protocolo de Nagoya y las leyes
nacionales que aplican esa participación. Los Estados que deseen que
las secuencias digitalizadas queden cubiertas por Nagoya se referirán
a ellas como recursos genéticos, mientras que los que deseen que no
queden cubiertas insistirán en el término "digitalizadas"
para diferenciarlas de los recursos físicos.
El
informe del CDB detalla que la terminología utilizada también varía
de un proceso político a otro. El término "datos de secuencias
digitales" se utiliza en el estudio de alcance de la biología
sintética encargado por el Tratado Internacional de Semillas
(Tirpaa). La Comisión de Recursos Genéticos para la Alimentación y
la Agricultura (CRGAA) de la FAO utiliza el término "información
de secuencia digital". En la Convención de las Naciones Unidas
sobre el Derecho del Mar para la conservación y el uso sostenible de
la diversidad biológica marina fuera de las zonas de jurisdicción
nacional se han utilizado los términos "recursos in silico"
y "datos de secuencia digital". Por su parte, la
Organización Mundial de la Salud (OMS) pudo utilizar el término
"datos de secuencias genéticas", definido como "el
orden de los nucleótidos que se encuentran en una molécula de ADN o
ARN... que contiene la información genética que determina las
características biológicas de un organismo o un virus".
En
2018, el Convenio sobre la Diversidad Biológica (CDB) recibió un
informe [1] sobre el estado de las bases de datos que contienen las
secuencias genéticas digitalizadas de los organismos vivos.
Centrándose en las bases de datos públicas, el presente informe
permite comprender mejor su funcionamiento y sus limitaciones. Un
informe importante para el CDB porque proporciona un marco para la
famosa "distribución de beneficios" entre los titulares de
los recursos y los usuarios (véase el recuadro que figura a
continuación). Un reparto de beneficios que varios gobiernos
quisieran conseguir en relación con los recursos genéticos físicos
y las secuencias digitalizadas [2].
¿Compartir
o no compartir los beneficios del uso de secuencias digitalizadas?
Desde
1992, el Convenio sobre la Diversidad Biológica (CDB) ha determinado
que los recursos genéticos están bajo la soberanía de los Estados
que los acogen. El Protocolo de Nagoya, adoptado en 2010 [3] prevé
"el acceso a los recursos genéticos y la participación justa y
equitativa en los beneficios que se deriven de su utilización".
En cuanto a los cultivos, es el Tratado Internacional de Semillas
(Tirpaa) el que desempeña este papel.
Si
con estos textos internacionales los derechos de los Estados sobre
los recursos están más o menos claros, el debate se ha desplazado a
la naturaleza de las secuencias genéticas digitalizadas: ¿deben
asimilarse a las propias plantas, en cuyo caso debe garantizarse "una
participación justa y equitativa en los beneficios derivados de su
utilización"; o bien se trata de secuencias de naturaleza
diferente, y entonces podrían ser liberadas legalmente de forma
gratuita en Internet, sin ninguna compensación? [4]
Almacenamientos
virtuales
La
base de datos del EBI es una de las 1.500 bases de datos públicas
existentes identificadas por el CDB. Esas bases de datos son lugares
de almacenamiento de secuencias digitalizadas de ADN, ARN y
proteínas... Algunas bases de datos se centran en una enfermedad,
otras en un organismo, como la base de datos de los plátanos [5],
los gusanos [6] o la bacteria Streptococcus pneumoniae [7]. Incluso
la epigenética es objeto de bases de datos específicas como el
Atlas del Genoma Humano [8]. En lo que respecta a la epigenética de
las plantas, hay que visitar la metabase del Consorcio Internacional
de Epigenómica Vegetal [9].
Sin
embargo, ese número de bases de datos se ha vuelto problemático, ya
que los usuarios no saben qué base de datos utilizar
preferentemente. La respuesta fue crear otras llamadas metabases de
datos, que reúnen datos de diferentes bases de datos en un solo
lugar virtual. Así pues, se creó una Colaboración Internacional de
Bases de Datos de Secuencias Nucleares (INSDC), que se divide en
tres: el Archivo Europeo de Nucleótidos (EMBL-EBI), alojado en el
Reino Unido, el GenBank, alojado en los Estados Unidos de América, y
la Base de Datos sobre ADN, alojada en el Japón. ¿Su objetivo?
Captar, preservar e intercambiar colecciones de secuencias de
nucleótidos e información asociada", explica el informe del
CDB.
Organismos
públicos y privados están impulsando las bases de datos digitales
Históricamente,
la información almacenada en estas bases de datos se deriva de
muestras tomadas del medio silvestre, incluidos los organismos
biológicos domesticados por las comunidades humanas. Además,
institutos como los jardines botánicos, los museos de historia
natural, las universidades y otros se han dedicado a digitalizar sus
colecciones. El Real Jardín Botánico de Kew, en el Reino Unido, por
ejemplo, tiene alrededor de siete millones de especímenes botánicos
en su herbario, 50.000 especímenes botánicos en sus jardines y
35.000 semillas en su banco de semillas. Cada año recibe unas 26.000
muestras. El instituto comprueba entonces que se han recogido las
autorizaciones necesarias (e informa de ello si no es así) y
registra los especímenes en su herbario. Se extrae el ADN y la
información genética se almacena en una base de datos como el
GenBank. Las semillas se conservan en frío. Algunas bases de datos
como el EMBL o el GenBank han alcanzado ya unos cuantos cuatrillones,
es decir, "10 a la potencia de 24" [10] nucleótidos
registrados para unas 300.000 especies de plantas [11].
Ya
sea en bases de datos públicas o privadas, las secuencias
registradas se han obtenido mediante la secuenciación del genoma de
organismos vivos. El CDB señala que hoy en día "la recolección
de muestras físicas en el campo es menor en las estrategias de
investigación comercial" que en la década de 1980. Pero la
investigación pública sigue centrada en estas muestras físicas,
especialmente para las especies microbianas u organismos que viven en
zonas de gran diversidad de especies, condiciones ambientales
extremas o nichos ecológicos. Los llamados programas de ciencia
ciudadana, descritos en el informe del CDB, participan en la
recolección de muestras de todo el mundo "para comprender la
diversidad genética y biológica". En el informe se señala que
esos programas permiten a la investigación "evitar gastar
tiempo y dinero en expediciones de obtención de muestras" y dan
lugar a "cantidades masivas de datos, que abarcan grandes zonas
geográficas".
Esa
labor de muestreo y secuenciación debe continuar: la naturaleza está
en constante cambio y su diversidad es potencialmente infinita... y
los dispositivos de secuenciación, que se han vuelto portátiles,
son cada vez más asequibles. De hecho, el informe estima que "los
individuos pronto podrán secuenciar fácil y económicamente los
genes de muestras físicas en cualquier parte del mundo y enviarlos a
través de Internet... lejos del sitio de obtención de la muestra".
En
cuanto al uso de bases de datos públicas, las cifras son asombrosas.
Sólo en el proyecto europeo EMBL-EBI se registran 12,6 millones de
consultas al mes, incluidas las búsquedas de similitudes entre una
secuencia de genes y las registradas en las bases de datos. Sin dar
cifras precisas, el informe del CDB señala que "el número de
secuencias, el número de individuos y el número de especies
secuenciadas [...] está aumentando". Las revistas [científicas]
exigen que las secuencias de genes se depositen en bases de datos
públicas como condición para su publicación. También establece
que "las oficinas de patentes también pueden presentar las
secuencias incluidas en las solicitudes de patentes a estos bancos.
En
los últimos años se han incluido el contexto ambiental y la
ubicación de origen de las muestras secuenciadas, "lo que es
importante para la ciencia y puede contribuir a la distribución de
los beneficios" (sic). Pero esta información no siempre está
actualizada.
¿Cuál
es el propósito de estas bases, bajo qué condiciones?
La
primera función de una base de datos es proporcionar acceso a los
datos propiamente dichos. Una obviedad, por supuesto, pero que tiene
importantes consecuencias en el uso de los datos. En el documento del
Convenio sobre la Diversidad Biológica se detalla que un uso común
de las bases de datos es, por ejemplo, la búsqueda de regiones
similares entre dos secuencias, una de las cuales se encuentra en la
base de datos y la otra en manos del usuario. Para la comunidad de
investigadores, esto permite comparar secuencias y estudiarlas según
su función, su evolución de un organismo a otro o a lo largo del
tiempo.
Una
consecuencia importante, según el CDB, "también permite a los
investigadores encontrar secuencias idénticas en diferentes
organismos para no utilizar secuencias cuya situación jurídica
sería incierta en lo que respecta a la distribución de beneficios".
Otro uso: la información digital puede utilizarse para reconstituir
el ADN, ARN, proteínas, etc., sin tener acceso a la muestra física
en sí.
Por
ejemplo, algunas bases de datos -pero no todas- exigen que todo uso
de una secuencia de genes digitalizada se haga con el acuerdo del
país en que se recogió el organismo secuenciado y que se informe al
CDB sobre el uso comercial. Otro enfoque es el del código abierto.
En esta política, las secuencias digitalizadas son de libre acceso
para todos.
Sin
embargo, estos pocos ejemplos de condiciones de acceso o uso no
reflejan la mayoría de las bases de datos. En el informe del CDB se
señala que "la mayoría de las secuencias genéticas
digitalizadas son accesibles a través de bases de datos públicas
que no requieren que los colaboradores o los usuarios se registren o
identifiquen, acepten las condiciones o firmen acuerdos de usuario".
Una política de acceso abierto a menudo requerida por los gobiernos
que financian estas bases de datos, según el informe del CDB.
Tres
limitaciones importantes
Esta
política de libre acceso es una primera limitación importante en el
uso que se hace de las secuencias registradas, porque sin condiciones
específicas de uso no se puede hacer un control de los posibles
derechos de propiedad intelectual registrados sobre secuencias
similares o incluso parecidas.
Sobre
todo porque un segundo límite refuerza este riesgo, el de no
informar al usuario del origen de las secuencias registradas. Esta
vez es una razón técnica. El informe del CDB sugiere que, aunque
algunas bases de datos lo hacen, no siempre sería posible garantizar
a posteriori el origen de las secuencias digitalizadas. Hay una razón
práctica para ello: las secuencias genéticas de una misma especie
pueden variar de un hábitat a otro debido a mutaciones naturales y/o
a la domesticación; mientras que las secuencias de diferentes
especies y de diferentes orígenes pueden ser similares y, en
ausencia de trazabilidad, se hace imposible rastrear el origen exacto
de las mismas en una base de datos. Es interesante observar aquí que
tal hallazgo nunca ha impedido que se conceda una patente sobre una
secuencia de genes, ni siquiera que el titular de la patente se haya
dotado de los medios para asegurar su trazabilidad con el fin de
hacer valer sus derechos.
Esta
incertidumbre en cuanto a la fiabilidad del origen de las secuencias
de genes digitalizadas también alimenta una dificultad final que se
debe al propio sistema. Como se señala en el informe del Convenio
sobre la Diversidad Biológica, la frontera entre la investigación
pública y privada se ha vuelto difusa, en particular como resultado
de las asociaciones entre los sectores público y privado. Dado que
una secuencia de genes digitalizada en una base de datos pública es
accesible a todos, "no siempre está claro cómo se utilizará
este material en el futuro". Y para detallar que las secuencias
obtenidas a través de la investigación pública, registradas en una
base de datos, pueden ser utilizadas comercialmente, por varias
personas, "sin el conocimiento del proveedor original" …
Se
han propuesto varias vías para responder a los problemas que plantea
la identificación fiable de la fuente de una secuencia genética
digitalizada, su proveedor inicial y, un concepto reciente, el
cálculo del valor financiero que se le puede atribuir. Entre estas
vías, y además de las condiciones generales de uso, el informe del
CDB menciona el establecimiento básico tanto de datos adicionales
que se adjuntarán a una secuencia como de un identificador único
para los investigadores. Pero el mismo informe del CDB señala que al
principio del almacenamiento de datos, no se proporcionó esta
información que describe la ubicación y el contexto ambiental en el
que se recogió el organismo secuenciado. Para algunos organismos,
puede que no se dé el nombre del propio organismo. Esa información
se considera ahora esencial según el Consorcio de Normas sobre el
Genoma, fundado en 2015. Pero aún hoy, no todos los registros de las
bases de datos tendrían esta información a pesar de las normas
establecidas. El CDB, dando la palabra a un administrador de la base
de datos, explica que "dependemos de los que presentan los
datos. No podemos comprobar todo con una presentación cada seis
minutos de media. Y no nos comunicamos mucho con las personas que
envían los datos. Estamos trabajando en ello y esperamos que todos
se responsabilicen eventualmente. Esa información es, en efecto,
imprescindible para poder aplicar la distribución de beneficios,
pero también para poder trabajar. La base de datos del EMBL-EBI
explica que "para comprender las asociaciones entre el
rendimiento de los cultivos y las diferencias en la flora del suelo,
es útil saber cuándo y dónde se recogieron las muestras"
[12].
Por
lo tanto, el Convenio sobre la Diversidad Biológica se enfrenta
ahora a una simple cuestión. ¿Es posible que las bases de datos
proporcionen retroactivamente información sobre el origen de los
recursos genéticos subyacentes a las secuencias registradas? La
respuesta debería darse en futuras reuniones como la de octubre de
2020 que se celebrará en Kunming (China). Recordemos, sin embargo,
que para algunos actores el problema es ante todo el de abandonar
toda patentabilidad de la materia viva y no el de una ilusoria
repartición de los beneficios…
Referencias:
[1] « Fact-finding
and scoping study on digital sequence information on genetic
resources in the context of the convention on biological diversity
and the nagoya protocol »,
10 janvier 2018
[2] Inf'OGM, « Internet
et biopiraterie, les États ne sont pas d’accord », Eric
MEUNIER, Frédéric
PRAT,
22 janvier 2019
[4] Inf'OGM, « Numériser
les gènes pour posséder le vivant sans partage ? », Eric
MEUNIER,
9 avril 2018
[11] Le
nombre total des organismes vivants est inconnu, mais estimé autour
de 10 à 15 millions. Un projet, le Earth bioGenome Project (EGP) a
pour objectif de séquencer l’ensemble de ces génomes,
voir : Inf'OGM, « Numériser
les gènes pour posséder le vivant sans partage ? », Eric
MEUNIER,
9 avril 2018
----------------------------