Big Data: Un gran reto para la genómica

Una de las consecuencias que ha traído la era genómica es la generación de grandes cantidades de datos. Tan solo imaginar que la información del ADN humano consta de cerca de 3,200 millones de letras deja claro que para su análisis no alcanza una computadora personal. Hoy en día, la integración rutinaria de la genómica a la investigación científica ha dado como resultado la generación de información sobre el ADN de microorganismos, organismos superiores, genomas humanos de individuos sanos y enfermos, tumores y otros tejidos. En consecuencia, se generan diariamente cantidades masivas de datos que requieren su almacenamiento y análisis rutinairo. Esto se ha convertido en uno de los grandes cuellos de botella de la revolución genómica. Para dar una idea, el Instituto Europeo de Bioinformática (IEB) que cuenta con uno de los repositorios de datos genómicos más grandes del mundo, requiere de 2 pentabytes (1 pentabyte son 1015 bytes) para albergar su información genómica y estos requerimientos aumentan a más del doble cada año (http://goo.gl/STi683). Si buscamos que la lectura del genoma humano se convierta en un instrumento rutinario para el cuidado de la salud, así como en herramientas para el descubrimiento de las causas y tratamientos de las enfermedades más frecuentes, será necesario desarrollar estrategias que permitan el almacenamiento, acceso y análisis de datos genómicos en forma rápida y eficiente sin importar el lugar del mundo donde se generen.

Los investigadores en ciencias de la vida recientemente nos hemos sumado al club del Big Data, un término acuñado hace tiempo para otras disciplinas que generan grandes cantidades de datos. Entre ellas, la astronomía y la física relacionada con el estudio de partículas de alta densidad energética. Big Data es un término aplicado a conjuntos de datos que superan la capacidad del software habitual para ser almacenados, procesados y movilizados en un tiempo razonable. Bajo el concepto de Big Data el tamaño de cada conjunto de datos aumenta constantemente. En el año 2012 se dimensionaba el tamaño de un juego de datos desde una docena de terabytes hasta varios pentabytes. De esta manera un pequeño laboratorio genómico puede convertirse rápidamente en un generador de Big Data. Más aún, la generación de conocimiento a partir de secuencias de ADN requiere de múltiples programas de cómputo que permitan alinear, ensamblar, comparar e identificar secuencias dentro de grandes bancos digitales de ADN.

Los investigadores consultamos diversos bancos de información genómica varias veces al día, por ejemplo, el IEB recibió cerca de nueve millones de consultas en línea diarias durante 2012, lo que representa un incremento del 60% en comparación con el año anterior. Para atender este reto han surgido diversas estrategias entre las cuales la “computación en la nube” es particularmente atractiva cuando los recursos económicos son limitados para la construcción de infraestructura informática costosa en cada centro de investigación. Técnicamente la nube, que viene del inglés cloud computing, se refiere al procesamiento y almacenamiento masivo de datos en servidores (computadoras) que alojan la información de múltiples centros con el objeto de tener acceso instantáneo y permanente a las bases de datos sin importar la ubicación geográfica del usuario. La nube fue creada para personas que no son expertas en las ciencias de la computación a fin de poder responder preguntas complejas de manera rápida y sencilla. Actualmente se usa la nube cotidianamente al consultar el correo electrónico o movimientos bancarios desde una computadora personal. Sin embargo, su uso para el manejo del Big Data genómico comienza a desarrollarse exitosamente en diversas partes de América, Europa y Asia. De esta forma, para contestar preguntas científicas como la interacción de microorganismos con el cuerpo humano, los mecanismos moleculares de enfermedades comunes, la identificación de nuevos tratamientos para algunos tipos de cáncer o la forma en que los pacientes responden a tratamientos comunes, será cada vez más común acceder a grandes bancos de información genómica, utilizar algoritmos sofisticados y realizar análisis de datos desde nuestras terminales personales, sin tener que generar nuestra propia infraestructura informática sofisticada o contar con el apoyo de expertos en informática. Es así como la investigación biológica que utiliza información genómica se convierte cada vez más en una actividad computacional, analizando cantidades gigantescas de datos desde la comodidad de nuestras computadoras personales.


Dejar un comentario

Por favor tenga en cuenta que los comentarios deben ser aprobados antes de ser publicados