La secuenciación del genoma completo del esqueleto de Atacama muestra nuevas mutaciones relacionadas con la displasia

La secuenciación del genoma completo del esqueleto de Atacama muestra nuevas mutaciones relacionadas con la displasia

Sanchita Bhattacharya1, Jian Li2, Alexandra Sockell3, Matthew J. Kan1, Felice A. Bava4, Shann-Ching Chen1, María C. Ávila-Arcos5, Xuhuai Ji6, Emery Smith7, Narges B. Asadi2, Ralph S. Lachman8, Hugo Y.K. Lam2, Carlos D. Bustamante3, Atul J. Butte1,9 and Garry P. Nolan4,9

Author Affiliations

1Institute for Computational Health Sciences, University of California San Francisco, San Francisco, California 94158, USA;

2Roche Sequencing Solutions, Belmont, California 94002, USA;

3Department of Genetics, Stanford University School of Medicine, Stanford, California 94305, USA;

4Baxter Laboratory for Stem Cell Biology, Department of Microbiology and Immunology, Stanford University, Stanford, California 94305, USA;

5International Laboratory for Human Genome Research, National Autonomous University of Mexico (UNAM) Santiago de Querétaro, Querétaro 76230, Mexico;

6Human Immune Monitoring Center and Functional Genomics Facility, Stanford University, Stanford, California 94305, USA;

7Ultra Intelligence Corporation, Boulder, Colorado 80301, USA;

8Department of Pediatric Radiology, Stanford University School of Medicine, Stanford, California 94305, USA

9 These authors have equal senior authorship.

Corresponding authors: gnolan@stanford.edu, Sanchita.bhattacharya@ucsf.edu

Resumen

Hace más de una década, el esqueleto humanoide de Atacama (Ata) fue descubierto en la región de Atacama en Chile. El espécimen de Ata tenía una extraña estatura de fenotipo 6, menor cantidad de costillas esperadas, cráneo alargado y edad ósea acelerada, lo que llevó a la especulación de que se trataba de un primate no humano preservado, un feto humano que albergaba mutaciones genéticas o incluso un extraterrestre. Anteriormente informamos que era humano por análisis de ADN con una edad ósea estimada de aproximadamente 6-8 años en el momento del fallecimiento. Para determinar los posibles impulsores genéticos de la morfología observada, el ADN de la muestra se sometió a la secuenciación del genoma completo utilizando la plataforma Illumina HiSeq con una cobertura promedio de 11,5 × de lecturas emparejadas de 101 pb. En total, se encontraron 3,356,569 variaciones de nucleótido único (SNV) en comparación con el genoma de referencia humano, 518,365 inserciones y deleciones (indels), y se detectaron 1047 variaciones estructurales (SV). Aquí, presentamos el análisis detallado del genoma completo que muestra que Ata es una hembra de origen humano, probablemente de origen chileno, y su genoma alberga mutaciones en los genes (COL1A1, COL2A1, KMT2D, FLNB, ATR, TRIP11, PCNT) vinculadas anteriormente con enfermedades de baja estatura, anomalías de costillas, malformaciones craneales, fusión articular prematura y osteocondrodisplasia (también conocida como displasia esquelética). En conjunto, estos hallazgos proporcionan una caracterización molecular del fenotipo peculiar de Ata, que probablemente sea el resultado de múltiples mutaciones genéticas putativas conocidas y nuevas que afectan el desarrollo y la osificación ósea.

(Para este artículo se encuentra disponible material complementario)

En 2003, el esqueleto humanoide de Atacama (Ata) fue descubierto en un pueblo minero desértico, La Noria, en la región de Atacama en Chile. La muestra de Ata tenía múltiples anomalías y características inusuales, incluida una altura de 6 pulgadas, un cráneo con signos de turricefalia (síndrome de cabeza alta, un defecto congénito en el que la parte superior del cráneo tiene forma de cono), menos cantidad de la esperada de costillas, y aparentemente placas de crecimiento prematuramente osificadas, sugiriendo una mayor edad en el momento de la muerte que el tamaño de la muestra indicaría. Esto llevó a la especulación de que se trataba de un primate no humano preservado, un feto humano que albergaba mutaciones genéticas o un bebé prematuro con defectos de nacimiento. Además, Ata también apareció en un documental titulado Sirius, en el cual se hipotetizó que este espécimen era un humanoide preservado o posible evidencia de vida extraterrestre (Greer et al., 2013).

Para comprender mejor los orígenes de este espécimen, se inició un análisis en 2012. Aunque el espécimen de Ata se formuló como una hipótesis antigua, los análisis múltiples y los informes no publicados implicaron colectivamente que el espécimen no era antiguo, sino que pertenecía a la edad moderna y contenía ADN de calidad que era adecuado para la investigación científica. Se realizó una serie de análisis no publicados utilizando radiografía esquelética, tomografía computarizada (TC) y secuenciación del genoma completo, y nuestra investigación preliminar reveló que el espécimen era de hecho humano (Nota complementaria). Además, a través de análisis de ADN, encontramos que el grupo de haplotipos B2 mitocondrial del espécimen de Ata tuvo una superposición significativa con la población sudamericana. Después de examinar las imágenes de rayos X, se concluyó que Ata tenía solo 10 pares de costillas en lugar de los 12 normales en humanos, y la edad ósea estimada de Ata sugerida por osificación epifisaria precoz posiblemente fue de 6-8 años en el momento de la muerte (Fig. 1). Esta edad sugerida representaría ya sea una nueva forma profunda de enanismo o un feto con osificación prematura como la raíz del fenotipo de «edad ósea avanzada» (http://www.sciencemag.org/news/2013/05/bizarre-6-inch-skeleton-shown-be-human).

180322095103-001-atacama-mummy-exlarge-169Figura 1. Espécimen momificado de la región de Atacama en Chile. Fotografía representativa del esqueleto de 6 pulgadas (izquierda) y vista frontal del cráneo del espécimen de Ata (derecha). Imagen cortesía de E. Smith

Hasta la fecha, los factores genéticos del complejo fenotipo Ata no se han descrito con evidencia molecular. Aquí, presentamos el primer análisis detallado del genoma completo de Ata, que incluye la ascendencia genética y la determinación del sexo, la identificación de la enfermedad y los genes asociados al fenotipo, y la detección de la nueva variante de nucleótido único (SNV).

Resultados

Purificamos el ADN genómico aislado de la médula ósea y luego realizamos la secuenciación del genoma completo utilizando la plataforma HiSeq de Illumina con una cobertura promedio de 11.5 × de 101 pares de páginas pares de lecturas por pares. Analizamos las lecturas de la secuencia de ADN utilizando la plataforma de análisis y secuenciación genómica a gran escala desarrollada por Bina Technologies (una subsidiaria de Roche Sequencing Solutions). Específicamente, primero ejecutando el alineador BWA-MEM (Li 2013) en la plataforma, ~97% de las 377,333,714 lecturas que pasaron el filtrado interno de calidad de Illumina se mapearon con éxito. De esas lecturas, el 89.77% se asignaron de forma única al genoma de referencia humano con secuencia señuelo (hs37d5) obtenida del Proyecto 1000 Genomes (Consorcio del Proyecto 1000 Genomas 2015), el 7,03% se mapeó de forma múltiple y el 3,20% no se mapeó. Las razones de la falta de coincidencia pueden incluir artefactos generados durante la preparación de la biblioteca, lecturas de baja calidad del instrumento, o datos insuficientes para permitir la alineación con el estándar de referencia humano. Debido a las limitaciones de cobertura baja, aplicamos estrictos criterios de filtrado para garantizar datos de alta calidad para el procesamiento posterior. El origen humano del espécimen se confirmó mediante la alineación de la lectura con otros primates no humanos, incluido el chimpancé (panTro4, 88.01% de las lecturas asignadas de forma exclusiva) y rhesusmacaque (rheMac3, 64,79% de las lecturas asignadas de forma exclusiva), lo que indica que la muestra está más relacionada con humanos que a otros primates no humanos (Tabla complementaria S1).

Además, examinamos la cobertura de mapeo de las Regiones Humanas Aceleradas (HAR) (Pollard etal. 2006; Hubiszand Pollard 2014) en el genoma humano que se conservan a lo largo de la evolución de los vertebrados, pero son sorprendentemente diferentes en los humanos. Los cinco HAR más acelerados (HAR1-HAR5) estaban presentes en el genoma de Ata, con una cobertura promedio (DP) de 12.6, 8.8, 8.9, 11.1 y 12.7, respectivamente (con lecturas de calidad de mapeo mayor a 30). La distribución de la cobertura promedio para el conjunto de HAR de 2701 regiones tuvo un valor promedio de 11.4 y una desviación estándar de 3.3. Esto indica que los HAR en el genoma de Ata tenían una cobertura cercana a la cobertura promedio de secuenciación, confirmando aún más su origen humano.

Las lecturas mapeadas se investigaron adicionalmente para identificar el tipo de variantes observadas en el genoma de Ata utilizando el conjunto de herramientas de análisis de genoma (GATK) en la plataforma de Bina. En total, se detectaron 3,356,569 SNV, y se aprobaron 2,736,981 GATK Variación de la recalibración del nivel de calidad (VQSR), de los cuales el 96,44% se encontraba en la base de datos de polimorfismos de un solo nucleótido (dbSNP Build 147; http://www.ncbi.nlm.nih.gov/SNP/). Los SNV con cualidades de paso tenían una relación de heterocigotos a homocigotos (het/hom) de 1.11, y la relación de transiciones a transversiones (Ti/Tv) era 2.04. Se detectaron 518,365 indeles, de los cuales 401,822 pasaron VQSR y 91,48% en dbSNP147. Los indeles pasantes mostraron una relación het/hom de 1,06 y una relación de inserción a eliminación de 0.89. En total, se detectaron 6401 variaciones estructurales (SV) con 1047 de calidad pasajera, que comprenden 441 deleciones, 525 duplicaciones, 69 inserciones y 12 inversiones. No se detectaron duplicaciones ni deleciones cromosómicas completas (Tabla complementaria S2).

Los extractos de ADN conservados pueden presentar daño o contaminantes en el ADN. Caracterizamos la extensión y el tipo de daño en el ADN presente mediante la medición de las incorporaciones erróneas de nucleótidos, particularmente la desaminación de citosina en los extremos de los fragmentos. Observamos un aumento muy pequeño en la frecuencia de las sustituciones C → T y G → A resultantes de la citosinadesaminación en los extremos 5″™ y 3″™, respectivamente, con una diferencia aproximadamente doble en la frecuencia de sustitución en los extremos de la lectura frente al centro (mapDamage v2.0.2-14) (Fig. S1 complememntaria; Jonsson et al., 2013; Métodos). Aplicamos un filtro de calidad riguroso durante el mapeo para recortar las partes de las lecturas que parecen contener el daño. También examinamos la tasa de contaminación del ADN de Ata mediante la evaluación de la heterocigosidad mitocondrial, ya que los genomas mitocondriales se heredan por vía materna sin recombinación y el ADN libre de contaminantes debe exhibir poca heterocigosidad. Además, el ADN mitocondrial es más estable a lo largo del tiempo y las condiciones, por lo que, en este caso, el análisis evalúa el ADN mitocondrial para la contaminación. La probabilidad de autenticidad pronosticada para el ADN de Ata fue de aproximadamente 1.00, demostrando poca o ninguna heterocigosidad mitocondrial (contamMix v1.0-10) (Fig. S2 complementaria; Fu et al., 2014).

Tomado junto con los resultados de daño de ADN anteriores, esto indica que el ADN de Ata estaba relativamente libre de daños y contaminantes en el ADN. Además, el tamaño promedio del fragmento de ADN para Ata es ~ 300 pb el cual, basado en un modelo de descomposición del ADN (Allentoft et al., 2012), es consistente con una muestra menor de 500 años.

Para evaluar la ascendencia genética de la muestra de Ata, los datos del genotipo se fusionaron en un conjunto de referencia de cinco superpoblaciones del Proyecto 1000 Genomas (fase 3) que utilizan sitios de polimorfismo de nucleótido (dbSNPv147) presentes en el genoma de Ata. Llevamos a cabo un Análisis de Componentes Principales (PCA) en el conjunto combinado de 3,974,633 SNP y encontramos que el espécimen de Ata estaba en el rango de poblaciones mezcladas más cercanas a ascendencia mexicana de Los Ángeles, EE. UU. (MXL); colombianos de Medellín, Colombia (CLM); y peruanos de poblaciones de Lima, Perú (PEL). Estos resultados sugieren que el espécimen fue probablemente de origen sudamericano (Fig. 2A). Además, se realizó una PCA adicional en el conjunto combinado de 363.969 SNP del genoma de Ata y un conjunto de referencia de 52 poblaciones de nativos americanos (Reich et al., 2012), que dio como resultado ocho agrupamientos de población distintos (Métodos). El análisis de PCA demostró que Ata se encontraba en la proximidad más cercana a tres individuos de la región andina pertenecientes a la población chilena de Chilote, refinando aún más la ascendencia de Ata de origen chileno (figura 2B).

Figura 2. Afinidades genéticas del espécimen de Ata a las poblaciones de referencia. (A) Gráfica Scatter cómo el PCA tridimensional de cinco superpoblaciones del Proyecto 1000 Genomas (fase 3) y el genoma Ata (punto negro). El genoma de Ata se encuentra en el rango de poblaciones mezcladas y es el más cercano a la ascendencia mexicana de Los Ángeles (MXL). (B) PCA tridimensional de ocho familias principales de 52 poblaciones de nativos americanos (493 individuos) y el genoma de Ata. El genoma de Ata es el más cercano a los tres individuos de ascendencia andina (en verde), específicamente pertenecientes a la población de Chilote, lo que apoya un origen chileno del individuo. (C) Análisis ADMIXTURE con el conjunto de datos de población de nativos americanos. Componentes de ascendencia global del principal grupo de población de nativos americanos (P1-P8) y Ata (S) identificados por el programa ADMIXTURE en K = 12. La vista ampliada del mapeo de mezclas de muestras de los Andes (P4), Ata (S) y Eskimo-Aleut (P5) sugiere que Ata es un individuo mezclado con vestigios de europeo (en rosa) y ancestro nativo americano con linaje andino (en verde y beige).

Para seguir explorando la ascendencia genética de Ata, se estimaron las proporciones de ascendencia, utilizando el análisis de estructura de la población basado en el modelo implementado en el programa ADMIXTURE (Alexander et al., 2009). Este análisis sugiere que Ata se mezcla con una gran proporción de europeos (un promedio del 58%), asiáticos orientales (un promedio del 25%) y otras poblaciones menores. Esto confirma además que Ata es un espécimen humano moderno con una gama de eventos complejos de mezcla. Además, estimamos la ascendencia genética de Ata en referencia a las poblaciones de nativos americanos y observamos consistentemente un genoma mezclado con 53.8% de ascendencia europea (rosa) y una contribución de componentes nativos (25.7% en verde y 10% en beige) de origen andino (Fig. 2C; Fig. S4 complementaria). Estos resultados son consistentes con las estimaciones de ascendencia en individuos chilenos basadas en eventos migratorios en períodos pre y postcoloniales informados por otros grupos (Reich et al., 2012; Homburger et al., 2015).

Para examinar los determinantes genéticos para el fenotipo único de Ata, investigamos el sexo del individuo, ya que estos hallazgos podrían ser atribuibles a enfermedades relacionadas con el sexo. Utilizamos una técnica de determinación del sexo que incorporó la relación de alineación de secuencia con Y (0,25 ×, incluidas las lecturas mapeadas múltiples) y los cromosomas X (11,54 ×, que requieren tan solo 104-105 secuencias) y la firma de deaminación con citosina del ADN antiguo (Skoglund et al, 2013). El espécimen de Ata mostró una fracción muy pequeña de alineación al cromosoma Y con un RY de 0.0018, dentro del límite del intervalo de confianza del 95% para el sexo inferido tipo «XX». También observamos que no hay una sola lectura asignada al SRY región de genes en el cromosoma Y. Juntos, estos hallazgos nos llevaron a inferir que Ata era una mujer con dos cromosomas X.

Para identificar genes candidatos con variantes que probablemente estén asociadas con la enfermedad, priorizamos variantes génicas funcionalmente importantes de más de 2.7 millones de SNV de buena calidad con un enfoque reduccionista por etapas usando la tubería ANNOVAR (Wang et al., 2010). En resumen, filtramos para variantes exónicas no sinónimas y de corte y empalme, así como también regiones de duplicación segmentaria; variantes conservadas en regiones genómicas conservadas; y eliminó variantes comunes (MAF> 0.01) en el Proyecto de 1000 Genomas (Métodos). Además, se eliminaron las variantes que se cree son probablemente benignas por SIFT (Kumar et al., 2009; Sim et al., 2012) o PolyPhen-2 (Adzhubei et al., 2010). Después de aplicar una serie de procedimientos de filtrado, identificamos 64 regiones SNV de codificación (nonsynonymous/stop-gain) predichas como perjudiciales o posiblemente perjudiciales con la anotación funcional basada en genes (Tabla complementaria S3).

Usando el genoma completo como un conjunto de referencia para las pruebas de enriquecimiento basadas en hipergeometría, realizamos un análisis de enriquecimiento de fenotipo para estos 64 SNV utilizando la base de datos de ontología de fenotipo humano (HPO) (Köhler et al., 2014). De acuerdo con la peculiar anatomía de Ata, encontramos que la mayoría de estas afecciones definidas por HPO estaban asociadas a los huesos, como «estatura baja proporcional» y «11 pares de costillas» (Tabla 1; Fig. S3 complementaria). También realizamos enriquecimiento de la enfermedad en estos 64 SNV exónicos al interrogar a la base de datos PharmGKB (Whirl-Carrillo et al., 2012) utilizando WebGestalt (Wang et al., 2013). Las enfermedades identificadas se asociaron principalmente a trastornos óseos, que incluyen escoliosis, síndrome de Ehlers-Danlos y anomalías musculoesqueléticas (Tabla 2). También hemos identificado otras variantes potencialmente nocivas en los genes asociados con el enanismo y las osteocondrodisplasias en el genoma de Ata (resultados no mostrados). Como control negativo, realizamos análisis similares sobre una hembra peruana seleccionada al azar (HG01927) de la cohorte del genoma poblacional de nativos americanos en el Proyecto 1000 Genomes. No hubo genes superpuestos con mutaciones identificadas en el genoma de Ata presente en este individuo. Además, los análisis de enriquecimiento tampoco arrojaron ningún enriquecimiento para genes asociados con una enfermedad o fenotipo similar a Ata en este individuo (Tabla S7 complementaria). En el nivel de la secuencia del gen, identificamos cuatro nuevos SNV de sentido equivocado que no se habían descrito previamente. Encontramos dos SNV raros (rs575285203, rs768451951) en genes que codifican colágeno (COL1A1 y COL2A1); encontramos variantes novedosas en filamina B (FLNB), metiltransferasa específica de lisina (KMT2D, anteriormente conocida como MLL2), interactor de receptor de hormona tiroidea 11 (TRIP11), ataxia telangiectasia y proteína relacionada con Rad3 (ATR) y una variante de sentido erróneo (rs2070426) en pericentrina (PCNT). Se predijo que estos nuevos SNV serían potencialmente dañinos según los algoritmos de predicción funcional in silico (MutationTaster [Schwarz et al. 2010], SIFT o PolyPhen-2) disponibles a través de dbNSFP (base de datos para predicciones funcionales de SNP no sinónimas) (Liu et al. 2011) y SnpEff (Tabla 3; Tabla complementaria S5; Cingolani et al. 2012). El puntaje MutationTaster varía de 0 a 1, y un puntaje mayor significa mayor precisión para predecir la alteración funcional.

Tabla 1. Principales 10 términos de ontología de fenotipo humano enriquecido (HPO) con posibles SNV deletéreos

Tabla 1La tabla enumera los 10 mejores fenotipos enriquecidos en el conjunto de genes identificados con SNV deletéreos y las estadísticas para el enriquecimiento utilizando la base de datos de enriquecimiento de fenotipos humanos (HPO). Valor P ajustado por Benjamini-Hochberg método de ajuste de prueba múltiple.

(C) el número de genes de referencia en la categoría de la enfermedad; (O) el número de genes en el conjunto de genes y en la categoría de la enfermedad; (E) el número esperado en la categoría; y (R) proporción de enriquecimiento

Tabla 2. Análisis de enriquecimiento de la enfermedad de genes con posibles SNV perjudiciales

Tabla 2Esta tabla enumera las enfermedades enriquecidas en el conjunto de genes identificados con SNV deletéreos y las estadísticas para la enfermedad enriquecida. La columna estadística enumera (C) el número de genes de referencia en la categoría de la enfermedad; (O) el número de genes en el conjunto de genes y en la categoría de la enfermedad; (E) el número esperado en la categoría; (R) relación de enriquecimiento, rawP: adjP: P-valor ajustado por Benjamin-Hochberg método de ajuste de prueba múltiple.

Confirmamos las secuencias de estos SNE con captura dirigida de siete regiones del genoma, cada una de las cuales consiste en ~ 800 bps centradas en las variantes candidatas (Métodos). Confirmamos que el genotipo heterocigótico requiere seis de los siete SNV (COL1A1, COL2A1, FLNB, KMT2D, ATR y TRIP11). Además, identificamos un locus en el gen PCNT que se llamó originalmente como heterocigótico, pero después de la validación se determinó que era homocigótico para el alelo asociado a la enfermedad sin referencia (Tabla 3; Tabla complementaria S5). Estos estudios de validación corroboraron los SNV identificados en el genoma de Ata mediante el método de secuenciación del genoma completo.

Tabla 3. Validación de variantes putativas de missense asociadas con fenotipos y enfermedades enriquecidos

Tabla 3La tabla enumera las llamadas de genotipo para SNV de sentido erróneo en siete genes que se validaron de forma independiente. duplicados aPCR fueron eliminados.

También identificamos 557 indels (<50bp size) en la región de codificación del genoma de Ata siguiendo el mismo procedimiento aplicado para la detección de SNV. Además, la descomposición de los indeles dio como resultado 257 variantes de cambio de marco (92 inserciones y 165 eliminaciones) y 223 variantes sin desplazamiento de marco (109 inserciones y 104 eliminaciones) en el genoma. Además, encontramos nueve genes con stop-gain y un gen con mutaciones stop-loss. Identificamos los genes asociados al proceso catabólico del colágeno (GO: 0030574) (COL1A1, COL6A5, COL18A1, ADAMTS2) con deleciones del desplazamiento del marco de lectura. Además, se detectaron deleciones en el desplazamiento del marco de lectura en el dominio conjunto de Hiscocompatibilidad C1 que contiene genes HLA-B, HLA-DQA1, HLA-DRB1.

A continuación, examinamos la variación estructural en el genoma de Ata. Hubo en total 132 variaciones estructurales exónicas (SV) con 128, 4 y 2 duplicaciones, eliminaciones e inversiones, respectivamente. Identificamos la duplicación en los genes USP17 y USP18 asociados con la desubiquitinación de proteínas (GO:0016579) que abarca 4-25 kb en el cromosoma 4p16.1. Hubo cuatro deleciones en los genes del receptor olfatorio (OR52N1, 24.7 kb y OR52N5, 0.31 kb) en el cromosoma 11, OVCH2 (0.31 kb) en el cromosoma 15 y LILRA3 (6.8 kb) en el cromosoma 19. Los genes SYT6 y CNTN5 incluyen 0.825- e inversiones de 8.254 kb, respectivamente. No se detectaron translocaciones en el genoma. No hubo pruebas suficientes con anotaciones precisas basadas en la expresión conocida o la variación del número de copias para vincular las variantes estructurales con el fenotipo observado (Tabla complementaria S8).

Discusión

Nuestros hallazgos demuestran que la secuenciación del genoma completo se puede aplicar fácilmente al análisis de especímenes humanos individuales arqueológica y antropológicamente relevantes con trastornos genéticos de origen desconocido. Las bases de datos actuales ahora son lo suficientemente detalladas como para proporcionar pistas sobre la ascendencia y los resultados de salud para los pacientes, incluso especímenes con afirmaciones dramáticas que disuadirían a tales muestras de una investigación seria. Notablemente, identificamos varias mutaciones nuevas en genes que serían predictivos de las malformaciones esqueléticas exhibidas en Ata.

En la muestra de Ata, hemos identificado mutaciones conocidas en genes asociados con enfermedades tales como Displasia cranioectodérmica (Beck et al., 2015) y displasia esquelética de Greenberg, cada una de las cuales produce fenotipos similares a los observados en el espécimen de Ata. El genoma de Ata también contenía variantes previamente informadas (rs41298151, p.Gly465Ala) en FREM1 y FLNB (rs1131356, p.Asp1157Asn), que están asociadas con la hernia diafragmática congénita (Walczak-Sztulpa et al., 2010), un nacimiento relativamente común y potencialmente mortal defecto en el cual el diafragma no se desarrolla adecuadamente (Tabla complementaria S6; Stenson et al. 2014).

Los SNV que identificamos son nuevos, pero las mutaciones previamente identificadas y distintas en los siete genes están implicadas en las osteocondrodisplasias y representan causas plausibles de la morfología anormal del cráneo, estatura pequeña, 10 costillas y edad ósea prematura de Ata. El colágeno de tipo 1 (COL1A1) y el colágeno de tipo II (COL2A1) son proteínas estructurales principales del hueso y el cartílago, respectivamente. Las mutaciones autosómicas dominantes en COL1A1 son causas conocidas del síndrome de Ehlers-Danlos y la osteoporosis (Steiner et al., 1993; Byers 2000). De manera similar, las mutaciones autosómicas dominantes en COL2A1 son responsables de varias osteocondrodisplasias (Barat-Houari et al., 2016), y las mutaciones en COL2A1 y TRIP11 están implicadas en la acondrogénesis tipo 2 y tipo 1, respectivamente. Se sabe que las mutaciones KMT2D están asociadas con el síndrome de Kabuki, que se caracteriza por malformaciones craneales y faciales, deficiencia de crecimiento, baja estatura y malformaciones esqueléticas. Las mutaciones en ATR pueden causar el síndrome de Seckel 1, que se caracteriza por retraso mental y enanismo proporcional (Griffith et al., 2008). Más de 30 mutaciones descritas en PCNT causan falla en la división del centrosoma, lo que resulta en un enanismo microvesical osteodisplastico primordial tipo II (MOPDII), que se caracteriza por huesos cortos y microcefalia. FLNB es importante para el desarrollo del esqueleto fetal y mutaciones están asociadas con FLNB atelosteogénesis I, síndrome de Larsen, y el síndrome de sinostosis spondylocarpotarsal, una enfermedad de la osificación ectópica que causa la fusión inadecuado de los huesos de las vértebras, muñecas y tobillos. Además, nuestros hallazgos son consistentes con los genes de la enfermedad de la displasia del esqueleto informados previamente en la nosología y la clasificación de los trastornos esqueléticos genéticos (Bonafe et al., 2015).

Por otra parte, encontramos un informe sobre una familia consanguínea con dos niños afectados diagnosticados con una forma más grave de la osteogénesis imperfecta (es decir, baja estatura, baja densidad ósea, y graves fracturas vertebrales por compresión) en los primeros años de vida que albergan 19 raros homocigotos y mutaciones heterocigotas compuestas. Estos hallazgos confirman además que una serie de variantes raras enriquecidas en fenotipos esqueléticos conocidos asociados con Ata es consistente con otros estudios, y sugiere que algunas mutaciones subletales llevadas a partir de uno o más de los padres podrían haber dado como resultado el fenotipo observado inusual (Fahiminiya et al 2013).

La mayor susceptibilidad a inducir la variación fenotípica humana y se esperan enfermedades debidas a deleciones y variaciones estructurales en el genoma humano. Se identificaron una deleción del marco de lectura 4-bp en COL1A1 (Chr17:482,63858-482,63861, TCCAG> T) y un 6.8 kpb a gran deleción del marco de lectura en LILRA3 (Chr 19:548,00800-548,0760), que es consistente con el hallazgo por otros grupos en pacientes con malformaciones y displasia esqueléticas (Chopra et al., 2015; Bae et al., 2016). La combinación de sustituciones de una sola base y deleciones del desplazamiento del marco detectado en los genes de colágeno podría estar desempeñando un papel importante en la anormalidad de la estructura corporal y desarrollar trastornos mentales. Además, la secuenciación profunda del genoma podría revelar otras variaciones estructurales asociadas al fenotipo que son limitadas en los análisis actuales debido a la baja cobertura del genoma.

Tomados en conjunto, es completamente plausible que la combinación casual de múltiples mutaciones conocidas y nuevos SNV identificados aquí pueda explicar la baja estatura de Ata, el conteo inadecuado de costillas, las características craneales anormales y la edad ósea avanzada percibida. Dado el tamaño de la muestra y la gravedad de las mutaciones descritas anteriormente, parece probable que el espécimen fue un parto prematuro. Aunque solo podemos especular sobre la causa de múltiples mutaciones en el genoma de Ata, el espécimen se encontró en La Noria, una de las ciudades mineras de nitrato abandonadas del desierto de Atacama, lo que sugiere un posible papel de la exposición prenatal al nitrato que causa daño en el ADN (Andreassi et al. al. 2001).

Aunque el extraordinario fenotipo de la muestra generó una amplia discusión sobre su origen (Sirius), y no se dejó ninguna hipótesis fuera de la tabla durante el análisis, la muestra se muestra aquí como de origen puramente terrenal con mutaciones que reflejan las determinaciones visuales. De hecho, aunque puramente especulativo, el fenotipo de osificación prematura observado aquí podría entenderse como un proceso que podría (médicamente) manipularse en el desarrollo óseo. Los estudios futuros deberían investigar las nuevas variaciones de secuencia que presentamos aquí, que requerirán la caracterización molecular de mutaciones individuales y comparaciones con otras bases de datos de secuencias de genoma genéticamente enfocadas y que pueden contribuir a determinar las relaciones de efecto causal tanto a nivel molecular como poblacional.

Métodos.

Recogida de muestras

La muestra se escaneó con análisis de rayos X para identificar dismorfias óseas. El escaneo reveló dónde la muestra de médula ósea se podía aislar fácilmente (con daño mínimo a la muestra) de las costillas y el húmero derecho de la muestra con un conjunto de instrumentos quirúrgicos en una zona de área estéril designada siguiendo una técnica aséptica estéril. Algunos cráneos internos, material óseo y duramadre también se recuperaron durante el procedimiento.

Aislamiento de AND

El ADN se extrajo usando un kit de gran volumen de ácido nucleico vírico puro (Roche Diagnostics, Cat. 05 114 403 001), con algunas modificaciones. Brevemente, se molieron los fragmentos de hueso, y el polvo se resuspendió en 1 ml de tampón de unión complementado con poli (A) transportador de ARN y proteinasa K. Las muestras se incubaron durante la noche a 37ºC. Los siguientes pasos se realizaron de acuerdo con las instrucciones del fabricante.

Preparación de la biblioteca de AND

El protocolo de preparación de la biblioteca de ADN indexado con TruSeq de la pareja Illumina se realizó automáticamente en el sistema SPRIworks (Beckman Coulter). Mediante el uso de cartuchos y tarjetas de métodos específicos para el sistema de secuenciación Illumina, se puede preparar una biblioteca de fragmentos para los secuenciadores Illumina. Después de que se construyeron bibliotecas individuales, se evaluaron las calidades y tamaños de bandas utilizando Bioanalyzer High Sensitivity Chip (Agilent Technologies) y Qubit (Life Technologies). Las bibliotecas también se cuantificaron mediante qPCR utilizando el kit de cuantificación de bibliotecas para las plataformas de secuenciación Illumina (KAPA Biosystems), utilizando un sistema de PCR en tiempo real ABI 7900HT (Life Technologies). Las bibliotecas se renormalizaron a una concentración de trabajo de 10 nM, usando la molaridad calculada a partir de qPCR y ajustada para el tamaño del fragmento con el análisis de Bioanalyzer. Finalmente fueron secuenciados en MiSeq y HiSeq 2000 de Illumina (Tabla complementaria S4). Todos los archivos brutos de FASTQ se extrajeron para la alineación de secuencia y el análisis posterior.

Análisis del genoma complete

Se procesaron más de 377 millones de lecturas por pares de 101 pb (en promedio, 11.5 × coberturas) secuenciadas a partir del ADN genómico de la muestra con el alineamiento de lectura, la variante y el módulo de expresión (RAVE) de Bina (1.5.0-dev-217-ga8038cc). RAVE de Bina realizó un análisis secundario de los datos de NGS, que incluyeron alineamiento de secuencia, llamada variante pequeña y variación estructural (SV), así como detección de variación del número de copias (CNV), siguiendo las mejores prácticas para el análisis de secuencias secundarias recomendadas por el Broad Institute. donde corresponda.

Específicamente, el clasificador en memoria de Bina se usó simultáneamente con la alineación para minimizar la latencia; BWA-MEM (Li 2013) v0.7.5a se usó para la alineación de secuencias; GATK (DePristo et al. 2011) v2.8 con HaplotyperCaller y VQSR se usó para SNV y detección y filtrado de indel menor; y MetaSV (Mohiyuddin y otros, 2015) se utilizó para integrar diferentes señales SV/CNV detectadas por cuatro algoritmos ortogonales, es decir, detección de señales utilizando profundidades de lectura por CNV nator (Abyzovetal. 2011), lecturas divididas por Pindel (Ye et al. 2009), las lecturas de pares iguales de BreakDancer (Chen et al., 2009) y las uniones de BreakSeq (Lam et al., 2010). El conjunto de llamadas integrado fue anotado con etiquetas de confianza (PASS/LowQual) y métodos de detección por MetaSV. Luego, se pasaron pequeñas variantes al módulo de inteligencia de análisis y anotación de Bina (AAiM) (v0.1.6), que utiliza tecnologías como Hadoop y HBase para la anotación rápida de variantes de múltiples clases. El AAiM de Bina también proporciona varias filtraciones e intersecciones en tiempo real con más de 100 funciones de anotación de bases de datos como RefSeq y HGMD.

Determinación de ascendencia genética

La secuencia del genoma de Ata se mapeó en el conjunto de datos de población de nativos americanos (364,470 SNP genotipo en 493 muestras de 52 poblaciones de nativos americanos) (Reich et al., 2012). GATK Unified Genotyper (McKenna et al., 2010; DePristo et al., 2011) se utilizó para recuperar los genotipos de 364,470 posiciones de SNP coincidentes del genoma de Ata. Los SNP con menos de cinco lecturas de secuencia se marcaron como genotipos incompletos. Después de eliminar los SNPs trialélicos e inconsistentes mediante la fusión de los dos conjuntos de datos, 363,969 SNP se conservaron para el análisis de PCA en sentido descendente. El análisis de componentes principales (PCA) se realizó utilizando smartpca (Price et al. 2006) implementado en el paquete EIGENSOFT v5.0.1.

Además, el genoma de Ata se mapeó en 1000 Genomes Projectphase (1KGP) 3 conjunto de datos integrado_v2, con 77,233, 099 SNP autosómicos identificados. De forma similar, GATK Unified Genotyper recuperó todos los genotipos de SNP del genoma de Ata. Los SNP con menor frecuencia de alelo <0.05 y el valor P de equilibrio de Hardy-Weinberg <0.00001 se eliminaron con PLINK (Purcell y col., 2007) y se realizó una poda de desequilibrio de ligamiento (LD) en función del factor de varianza (plink-indep 50 5 2). Después de eliminar los SNPs trialélicos e inconsistentes mediante la fusión de los dos conjuntos de datos, se conservaron 3,974,633 SNP para el análisis de PCA en sentido descendente.

A continuación, realizamos el análisis de ADMIXTURE (Alexander et al. 2009) en los conjuntos de datos combinados, como se describió anteriormente para los análisis de PCA en las muestras de Native American sin máscara y en el panel del Proyecto 1000 Genome. Los modelos ADMIXTURE se exploraron en un número variable de clústeres K con validación cruzada para K = 6 a K = 12 con 10 repeticiones para cada K con semilla aleatoria para la estimación de ascendencia local. Utilizamos un algoritmo de relajación de bloques predeterminado para la optimización del método. Los mismos análisis se repitieron en K = 4 y se replicaron 10 veces con una semilla aleatoria para la estimación de ascendencia global (Fig. S5 complementaria). La inferencia del clúster de posprocesamiento (matrices Q) del programa ADMIXTURE se analizó en la herramienta de visualización del clúster Pong para analizar y visualizar la pertenencia a clústeres latentes con un D3.js interactivo native (Behr et al. 2016).

Estimaciones por daño ADN y contaminación

Para determinar el grado en que la muestra de Ata se vio afectada por daño en el ADN, usamos el programa mapDamage v2.0.2-14 (Jonsson et al., 2013) para medir la tasa de sustituciones C → T y G → A en los extremos 5″™ y 3″™ de los fragmentos de lectura. Encontramos un aumento de aproximadamente el doble en la tasa de desaminación para los finales de las lecturas en comparación con el centro (tasa de sustitución C → T = 0.0184 versus 0.0081 y tasa de sustitución G → A = 0.0267 frente a 0.0112). En general, no observamos mucho daño en el genoma de Ata; como resultado, no se recomendó el tratamiento UNG previo a la amplificación. Utilizamos un filtro de calidad riguroso durante el mapeo para recortar las partes de las lecturas que parecen contener daños. Luego usamos contamMix v1.0-10 para estimar la contaminación utilizando la tasa de heterocigosidad mitocondrial. Este análisis predijo la probabilidad de autenticidad de la muestra de ~1.00, debido a la heterocigosis limitada o inexistente de las mitocondrias.

Determinación de sexo por alineamiento de secuencia cromosómica

Para determinar el sexo de la muestra de Ata, se analizó la profundidad de lectura en los cromosomas sexuales. Los YPAR se enmascararon por «N» en el genoma de referencia (hs37d5); por lo tanto, los X PAR pueden tratarse como diploides incluso para muestras masculinas. El cromosoma Y muestra una cobertura significativamente menor que el cromosoma X (0.25 × frente a 11.54 ×). Aproximadamente el 70% de estas lecturas mapeadas al Cromosoma Y tienen una calidad de mapeo cero, lo que significa que pueden mapearse en múltiples ubicaciones ya sea en el cromosoma Y u otros cromosomas. Solo el 17% de estas lecturas tienen una calidad de mapeo superior o igual a 30, y ~50% de estas lecturas con calidad de mapeo ≥30 tenían bases de recorte suave.

Siguiendo las pautas anteriores (Skoglund et al., 2013), calculamos las secuencias de fracciones alineadas con el Cromosoma Y, que es una relación del número total de secuencias alineadas con cualquier cromosoma sexual (RY). La muestra de Ata mostró un RY de 0.0018, dentro del límite del intervalo de confianza del 95%, y se le asignó un sexo inferido de «XX». Dado que la muestra es femenina, no fue posible utilizar la heterocigosidad cromosómica Y para estimar la contaminación con ADN nuclear. Para la evaluación comparativa, también examinamos las lecturas alineadas con los cromosomas sexuales para el genoma femenino bien caracterizado NA12878 recientemente secuenciado nuevamente por el Instituto Nacional de Estándares (NIST). Esta muestra tenía aproximadamente 49.1 × cobertura en todo el genoma y 0.497 × cobertura en el Cromosoma Y. Mostraba un RY de 0.0016 con sexo inferido tipo «XX».

Priorizar las variantes candidatas por canal ANNOVAR

Utilizamos un procedimiento de filtrado personalizado de ANNOVAR (Wang et al. 2010) para identificar un subconjunto de SNV después de pasar el umbral de control de calidad desde el método de detección de variante de Bina (sección «Análisis genómico complete»). Este es un esquema de filtrado basado en anotaciones a nivel de variante y gen a nivel para identificar genes candidatos con variantes potenciales que pueden estar asociadas con la enfermedad. Los pasos de filtrado incluyen (1) identificar variantes no sinónimas y de empalme; (2) eliminar variantes en regiones segmentales de duplicación; (3) mantener variantes en regiones genómicas conservadas basadas en la alineación de 46 vías; (4) eliminar las variantes comunes observadas en el 1KGP (versión de octubre de 2014) para poblaciones europeas, asiáticas y africanas, y el Proyecto de secuenciación del exoma del Instituto Nacional del Corazón, los Pulmones y la Sangre (NHLBI) (ESP 6500, http://esp.gs.washington.edu/) para poblaciones europeas y africanas; y (5) eliminar las variantes observadas en la base de datos de variaciones genéticas breves del NCBI (dbSNP, http://www.ncbi.nlm.nih.gov/SNP, versión 138).

Análisis de enriquecimiento

La lista de candidatos SNV identificados por el gasoducto ANNOVAR se analizó utilizando la herramienta de análisis de enriquecimiento WebGestalt (Wang et al., 2013). La lista de SNV, indels y SV se anotaron contra las bases de datos de PharmGKB (Whirl-Carrillo et al., 2012) y Human Phenotype Ontology (HPO) (Köhler et al. 2014) para el enriquecimiento de enfermedades y fenotipos, respectivamente, con todo el genoma como un conjunto de referencia para la prueba hipergeométrica para el enriquecimiento. Los valores P para el enriquecimiento se ajustaron por el método BenjaminiHochberg para la corrección de múltiples hipótesis. También realizamos análisis de enriquecimiento de geneontología (GO; www.geneontology.org) en indeles y SVs.

Validación de secuencia

Debido a que el tamaño de fragmento promedio del ADN extraído era ~300 pb, no pudimos predecir los sitios de unión para los primarios de secuenciación de Sanger que amplificarían de manera confiable las regiones que rodean los loci identificadas en nuestro análisis de enriquecimiento en nuestra muestra fragmentada. En cambio, para validar las llamadas de genotipo para las variantes encontradas a través de nuestro análisis de enriquecimiento, generamos sondas de captura específicas y realizamos la resecuenciación de los loci. Primero diseñamos cebadores dirigidos a un fragmento de ~800 pb centrado alrededor de los SNV de interés y amplificamos las regiones que rodean a estas lociusing ADN moderno de un individuo peruano. Los amplicones se fragmentaron a un tamaño promedio de ~100 pb usando un ultrasonicador enfocado Covaris S220, y la transcripción in vitro se realizó usando el kit AmpliScribe T7-Flash Biotin-RNA Transcription para producir sondas de ARN biotiniladas dirigidas a las regiones de interés. La captura se realizó como se describió anteriormente (Carpenter et al., 2013). Luego, los fragmentos capturados se secuenciaron en un instrumento NextSeq 500 de 76 pb paired-endmid-outputrunona, hasta una cobertura promedio de 120x por SNV.

Acceso a los datos.

Los datos de la secuencia del genoma completo de este estudio se han enviado al Sequence Read Archive (SRA; https://www.ncbi.nlm.Nih.gov/sra/) con el número de acceso SRP083100.

Agradecimientos

Los autores agradecen a Ramón Navia-Osorio, que proporcionó acceso al material óseo del espécimen de Atacama. Agradecemos S.M. Greer, J.D. Seraphine, A. Kaleka, y el resto del equipo de Sirius por su trabajo en la película invitando a G.P.N. para tomar parte en el análisis del espécimen. Agradecemos a los Dres. Andrés Ruiz Linares y Gabriel Bedoya para acceder al conjunto de datos de población de nativos americanos y la Dra. Weronika Sikora-Wohlfeld por valiosas sugerencias con determinación de ascendencia. La secuenciación se realizó en el Stanford Genomics Center, y los datos se procesaron y analizaron en Bina, ahora parte de Roche Sequencing Solutions. S.B., M.J.K., y A.J.B. fueron apoyados por la Fundación Lucile Packard para la Salud Infantil y la Universidad de California, San Francisco, fondos de dotación. F.A.B. es apoyado por una beca a largo plazo del Programa de Ciencias Human Frontier. G.P.N. cuenta con el apoyo de la Cátedra Rachford y Carlota A. Harris. Contribuciones del autor: G.P.N., A.J.B. y S.B. concibió y dirigió el proyecto. E.S. hizo la fotografía de la muestra, MRI, CAT Scan, análisis de rayos X, y se realizó el procedimiento quirúrgico para extraer la costilla para el análisis de ADN. R.S.L. brindó consultoría crítica sobre morfogénesis y patología óseas. G.P.N. hizo la purificación y secuenciación del ADN original. F.A.B. extrajo aún más el ADN, y X.J. hizo la construcción de la biblioteca. J.L. y H.Y.K.L. mapeo realizado, llamadas SNP, ensamblaje de ADN mitocondrial y análisis de determinación de género con el apoyo de N.B.A. A.A.S. y M.C.A.-A. coordinó la contaminación del ADN y las estimaciones de daños. S.-C.C. realizó el análisis de ascendencia genética, y S.B. hizo el análisis de enriquecimiento, la interpretación de los datos, y identificó las variantes puestas a la venta. A.A.S. llevado a cabo los experimentos de validación S.B., M.J.K., J.L., y A.A.S. escribió la mayor parte del manuscrito con aportes críticos de G.P.N., H.Y.K.L., F.A.B., M.C.A.-A, C. D.B. y A.J.B.

Referencias

The 1000 Genomes Project Consortium. 2015. A global reference for human genetic variation. Nature 526: 68″“74.

Abyzov A, Urban AE, Snyder M, Gerstein M. 2011. CNVnator: an approach to discover, genotype, and characterize typical and atypical CNVs from family and population genome sequencing. Genome Res 21: 974″“984.

Adzhubei IA, Schmidt S, Peshkin L, Ramensky VE, Gerasimova A, Bork P, Kondrashov AS, Sunyaev SR. 2010. A method and server for predicting damaging missense mutations. Nat Methods 7: 248″“249.

Alexander DH, Novembre J, Lange K. 2009. Fastmodel-based estimation of ancestry in unrelated individuals. Genome Res 19: 1655″“1664.

Allen to ft ME, Collins M, Harker D, Haile J, Oskam CL, Hale ML, Campos PF, Samaniego JA, Gilbert MT, Willerslev E, etal. 2012. The half-life of DNA in bone: measuring decay kinetics in 158 dated fossils. ProcBiol Sci279: 4724″“4733.

Andreassi MG, Picano E, Del Ry S, Botto N, Colombo MG, Giannessi D, Lubrano V, Vassalle C, Biagini A. 2001. Chronic long-term nitrate therapy: possible cytogenetic effect in humans? Mutagenesis 16: 517″“521.

BaeJS, Kim NK, Lee C, Kim SC, Lee HR, Song HR, Park KB, Kim HW, Lee SH, Kim HY, etal. 2016. Comprehensive genetic exploration of skeletal dysplasia using targeted exome sequencing. Genet Med 18: 563″“569.

Barat-Houari M, Dumont B, Fabre A, Them FT, Alembik Y, Alessandri JL, Amiel J, Audebert S, Baumann-Morel C, Blanchet P, et al. 2016. The expanding spectrum of COL2A1 gene variants IN136 patients with a skeletal dysplasia phenotype. Eur J Hum Genet 24: 992″“1000.

Beck TF, Campeau PM, Jhangiani SN, Gambin T, Li AH, Abo-Zahrah R, Jordan VK, Hernandez-Garcia A, Wiszniewski WK, Muzny D, et al. 2015. FBN1 contributing to familial congenital diaphragmatic hernia. Am J Med Genet A 167A: 831″“836.

Behr AA, Liu KZ, Liu-Fang G, Nakka P, Ramachandran S. 2016. pong: fast analysis and visualization of latent clusters in population genetic data. Bioinformatics 32: 2817″“2823.

Benjamini Y, Hochberg Y. 1995. Controlling the false discovery rate: apractical and powerful approach to multiple testing. J R Statist Soc B Met 57: 289″“300.

Bonafe L, Cormier-Daire V, Hall C, Lachman R, Mortier G, Mundlos S, Nishimura G, Sangiorgi L, Savarirayan R, Sillence D, et al. 2015. Nosology and classification of genetic skeletal disorders: 2015 revision. Am J Med Genet A 167A: 2869″“2892.

Byers PH. 2000. Osteogenesis imperfecta: perspectives and opportunities. Curr Opin Pediatr 12: 603″“609.

Carpenter ML, Buenrostro JD, Valdiosera C, Schroeder H, Allentoft ME, Sikora M, Rasmussen M, Gravel S, Guillén S, Nekhrizov G, et al. 2013. Pulling out the 1%: whole-genome capture for the targeted enrichment of ancient DNA sequencing libraries. Am J Hum Genet 93: 852″“864.

Chen K, Wallis JW, McLellan MD, Larson DE, Kalicki JM, Pohl CS, McGrath SD, Wendl MC, Zhang Q, Locke DP, et al. 2009. BreakDancer: an algorithm for high-resolution mapping of genomic structural variation. Nat Methods 6: 677″“681.

Chopra SS, Leshchiner I, Duzkale H, McLaughlin H, Giovanni M, Zhang C, Stitziel N, Fingeroth J, Joyce RM, Lebo M, et al. 2015. Inherited CHST11/MIR3922 deletion is associated with a novel recessive syndrome presenting with skeletal malformation and malignant lymphoproliferative disease. Mol Genet Genomic Med 3: 413″“423.

Cingolani P, Platts A, Wang le L, Coon M, Nguyen T, Wang L, Land SJ, Lu X, Ruden DM. 2012. A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome of Drosophila melanogaster strain w1118; iso-2; iso-3. Fly (Austin) 6: 80″“92.

DePristo MA, Banks E, Poplin R, Garimella KV, Maguire JR, Hartl C, Philippakis AA, del Angel G, Rivas MA, Hanna M, et al. 2011. A framework for variation discovery and genotyping using next-generation DNA sequencing data. Nat Genet 43: 491″“498.

Fahiminiya S, Majewski J, Mort J, Moffatt P, Glorieux FH, Rauch F. 2013. Mutations in WNT1 are a cause of osteogenesis imperfecta. J Med Genet 50: 345″“348.

FuQ, Meyer M, Gao X, Stenzel U, Burbano HA, Kelso J, Paabo S. 2013. DNA analysis of an early modern human from Tianyuan Cave, China. Proc Natl Acad Sci 110: 2223″“2227.

Fu Q, Li H, Moorjani P, Jay F, Slepchenko SM, Bondarev AA, Johnson PL, Aximu-Petri A, Prufer K, de Filippo C, et al. 2014. Genome sequence of a 45,000-year-old modern human from western Siberia. Nature 514: 445″“449.

GreerS, Virk R, Seraphine JD, Baccam X, Boneshire J, Gerry B. [Producers] & Kaleka A. [Director]. 2013. Sirius [Documentary]. Neverending Light Productions, USA.

Griffith E, Walker S, Martin CA, Vagnarelli P, Stiff T, Vernay B, Al Sanna N, Saggar A, Hamel B, Earnshaw WC, et al. 2008. Mutations in pericentrin cause Seckel syndrome with defective ATR-dependent DNA damage signaling. Nat Genet 40: 232″“236.

Homburger JR, Moreno-Estrada A, Gignoux CR, Nelson D, Sanchez E, Ortiz Tello P, Pons-Estel BA, Acevedo-Vasquez E, Miranda P, Langefeld CD, et al.2015. Genomic insights into the ancestry and demographic history of South America. PLoS Genet 11: e1005602.

Hubisz MJ, Pollard KS. 2014. Exploring the genesis and functions of Human Accelerated Regions sheds light on their role in human evolution. Curr Opin Genet Dev 29: 15″“21.

Jonsson H, Ginolhac A, Schubert M, Johnson PL, Orlando L. 2013. mapDamage2.0: fast approximate Bayesian estimates of ancient DNA damage parameters. Bioinformatics 29: 1682″“1684.

Köhler S, Doelken SC, Mungall CJ, Bauer S, Firth HV, Bailleul-Forestier I, Black GC, Brown DL, Brudno M, Campbell J, et al. 2014. The Human Phenotype Ontology project: linking molecular biology and disease through phenotype data. Nucleic Acids Res 42: D966″“D974.

Kumar P, Henikoff S, Ng PC. 2009. Predicting the effects of codingnon-synonymous variants on protein function using the SIFT algorithm. Nat Protoc 4: 1073″“1081.

Lam HY, Mu XJ, Stutz AM, Tanzer A, Cayting PD, Snyder M, Kim PM, Korbel JO, Gerstein MB. 2010. Nucleotide-resolution analysis of structural variants using BreakSeq and a breakpoint library. Nat Biotechnol 28: 47″“55.

LiH. 2013.Aligning sequence reads, clone sequencesand assembly contigs with BWA-MEM. arXiv:13033997v1 [q-bioGN].

Liu X, Jian X, Boerwinkle E. 2011. dbNSFP:alight weight data base of human nonsynonymous SNPs and their functional predictions. HumMutat32: 894″“899.

McKenna A, Hanna M, Banks E, Sivachenko A, Cibulskis K, Kernytsky A, Garimella K, Altshuler D, Gabriel S, Daly M, et al. 2010. The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data. Genome Res 20: 1297″“1303.

Mohiyuddin M, Mu JC, Li J, Bani Asadi N, Gerstein MB, Abyzov A, Wong WH, Lam HY. 2015. MetaSV: an accurate and integrative estructural-variant caller for next generation sequencing. Bioinformatics 31: 2741″“2744.

Pollard KS, Salama SR, King B, Kern AD, Dreszer T, Katzman S, Siepel A, Pedersen JS, Bejerano G, Baertsch R, et al. 2006. Forces shaping the fastest evolving regions in the human genome. PLoS Genet 2: e168.

Price AL, Patterson NJ, Plenge RM, Weinblatt ME, Shadick NA, Reich D. 2006. Principal components analysis corrects for stratification in genome-wide association studies. Nat Genet 38: 904″“909.

Purcell S, Neale B, Todd-Brown K, Thomas L, Ferreira MA, Bender D, Maller J, Sklar P, deBakker PI, Daly MJ, etal. 2007. PLINK: a tool set for whole-genome association and population-based linkage analyses. Am J Hum Genet 81: 559″“575.

Reich D, Patterson N, Campbell D, Tandon A, Mazieres S, Ray N, Parra MV, Rojas W, Duque C, Mesa N, etal. 2012. Reconstructing NativeAmerican population history. Nature 488: 370″“374.

Schwarz JM, Rödelsperger C, Schuelke M, Seelow D. 2010. MutationTaster evaluates disease-causing potential of sequence alterations. Nat Methods 7: 575″“576.

Sim NL, Kumar P, Hu J, Henikoff S, Schneider G, Ng PC. 2012. SIFT web server: predicting effects of amino acid substitutions on proteins. Nucleic Acids Res 40: W452″“W457.

Skoglund P, Stora J, Gotherstrom A, Jakobsson M. 2013. Accurate sex identification of ancient human remains using DNA shotgun sequencing. J Archaeol Sci 40: 4477″“4482.

Steiner RD, Adsit J, Basel D. 1993. COL1A1/2-related Osteogenesis Imperfecta. In GeneReviews (ed. Adam MP, et al.). University of Washington, Seattle, WA.

Stenson PD, Mort M, Ball EV, Shaw K, Phillips A, Cooper DN. 2014. The Human Gene Mutation Database: building a comprehensive mutation repository for clinical and molecular genetics, diagnostic testing and personalized genomic medicine. Hum Genet 133: 1″“9.

Walczak-Sztulpa J, Eggenschwiler J, Osborn D, Brown DA, Emma F, Klingenberg C, Hennekam RC, Torre G, Garshasbi M, Tzschach A, et al. 2010. Cranioectodermal Dysplasia, Sensenbrenner syndrome, is a ciliopathy caused by mutations in the IFT122 gene. Am J Hum Genet 86: 949″“956.

Wang K, Li M, Hakonarson H. 2010. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Res 38: e164.

Wang J, Duncan D, Shi Z, Zhang B. 2013. WEB-based GEne SeT AnaLysis Toolkit (WebGestalt): update 2013. Nucleic Acids Res 41: W77″“W83.

Whirl-Carrillo M, McDonagh EM, Hebert JM, Gong L, Sangkuhl K, Thorn CF, Altman RB, Klein TE. 2012. Pharmacogenomics knowledge for personalized medicine. Clin Pharmacol Ther 92: 414″“417.

Ye K, Schulz MH, Long Q, Apweiler R, Ning Z. 2009. Pindel: a pattern growth approach to detect break points of large deletions and medium sized insertions from paired-end short reads. Bioinformatics 25: 2865″“2871.

Received April 21, 2017; accepted in revised form February 21, 2018.

Este artículo, publicado en Genome Research, está disponible bajo una licencia Creative Commons (Attribution 4.0 International), como se describe en http://creativecommons.org/licenses/by/4.0/.

https://genome.cshlp.org/content/early/2018/03/21/gr.223693.117

Ver más información en: http://www.lulu.com/shop/luis-ruiz-noguez/extraterrestres-ante-las-cámaras-volumen-ii/paperback/product-4984349.html

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.