03 · Genea
O arquivo que a provedora entrega — e o que ela retém.
Quando a 23andMe ou a AncestryDNA fala em "dados brutos", está sendo generosa com o adjetivo. O que chegará ao seu computador já passou por três camadas de processamento proprietário. Os dados brutos de fato — os arquivos de intensidade de fluorescência — ficam na empresa.
O que acontece antes do arquivo chegar a você
O processo começa com a amostra de saliva, que é tratada para extrair DNA, amplificado e fragmentado. O DNA fragmentado é então hibridizado ao chip de microarray — fisicamente, os fragmentos se ligam às sondas complementares imobilizadas no chip. Um scanner lê a intensidade de fluorescência de cada sonda. Esses dados de intensidade, nos formatos .idat (Illumina) ou .CEL (Affymetrix), são os dados brutos reais. Eles ficam com a empresa.
O que você recebe é o output do algoritmo de genotype calling — GenCall (Illumina) ou equivalente — que converteu intensidade fluorescente em genótipo (AA, AG, GG). Esse passo já tomou decisões sobre posições de chamada ambígua, aplicou limiares de qualidade e descartou posições com baixa confiança (no-calls marcados como "--"). Você está recebendo uma interpretação, não um sinal bruto.
# This data file generated by 23andMe at: ... # Below is a text version of your data. # rsid chromosome position genotype
rs4477212 1 82154 AA rs3094315 1 752566 AG rs3131972 1 752721 AG i4000755 1 854250 -- rs12562034 1 768448 GG
i4000755 com "--" é um no-call: intensidade insuficiente para determinar o genótipo. A coluna de posição usa o build GRCh37/hg19 na maioria das versões.O que o arquivo cobre — e o que não
O chip da 23andMe v5 interroga aproximadamente 638.000 SNPs. O genoma humano tem ~3,2 bilhões de pares de base e entre 4 e 5 milhões de SNPs comuns conhecidos. O arquivo representa ~15% dos SNPs comuns — selecionados por valor informativo: alta densidade em regiões com GWAS estabelecido, farmacogenômica de alta relevância, e marcadores de parentesco populacional. Regiões intergênicas sem associação conhecida ficam sistematicamente sub-representadas.
Consequências práticas: variantes raras (frequência <1%) são em grande maioria ausentes. Variantes estruturais (duplicações, deleções, inversões) não são capturadas. A maioria das variantes patogênicas catalogadas no ClinVar só está coberta se a empresa decidiu incluir aquele rsID específico no design do chip — e o design muda entre versões do produto.
Arquivos .idat/.CEL de intensidade (os dados brutos reais). Dados de qualidade de chamada (GenCall scores). Informações sobre posições descartadas por baixa qualidade. A versão do algoritmo de calling aplicada. Você não tem acesso a nada disso — e não há como saber quais decisões foram tomadas sobre posições ambíguas sem esses arquivos.
O que a Synapsis faz com esse arquivo
O arquivo é lido diretamente — sem intermediação de software cosmético da provedora. Cada SNP de interesse farmacogenômico ou clínico é identificado pelo rsID e o genótipo é verificado contra a versão de build correspondente. Para farmacogenômica, isso significa consulta ao PharmGKB, CPIC (Clinical Pharmacogenomics Implementation Consortium) e DPWG para cada variante com anotação clínica. Para risco de doenças, isso significa consulta ao GWAS Catalog e literatura primária para cada SNP com associação replicada. Para parentesco, isso significa leitura dos segmentos IBD com verificação de comprimento e cromossomo.
O que a Synapsis não faz: não roda o arquivo em plataformas de terceiros como Promethease, Xcode Life ou similares e entrega o output como laudo. Isso seria terceirizar a interpretação para um algoritmo não auditável. O laudo é produzido por leitura manual assistida por ferramentas de bioinformática com fontes citáveis.