03 · Genea

O arquivo que a provedora entrega — e o que ela retém.

Quando a 23andMe ou a AncestryDNA fala em "dados brutos", está sendo generosa com o adjetivo. O que chegará ao seu computador já passou por três camadas de processamento proprietário. Os dados brutos de fato — os arquivos de intensidade de fluorescência — ficam na empresa.

O que acontece antes do arquivo chegar a você

O processo começa com a amostra de saliva, que é tratada para extrair DNA, amplificado e fragmentado. O DNA fragmentado é então hibridizado ao chip de microarray — fisicamente, os fragmentos se ligam às sondas complementares imobilizadas no chip. Um scanner lê a intensidade de fluorescência de cada sonda. Esses dados de intensidade, nos formatos .idat (Illumina) ou .CEL (Affymetrix), são os dados brutos reais. Eles ficam com a empresa.

O que você recebe é o output do algoritmo de genotype calling — GenCall (Illumina) ou equivalente — que converteu intensidade fluorescente em genótipo (AA, AG, GG). Esse passo já tomou decisões sobre posições de chamada ambígua, aplicou limiares de qualidade e descartou posições com baixa confiança (no-calls marcados como "--"). Você está recebendo uma interpretação, não um sinal bruto.

Anatomia do arquivo Formato 23andMe v5 · .txt comprimido em .zip

Cabeçalho (linhas com #)

# This data file generated by 23andMe at: ...
# Below is a text version of your data.
# rsid    chromosome    position    genotype

Dados (uma linha por SNP)

rs4477212    1    82154    AA
rs3094315    1    752566   AG
rs3131972    1    752721   AG
i4000755     1    854250   --
rs12562034   1    768448   GG

A linha i4000755 com "--" é um no-call: intensidade insuficiente para determinar o genótipo. A coluna de posição usa o build GRCh37/hg19 na maioria das versões.

O que o arquivo cobre — e o que não

O chip da 23andMe v5 interroga aproximadamente 638.000 SNPs. O genoma humano tem ~3,2 bilhões de pares de base e entre 4 e 5 milhões de SNPs comuns conhecidos. O arquivo representa ~15% dos SNPs comuns — selecionados por valor informativo: alta densidade em regiões com GWAS estabelecido, farmacogenômica de alta relevância, e marcadores de parentesco populacional. Regiões intergênicas sem associação conhecida ficam sistematicamente sub-representadas.

Consequências práticas: variantes raras (frequência <1%) são em grande maioria ausentes. Variantes estruturais (duplicações, deleções, inversões) não são capturadas. A maioria das variantes patogênicas catalogadas no ClinVar só está coberta se a empresa decidiu incluir aquele rsID específico no design do chip — e o design muda entre versões do produto.

O que a empresa retém

Arquivos .idat/.CEL de intensidade (os dados brutos reais). Dados de qualidade de chamada (GenCall scores). Informações sobre posições descartadas por baixa qualidade. A versão do algoritmo de calling aplicada. Você não tem acesso a nada disso — e não há como saber quais decisões foram tomadas sobre posições ambíguas sem esses arquivos.

O que a Synapsis faz com esse arquivo

O arquivo é lido diretamente — sem intermediação de software cosmético da provedora. Cada SNP de interesse farmacogenômico ou clínico é identificado pelo rsID e o genótipo é verificado contra a versão de build correspondente. Para farmacogenômica, isso significa consulta ao PharmGKB, CPIC (Clinical Pharmacogenomics Implementation Consortium) e DPWG para cada variante com anotação clínica. Para risco de doenças, isso significa consulta ao GWAS Catalog e literatura primária para cada SNP com associação replicada. Para parentesco, isso significa leitura dos segmentos IBD com verificação de comprimento e cromossomo.

O que a Synapsis não faz: não roda o arquivo em plataformas de terceiros como Promethease, Xcode Life ou similares e entrega o output como laudo. Isso seria terceirizar a interpretação para um algoritmo não auditável. O laudo é produzido por leitura manual assistida por ferramentas de bioinformática com fontes citáveis.