01 · Genea
Parentesco não é ancestralidade.
O coeficiente de parentesco genético é uma estatística. A ancestralidade é uma cadeia histórica de descendência documentada. O mercado vende a primeira como se fosse a segunda — e a confusão é deliberada, não acidental.
O que é parentesco genético
O microarray gera um perfil de SNPs — uma sequência de genótipos em posições polimórficas específicas do genoma. O parentesco genético é calculado pela comparação desse perfil com o de outra pessoa: quantos segmentos idênticos por descendência (IBD — identical by descent) os dois compartilham, e qual é o comprimento total desses segmentos em centimorgans (cM). Um primo de primeiro grau compartilha em média ~12,5% do genoma, o que corresponde a aproximadamente 850 cM. Um irmão completo, ~50%, ou ~3.500 cM. Esses números têm desvio padrão considerável — a herança mendeliana é estocástica, não determinística.
O que centimorgans medem — e o que não medem
O centimorgan é uma unidade de distância genética baseada em frequência de recombinação, não em distância física em pares de base. 1 cM ≈ 1% de probabilidade de recombinação por geração entre dois loci. Um segmento de 7 cM compartilhado entre dois indivíduos indica descendência de um ancestral comum recente com alguma probabilidade — mas essa probabilidade cai rapidamente com a distância geracional.
O problema crítico: segmentos curtos (<7 cM) são frequentemente falsos positivos — idênticos por estado (IBS, identical by state), não por descendência. Isso significa que duas pessoas sem nenhum ancestral comum recente podem compartilhar segmentos curtos simplesmente por pertencerem à mesma população. As ferramentas de genealogia genética filtram segmentos abaixo de limiares variáveis (GEDmatch usa 7 cM, outras usam 10), mas o usuário comum não sabe disso.
Um total de 20 cM compartilhados em 10 segmentos de 2 cM cada é essencialmente ruído estatístico. O mesmo total em 2 segmentos de 10 cM é sinal real. A provedora raramente explica essa distinção. Você precisa saber verificar o número de segmentos, o comprimento de cada um e em quais cromossomos estão.
Por que o resultado muda entre provedoras
Cada empresa mantém um painel de referência proprietário — conjuntos de genótipos de populações amostradas, usados como baseline para estimar "etnicidade." Esses painéis diferem em tamanho, composição e metodologia de clustering. A AncestryDNA usa um painel de >50.000 indivíduos de referência em 70+ grupos. A 23andMe usa metodologia distinta com grupos diferentes. O resultado é que a mesma amostra pode receber 40% "Europeu Ibérico" na AncestryDNA e 35% "Espanhol e Português" na 23andMe — não porque o DNA mudou, mas porque os clusters de referência são diferentes.
Mais grave: os painéis são atualizados periodicamente, e o resultado de "etnicidade" de um usuário pode mudar sem que seu DNA mude. Isso não é um bug — é o comportamento esperado de uma estimativa probabilística sobre dados de referência em expansão. O problema é que a empresa comunica isso como "sua ancestralidade" e não como "sua posição atual no nosso modelo de clustering."
O que é ancestralidade de fato
Ancestralidade é a cadeia documentada de descendência biológica através de linhagens identificáveis. Exige registros genealógicos — certidões, registros paroquiais, documentação de imigração, inventários. Uma análise de SNPs pode sugerir que você tem ancestral recente com perfil genético associado a determinada região geográfica; não pode nomear esse ancestral, não pode determinar quando viveu, e não pode estabelecer a linhagem entre ele e você. A genômica informa sobre populações, não sobre indivíduos históricos específicos.
Coeficiente de parentesco genético: o que o microarray mede. Declaração de ancestralidade: o que a empresa vende. São objetos epistemicamente distintos. A Synapsis usa o primeiro. Não vende o segundo.
Como usar centimorgans corretamente
O uso correto de cM em genealogia genética envolve: verificar o número total de segmentos e o comprimento de cada um individualmente; cruzar com a lista de cromossomos afetados; comparar com tabelas de distribuição esperada para cada grau de parentesco (ISOGG Autosomal DNA Statistics); triangular com outros matches que compartilham o mesmo segmento; e complementar com documentação genealógica para confirmar a hipótese de parentesco. Um match de 120 cM em 8 segmentos longos tem interpretação radicalmente diferente de 120 cM em 40 segmentos curtos. A Synapsis faz essa distinção no laudo. O software das provedoras, não.