發布日期:2018-03-28
家譜在遺傳學、人類學、經濟學等多個領域有著廣泛的應用。然而,擴展家譜的收集是繁瑣的,且通常依賴于有限地理范圍和有使用權限的復雜數據資源。近日,一項發表在《科學》雜志上的研究報告稱,利用家譜網站上公開的在線數據收集到了千萬規模人口的家譜。
Cienpies Design/Alamy
研究人員首先從Geni.com(該網站為全球最大的合作家譜網站之一,用戶在Geni上分享他們的家譜)那里獲得了8600萬條記錄(其中4300萬有家族信息)。其使用自動化管道刪除任何無效拓撲(例如擁有兩個以上父母的個人)。這種自動化方法與系譜學家在關于無效拓撲的決策上擁有90%以上的一致性。數據集中最大的一個家譜包括1300萬人,在創始人和他們的后代之間平均跨越了11代。通過評價線粒體DNA (母系傳遞)和Y染色體短串聯重復序列(父系傳遞)等單系標記的遺傳分離模式,也證實了家譜質量的真實。
接下來,作者從在線檔案中提取人口統計數據(包括出生和死亡日期以及個人的地理位置)。通過關聯相關歷史事件(例如,重要戰爭中死亡率上升),對平均壽命與歷史數據進行密切匹配,分析并證實人口出生和死亡期,進一步得出主要城市中個人的首次歷史出現與其建立日期相一致,從而確定了位置數據的準確性。
作者還創建了一個模型來檢測遺傳變異(包括可加性,優勢,上位性等)對長壽的影響,該模型表現出了使用全基因組關聯研究難以解剖的復雜遺傳學。對300萬對親屬壽命的分析揭示遺傳成分具有顯著的加性(約16%),顯性貢獻率較低(2~4%),沒有檢測到上位性,(表明基因對長壽的作用可能比科學家們想象的小)。這些新數據中的加性遺傳因素低于先前的估計值(約25%),表明致力于從基因組數據中檢測致病基因的遺傳變異以尋求長壽基因可能比預期的更困難。
此外,作者使用他們的數據集來分析人類遷徙模式時,發現西方社會中的女性移民比男性多,盡管都是短距離遷移。因此,作者推測,大規模的跨國移民活動可能更多的涉及男性而不是女性。
作者通過分析婚姻半徑(配偶出生地之間的距離)—隨著它的增加,根據“隔離距離”理論可預測會導致夫妻遺傳相關性降低。在當時主要的社會政治事件中,平均婚姻半徑也如預期的那樣發生了變化,例如在1750年和1870年工業革命出現后婚姻半徑增長。有趣的是,在1800年之后,婚姻半徑的增加和夫妻的基因相關性下降之間存在50年的延遲,在此期間,盡管距離越來越遠,但是個人繼續與親戚結婚。作者將這種現象歸因于文化規范的改變,(而不是19世紀早期遠程交通的出現)。
這項研究證明了研究人員和公眾之間(通過在線數據庫)合作的有效性。在將基因組測序數據覆蓋到這些譜系上之后,用這種方法建立的龐大家系將有助于對遺傳學和公共健康方面的定量評估。
參考資料:
Human genetics: Population-scale family trees from publicly available data
來源:生物探索