Takže DNArtwork #7: jak to funguje?

Link: http://blog.berniesumption.com/software/dnartwork-how-it-works/

 
Tento článek je součástí série dokumentující můj projekt, aby se umělecká díla ze DNA. V minulý článek jsem předváděl to, co umělecké dílo vypadá. V tomto příspěvku vysvětlím, jak jsem se analyzovat individuální DNA extrahovat informace potřebné pro umělecká díla.

To bude docela technické, ale snažil jsem se zahrnout dostatek informací, že zájem laik může pochopit, že moc, možná s trochou googlování.

Stručná rekapitulace. Zpátky na začátku tohoto projektu jsem rozhodl, že můj genetický díla se bude skládat z několika různých tvarů. Více souvisejících dva lidé jsou, tím více objektů, objeví se v jejich uměleckých děl. Podívejte se na tyto dvě umělecká díla:

dnart-vztahu-composite

Každý z 12 tvarů má jedinečnou osobnost a může být snadno odlišit od ostatních. Pár vteřin při pohledu na obě díla výše a můžete vidět, že některé tvary se objevují ve stejné pozici v obou děl (např. levé horní tvar) a některé jsou jedinečné pro každého (vlevo dole tvar). To je to, co byste očekávat, že umělecká díla ze dvou sourozenců vypadat.

Řekněme, že máme sbírku deseti tisíc unikátních tvarů, které mají každý dostatečně výraznou osobnost, že je snadné rozpoznat, kdy stejný tvar se objeví ve dvou obrazech. Přesně, jak jsme se vytvořit tyto tvary je téma pro další příspěvek. Úkol je, aby se vaše DNA a vařte do seznamu čísel mezi 1 a 10 000, tak, že budete sdílet více čísel s blízkými příbuznými než s nepříbuzného člověka.

Tomuhle říkám seznam čísel, DNArtwork podpis. Je to bezpečné, aby sdílet veřejně, protože to neobsahuje žádné citlivé informace, s výjimkou, samozřejmě, že pokud dva lidé sdílet své DNArtwork podpisy pak si můžete říct, jak související jsou. Tady to máš, tady je moje:

9083, 2302, 1083, 1735, 5474, 1728, 9925, 1231, 95, 7831, 1526, 1505, 729, 4866, 3778, 2161, 20, 8178, 3972, 3103, 9332, 9859, 9757

Můj algoritmus pro vytváření DNArwork podpis je, pokud vím, jediné opravdu originální nápad, který jsem přispěl na tento projekt, a to je to, co odlišuje tento projekt odlišuje od ostatních kresby vytvořené z DNA.

Část 1: rychlý nátěr na SNP genetiky

Abychom pochopili, popis DNArtwork signature algorithm později v tomto článku, musíte znát některé základní informace o DNA. Pokud si myslíte, že SNP je zkratka pro Skotské Národní Strany, pak byste si měli přečíst tuto sekci.

DNA je obrovská molekula vyrobená z řetězce menších molekul zvaných nukleotidy. K dispozici jsou 4 nukleotidů: Adenin, Cytosin, Guanin a Thymin, označované jako A, C, G a T. Každý nukleotid je o 13 atomů ve velikosti, myslím, že z nich jako dopisy, které hláskovat věty v zakódované genetické jazyk.

Váš genom je asi 3 miliardy písmen dlouhé a rozdělené do 23 délek DNA, které se nazývají chromosomy. Chromozomy jsou dostatečně velké, že je můžeme vidět pod mikroskopem, a vypadají takto:

humanchromosomeschromomycina3

Protože DNA molekuly jsou spojité řetězce písmen, je možné identifikovat pozici na chromozomu počítání od jednoho konce chromozomu, takže například na pozici 8,907,307 na chromozomu 3 máte A. Tato pozice se nazývá locus, loci nebo v množném čísle. Každý chromozom je přibližně symetrické, které mají dvě kopie své DNA. Jedna kopie pochází od matky a druhá od otce, a jsou to téměř shodné. Ve skutečnosti, vaše DNA sekvence je téměř totožný s každý jiný člověk – a jen asi v 300 lokusů bylo zjištěno, že se liší mezi jednotlivci.

Dříve jsem vám řekl, že na pozici 8,907,307 na chromozomu 3 máte, a já jsem mohl dělat to, protože pozice 8,907,307 na chromozomu 3 je jeden z těch nudných míst, které má vždy stejné písmeno u lidí. Každý má, a proto nikoho nenapadlo nazývat tento locus nic jiného, než “pozice 8,907,307 na chromozomu 3”. Locus vedle však je jiné zvíře. Pozice 8,907,308 na chromozomu 3 má “jednonukleotidový Polymorfismus” nebo SNP pro krátké, což znamená, že bylo zjištěno, že být různé mezi některými lidmi. Tento konkrétní místo může mít buď A nebo G, které jsou označovány jako dvě možné alely. Vzhledem k tomu, máte dvě kopie své DNA, jednu od každého rodiče, můžete mít buď dva, dva Gs, nebo jeden z každého. To dělá locus natolik zajímavé, že vědci dali to jadrný název rs180498, aby je zachránil od nutnosti říct, “pozice 8,907,308 na chromozomu 3”.

Jako většina Snp, nemáme tušení, co rs180498, nebo pokud to něco udělá, tak to má extrémně nudné vstup v SNPedia. Některé Modifikace jsou více zajímavé, jako rs1815739, který může udělat lepší sprinter, nebo rs7495174, která může změnit barvu očí.

Je to vzácné, že obě alely z SNP bude stejně časté. Častější alela se nazývá major alela a méně časté, minor alela. V případě naší nudné SNP rs180498, minor alela je s frekvencí 0.167, což znamená, že 16,7% DNA bude mít a zbývající 88.3% bude mít G. Tyto frekvenční údaje jsou průměry, a mohou se lišit mezi populacemi. Ve skutečnosti, naše nudné alela rs180498/A má frekvenci 13% mezi západními Evropany a 41% mezi Japonci, podle 1000 Genomů projektu.

Na DNArtwork podpis algoritmus spoléhá na hledání pro relativně vzácné alely – ty s menší alely frekvence kolem 2%. Já říkám tyto “markerové alely”, protože s jedním je charakteristickým rysem vašeho genomu, které mohou být použity k odlišení od ostatních.

OK, nyní víte dost o DNA sledovat, jak DNArtwork podpis algoritmus funguje.

Část 2: DNArtwork Podpis Algoritmus

Algoritmus se skládá z přípravné fáze, které se provádí jednou předtím, než někdo je testován, pak fáze analýzy, která se provádí na DNA a vytvářet si tak svůj DNArtwork podpis.

Příprava fáze

Generovat seznam “markerové alely” – Modifikace s nízkou menší četnosti alel napříč všemi etniky. Používám tyto kroky:

  1. N délka seznamu čísel, která je DNArtwork podpis a M být maximální hodnota každého čísla. Tyto budou vybrány na základě tvůrčí požadavky projektu, a pro můj projekt N=23 a M=4600, protože každé umělecké dílo má 23 tvarů, a tam jsou 4600 různých možných tvarů.
  2. Začněte s sady Snp, které jsou testovány všechny genetické testování společností, že projekt musí podporovat. V mém případě je to 23andme, ancestry.com a Národní Genographic. Všechny tyto společnosti test mírně odlišnou sadu Snp, ale existuje velké překrytí.
  3. na základě populační frekvence dat od 1000 Genomů projektu prostřednictvím HapMap, zlikvidujte všechny Modifikace s menší frekvenci alel méně než 1% v jakékoliv národnosti. Je to proto, že testy DNA nejsou dokonale přesné, takže vzácnější alela je více pravděpodobné, že jeho vzhled ve vašich výsledcích je testovací chyba není skutečný výsledek. To je Bayesova Věta a je důležitým aspektem při testování pro vzácná onemocnění.
  4. v Případě N=23 pak použít skutečné chromosomy pro tento proces. Jinak rozdělit genom do N stejnou délku úseků a zvážit tyto “chromozomy” pro účely zbytek tento algoritmus.
  5. Druh alely na každém chromozomu nejvyšší drobné alel v každém HapMap populace, s vzácnější alely první. Pomocí nejvyšší frekvence je důležité – pokud jsme použili průměrné frekvenci, můžeme skončit s markery, které jsou vzácné v průměru, ale velmi běžné mezi Korejci například tak, že každý korejský osoba bude předvídatelně sdílet číslo v jejich DNArtwork podpis.
  6. první M÷N alely od každého chromozomu.
  7. Vypočítejte pravděpodobnost, že jedinec se nezdaří, mít nějakou značku alel alespoň pro jeden chromozom. * Pokud tato pravděpodobnost je nepřijatelně vysoká, a to buď zvýšit M nebo se vrátit na krok 6, ale vzít každý druhý alelu, nebo každý třetí alela, nebo každý n-tý alela s cílem začlenit více společných znaků.
  8. Náhodně přiřadit identifikátor čísla mezi 1 a M pro každou alelu, tak, že každé číslo se používá pro přesně jednu alelu. Tato randomizace znamená, že i když všechna čísla jsou stejně časté, čísla jsou alespoň přibližně rovnoměrně rozděleny mezi 1 a M.

Použití distinct M a N hodnoty a náhodné přiřazení identifikační číslo znamená, že DNArtwork podpisy nejsou srovnatelné mezi kreativní projekty, které používají tento algoritmus, pokud by spolupracovali sdílet přípravné fáze algoritmu.

* Při kombinaci pravděpodobnosti nezávislé, pokud pravděpodobnost událost se děje na příležitost je P, šance, že se to děje dvakrát ve dvou po sobě jdoucích příležitostí je P2. Možnost jakékoliv individuální nemají konkrétní značku alela je 1-frekvence, takže šance, že jedinec nemá žádnou značku, je produktem 1-frekvence pro každý marker na chromozomu. Například, pokud máte 200 značky, každý s frekvencí 0.02, pak je šance tím, že mají jeden marker je 1-0.02 = 0.98 = 98%, a šanci tím, že mají všechny 200 markerů je 0.98200 = 0.018 = 1.8%.

Analýza fáze

Dané téma je DNA testů:

  1. Provést ověření na souboru výsledků se ujistěte se, že obsahuje citlivá data. V mém případě jsem zkontrolovat, že soubor nemá platný výsledek pro alespoň 50% značky alely Snp. Nižší hodnoty mohou signalizovat poškození vstupního souboru, kontaminované nebo non-lidské DNA, používá se pro testování, laboratorní chybu, nebo na kteroukoli další fun fun příčiny selhání, že DNA testování společností budou muset vypořádat s na denní bázi.
  2. výsledky pro chromozom 1
  3. procházejte seznam markerové alely, dokud nenajdete SNP, na němž má alespoň jednu kopii minor alela.
  4. Pokud se dostanete na konec seznamu, a nejsou tam žádné odpovídající alely, vyberte poslední alely na seznamu. To by se stalo jen velmi zřídka*.
  5. Připojit identifikátor, že alela na DNArtwork podpis seznamu.
  6. Udělat to samé pro zbytek chromozomů, dokud máte seznam N čísel

Skutečný svět výkon

Personal Genome Project je sbírka výsledky testování DNA, laskavě vydané veřejnosti ve prospěch výzkumných pracovníků. Obsahuje stovky jedinců, a pár úplné rodiny.

Za prvé, stáhnul jsem si výsledky testů DNA z 30 lidí a generované genetickým podpisů pro každou z nich. Podíval jsem se na značku alel, které se objevily častěji, než bych čekala náhodou. Kdyby každý člověk má jedinečnou sadu 23 čísla, musel bych 23 × 30 = 690 odlišné čísla. Ve skutečnosti jsem měl 263, což znamená, že každé číslo se objeví asi 2,5 krát mezi 30 subjektů. Nejčastější číslo se objevilo v 30% jedinců, ale existuje poměrně málo z těchto běžných čísel: a 90% z čísla se objeví v méně než 10% pacientů. Byl jsem šťastný s těmito čísly. Některé příliš společného čísla lze očekávat od mého menší frekvenci alel data jsou založena na 1000 Genomů projekt, který poskytuje pouze odhad skutečné globální frekvence. Důležité zde je, že neexistují žádná čísla, která spolehlivě objeví ve většině předmětů.

Za druhé, jsem stáhnout dva ukázkové rodiny, jeden rodič má dvě děti a jeden prarodič, rodič, dítě trio. V průměru, tyto členy rodiny sdílené 40% jejich podpis čísla s blízkými členy rodiny, a jak se očekávalo prarodič/vnouče pár podělil o trochu méně – 30%. Mezi rodinami, předměty sdílené 15% z jejich počtu. Protože obě rodiny byly západní předky Američanů, některé příbuznosti není neočekávané. Znovu, jsem docela spokojený s těmito čísly.

Patent / autorské prohlášení

Pokud můžu říct, tak v rámci UK a práva EU, algoritmy nejsou předmětem autorského práva a není nárok na patentovou ochranu. Proto nemám žádný problém s nikým vytvoření softwarové implementace algoritmu na základě popisu v tomto článku.

Jeden účel publikování tohoto algoritmu je definovat některé předchozí umění, měl by se o to někdo pokusil prosadit vlastnictví je v budoucnosti. Tento algoritmus byl vyvinut nezávisle na sobě podle mě (Bernie Spotřebu) v srpnu 2013, první implementovány v softwaru v srpnu 2016 a zveřejněny (v tomto článku) na 14. prosince 2016.