Detectie van genomische structurele variaties op basis van paired-tag NGS data

Detectie van genomische structurele variaties op basis van paired-tag NGS data • Peter van ‘t Hof

Opbouw presentatie • Structurele Variaties • Pair sequencing • Clustering • Resultaten 2

Structurele Variaties Genome structural variation discovery and genotyping - Can Alkan, Bradley P. Coe and Evan E. Eichler - Nature Reviews Genetics 2011 3

Structurele Variaties Extreem voorbeeld 4

Mate-pair sequencing Libary Prep F R 5

Paired sequencing • Clustering Computational methods for discovering structural variation with next-generation sequencing - P Medvedev1, M Stanciu1 & N Brudno - Nature Methods 2009 6

Insertsize Fragments Size (bp) 7

Huidige programma • Algoritme vindt wel SV’s die bevestigd kunnen worden • Sample van 700M reads duurt 5 dagen • Veel geheugen vereist • Onhandig in gebruik 8

Hoe? • Programmeren in C++ 9

Nieuw programma • Sample van 700M duurt nu +/- 3 uur(single thread) • Sample van 700M duurt +/- 30 min(multi thread, 8 cores) 10

Vergelijking metoude programma 11

Resultaten Homozygote deletie Inversie 12

Resultaten Hetrozygote deletie Homozygote insertie 13

Filter SVcov = pairs coverage SV Ccov = concordant pairs coverage SVcov / Ccov = Relative to concordant 14

Filter SVcov = pairs coverage SV nCcov = non-concordant pairs coverage SVcov / (nCcov - SVcov) = Relative to non-concordant 15

Test set • 70 Mate-Pair samples van het UMC-U • Vorige analyses zijn per sample of per groep gedaan • Mogelijkheid om te kijken naar populatie SV’s • In totaal meer dan 700.000 ongefilterde niet unieke SV’s 16

Filter 17

Filter 18

Populatie SV’s 19

Confirmatie PCR’s Totaal 96 PCR’s welke van 2 kanten gesequenced zijn • 29 SV's met overlap over het breekpunt10 SV's zonder overlap maar wel beide kanten gezien10 SV's zonder overlap en maar één kant gezien 20

Confirmatie PCR’s Totaal 96 PCR’s welke van 2 kanten gesequenced zijn • 14 breekpunten op een inversie welke in een palindromische sequenties33 breekpunten die niet bevestig konden worden 21

Mogelijke vervolg stappen • Sequenties van onbekende inserts bepalen • Combinatie van paired-sequecing met read-depth en split-read SV-call methodes 22

Conclusie • Tot nu toe is het +/- 150x sneller • De ongefilterde resultaten komen overheen met het oude programma • Filter kan groot deel van de false-positives er uit filteren • Programma kan al als vervanging voor het oude programma gebruikt worden 23

Dankwoord • Hubrecht Instituut • Edwin Cuppen • Marieke Simonis • Wim Spee • Sander Boymans • Maarten van Iterson • Sebastiaan van Heesch • Roel Hermsen • Eward Kuijk • Eward de Bruijn UMC Utrecht Wigard Kloosterman Mark van Roosmalen Ivo Renkens Hogeschool Utrecht Anja ter Avest Eva Greiner

Detectie van genomische structurele variaties op basis van paired-tag NGS data