วันพุธที่ 2 มีนาคม พ.ศ. 2554

homework_Haploview

1. จงแสดงค่าสถิติต่าง ๆ ที่ได้จากการนำเข้าข้อมูลที่เตรียมได้ (จากหน้าต่าง check marker) พร้อมอธิบาย
 เริ่มจากดาวน์โหลดและติดตั้งโปรแกรม Haploview4.2 เปิดโปรแกรมและเลือกไฟล์ข้อมูลเป็น
HapMap Format จากนั้นทำการนำเข้าข้อมูลที่จะศึกษา ในที่นี้คือเลือกไฟล์ dumped_region.dat โดย
โปรแกรมมีการติดตั้งค่าตัวแปรมาตั้งแต่ต้น (default parameter) ซึ่งโปรแกรมจะทำการคำนวณเฉพาะสถิติ
pairwise LD สำหรับ marker ที่มีการกำหนดระยะห่างระหว่าง marker ตั้งค่าไว้ที่ 500 kb และจะไม่ทำการ
วิเคราะห์ข้อมูล marker ที่มีผลจีโนไทป์ไม่ถึง 50% (ค่าที่กำหนดไว้สามารถปรับเปลี่ยนได้) จากนั้นโปรแกรม
จะแสดงค่าสถิติต่าง ๆ จากหน้าต่าง check marker ดังนี้

- ObsHET  คือ ค่าที่ได้จากการนับ observed heterozygosity
- PredHET คือ ค่าที่ได้จากการคำนวณ predicted heterozygosity (2*MAF*(1-MAF))
- HWpval  คือ ค่า p value ของ Hardy-Weinberg equilibrium ซึ่งก็คือค่าโอกาสความน่าจะเป็นที่
                   ข้อมูลจีนไทป์นี้จะมีการกระจายตัวที่แตกต่างจาก Hardy-Weinberg equilibrium
- %Geno    คือ ค่าเปอร์เซ็นต์การทำจีโนไทป์ที่ได้ผลในแต่ละ marker
- FamTrio  คือ จำนวนของครอบครัวที่มีผลจีโนไทป์ครบ
- MendErr คือ จำนวนของครอบครัวที่มีผลจีโนไทป์ไม่เป็นไปตามกฎของ Mendel
- MAF       คือ ค่า minor allele frequency ของ marker นี้
- Alleles    คือ แสดง major และ minor ของ allele ที่ตำแหน่ง SNP นั้นๆ
- Rating     คือ ค่าที่จะใช้บอกให้โปรแกรมทำการวิเคราะห์ผลต่อไป เครื่องหมายถูกหน้า marker ใด
                   ที่มีอยู่จะหมายถึง ข้อมูลจีโนไทป์ใน marker นั้นๆ ได้ผ่านการทดสอบหมด และ marker
                   ใดที่ไม่มีเครื่องหมายถูกจะหมายถึงข้อมูลจีโนไทป์ใน marker นั้นๆไม่ผ่านการทดสอบ
                   ด้วยวิธีใดวิธีหนึ่ง

รูปที่1 แสดงหน้าต่าง check marker ที่กำหนดค่า HW p-value cutoff ที่ 0.0010, ค่า mimimun genotype% ที่
75, ค่า maximum mendel errors เป็น1 และค่า minimum minor allele frequency เป็น 0.0010

             จากรูปที่ 1 จะเห็นว่า
1. มี 52 markers ที่มีค่า HWpval มากกว่า 0.0010
2. มี 7 markers ที่มีค่า MAF(minimum minor allele frequency) น้อยกว่า 0.0010 ซึ่งแสดงด้วยตัวเลขสีแดง
3. มี 19 markers ที่มีค่า %Geno (ค่าเปอร์เซ็นต์การทำจีโนไทป์ที่ได้ผลในแต่ละ marker) น้อยกว่า 75 ซึ่งแสดง
เป็นตัวเลขสีแดง
4. มี 19 markers ที่ไม่มีเครื่องหมายถูกที่ค่า Rating (นั่นคือ marker นั้นๆไม่ผ่านการทดสอบด้วยวิธีใดวิธีหนึ่ง
หรือไม่ผ่านค่าที่กำหนดไว้) ซึ่งโปรแกรมจะไม่นำ markers นั้นๆ มาทำการวิเคราะห์ผลต่อไป
             เมื่อทำการกำหนดค่า HW p-value cutoff ที่ 0.0500 พบว่าผลที่ได้จากโปรแกรมเป็นดังรูปที่ 2


รูปที่ 2 แสดงหน้าต่าง check marker ที่กำหนดค่า HW p-value cutoff ที่ 0.0500, ค่า mimimun genotype% ที่
75, ค่า maximum mendel errors เป็น1 และค่า minimum minor allele frequency เป็น 0.0010

             จากรูปที่ 2 จะเห็นว่า 52 markers ที่มีค่า HWpval มากกว่า 0.0010 (ในรูปที่ 1) เมื่อกำหนดค่า
HW p-value cutoff ที่ 0.0500 พบว่า มี 9 markers ที่มีค่า HWpval น้อยกว่า 0.0500 ซึ่งแสดงเป็นตัวเลขสีแดง
ส่งผลให้ มี markers ที่ไม่มีเครื่องหมายถูกที่ค่า Rating เพิ่มขึ้นจาก 19 markers เป็น 28 markers ซึ่งโปรแกรม
จะไม่นำ 28 markers นั้นๆ มาทำการวิเคราะห์ผลต่อ นั่นคือ มี 24 markers ที่มีเครื่องหมายถูกที่ค่า Rating ซึ่ง
โปรแกรมจะนำ 24 markers นั้นๆ มาทำการวิเคราะห์ผล


2. แสดงภาพ linkage disequilibrium map พร้อมอธิบาย
             linkage disequilibrium map (LD map) จะแสดงในแถบ LD plot (กดเลือก แถบ LD Plot) ซึ่งเป็น
การศึกษาว่า marker ที่อยู่ใกล้กันมีโอกาสถ่ายทอดไปด้วยกันมากกว่าหรือน้อยกว่าค่าคาดหวังซึ่งพิจารณาจาก
ค่า Lewontin’s coefficient (D’) ที่คำนวณจากระยะทางและความถี่อัลลีลของแต่ละคู่สนิปส์ หากค่า D’
มากกว่า 0.8 หมายความว่ามีการถ่ายทอดไปด้วยกันของคู่ marker ซึ่งการสร้างบล็อกมาจากการเลือก
พารามิเตอร์ solid spine โดยโปรแกรมจะเลือกตำแหน่งที่มีการถ่ายทอดไปด้วยกันสูง (strong LD) ของ
สนิปส์ตัวแรกและตัวสุดท้ายใน LD chart และสนิปส์ที่อยู่ใน LD จะเรียกว่า haplotype block ซึ่งสีในแต่ละ
block จะแสดงผลการศึกษาค่า LD ข้างต้น แสดงดังตารางที่1
ตารางที่1 แสดงสีซึ่งบอกการถ่ายทอดไปด้วยกันของค่า LD (Standard Color Scheme)

D’<1
D’=1
LOD<2
White
Blue
LOD>2
Shades of pink/red
Bright red

หมายเหตุ LOD เป็นค่า log of the likelihood odds ratio
                  D’ เป็นค่า the value of D’ between the two loci


รูปที่ 3 แสดงภาพ linkage disequilibrium map

               จากรูปที่ 3 จะเห็นว่า มีการแบ่งออกเป็น 4 บล็อก มีขนาดที่แตกต่างกันไป ดังนี้
บล็อกที่ 1 มี SNP 2 ตำแหน่ง
บล็อกที่ 2 มีขนาดใหญ่ที่สุดมี SNP 8 ตำแหน่ง
บล็อกที่ 3 มีขนาดเล็กที่สุดมี SNP 2 ตำแหน่ง
บล็อกที่ 4 มี SNP 6 ตำแหน่ง


3. แสดงภาพ Haplotype block พร้อมอธิบาย
               Haplotype blocks จะแสดงในแถบ haplotype
รูปที่ 4 แสดงภาพ Haplotype block
               จากรูปที่ 4 จะเห็นว่า พบ haplotype block ทั้งหมด 4 บล็อก โดยในบล็อกที่ 1 มี SNP 2 ตำแหน่ง 3
รูปแบบ ในบล็อกที่ 2 มี SNP 8 ตำแหน่ง 6 รูปแบบ ในบล็อกที่ 3 มี SNP 2 ตำแหน่ง 2 รูปแบบ และในบล็อก
ที่ 4 มี SNP 6 ตำแหน่ง 4 รูปแบบ ซึ่งสอดคล้องกับภาพ linkage disequilibrium map(ในข้อที่3)โดย haplotype
block แต่ละกลุ่มมีขนาดแตกต่างกันขึ้นกับปัจจัยคือ การเกิดรีคอมบิเนชั่น (recombination) ในขั้นตอนของ
การสร้างเซลล์สืบพันธุ์ในกระบวนการแบ่งนิวเคลียสแบบไมโอซิส ทำให้ SNP ที่อยู่ติดกันมีโอกาสที่จะถูก
ถ่ายทอดไปด้วยกันน้อยลง ส่งผลให้เมื่อเวลาผ่านไปหลายชั่วอายุคน haplotype block มีขนาดเล็กลง โดย
โปรแกรมจะคำนวณโอกาสที่จะเกิด recombinant ในแต่ละบล็อกให้ด้วย เช่น ในบล็อกที่1 มีโอกาสที่จะเป็น
AC เท่ากับ 45.8%, มีโอกาสที่จะเป็น CT เท่ากับ 31.0% และมีโอกาสที่จะเป็น AT เท่ากับ 23.2%
จากรูปที่ 4 โอกาสการเกิด recombinant มีได้ 24 แบบ โดยมีรูปแบบดังนี้

1. AC TTACCTAG AC CCCAAG

2. AC TTACCTAG AC TCTACT

3. AC TTACCTAG AC CCCGAG

4. CT TTACCTGG AC CCCAAG

5. CT TTACCTGG AC TCTACT

6. CT TTACCTGG AC CCCGAG

7. CT TTACCTGG GT CTCAAG

8. AT TTACCTAG AC CCCAAG

9. AT TTACCTAG AC TCTACT

10. AT TTACCTAG AC CCCGAG

11. AT TTACCTAG GT CTCAAG

12. AT CCCTTCGT AC CCCAAG

13. AT CCCTTCGT AC TCTACT

14. AT CCCTTCGT AC CCCGAG

15. AT CCATTCGT AC CCCAAG

16. AT CCATTCGT AC TCTACT

17. AT CCATTCGT AC CCCGAG

18. AT CCCTTCGG AC CCCAAG

19. AT CCCTTCGG AC TCTACT

20. AT CCCTTCGG AC CCCGAG

21. AT CCCTTCGG GT CTCAAG

22. AT TCATTTGG AC CCCAAG

23. AT TCATTTGG AC TCTACT

24. AT TCATTTGG AC CCCGAG


รายชื่อสมาชิกในกลุ่ม
1. นางสาวธันย์ณิชา ชำนาญป่า  5214402660
2. นางสาวสโรชา     ชูช่วย           5214400705
3. นายกีรติชัยนันต์  จรรยาเพศ   5314400286
4. นางสาวสุภาวดี  มนัสวีระพร     5314400472
5. นางสาววีราวัลย์ ปรีชาสิทธิคุณ 5214402686
6. นางสาวสิรินัดดา   ร่วมพร         5214402708

วันอังคารที่ 1 มีนาคม พ.ศ. 2554

การบ้าน Bioinformatics (01416554) Haploview assignment


การบ้าน Bioinformatics (01416554)

Haploview assignment

เสนอ

ร.ศ. ดร. วสันต์ จันทราทิตย์

จัดทำโดย





นางสาวหทัยรัตน์ ราชนิยม
5217400412
นายปาณัสม์ พูลสวัสดิ์
5314400995
นายอภิศักดิ์ หลักฐาน
5314401100
นางสาวอรสิริ ศิริพันธุ์
5314401118
นายวรรัตน์ เครือสุวรรณ์
5317400201


รายงานนี้เป็นส่วนหนึ่งของรายวิชา 01416554 Bioinformatics
ภาคเรียนที่ 2 ปีการศึกษา 2553

มหาวิทยาลัยเกษตรศาสตร์


1. จงแสดงค่าสถิติต่างที่ได้จากการนำเข้าข้อมูลที่เตรียมได้ (จากหน้าต่าง check marker) พร้อมอธิบาย

ภาพที่ 1 ผลการคัดเลือกข้อมูลจีโนไทป์ที่มีการการกระจายแบบสมดุลตามกฎของ Hardy-Weinberg (p>0.05)
ในการศึกษาแบบ population base case control กลุ่มควบคุมที่ใช้ในการศึกษาต้องตรวจสอบการกระจายของจีโนไทป์ให้เป็นไปตามทฤษฎีสมดุลของฮาร์ดี-ไวน์เบิร์ก (p>0.05) คือ ในประชากรใดๆ ต้องมีความถี่ของจีโนไทป์คงที่ในทุกรุ่น ถ้าความถี่ของจีโนไทป์ในกลุ่มควบคุมใดที่มีค่า P<0.05 เราจะไม่นากลุ่มควบคุมนั้นมาใช้ในการศึกษา เนื่องจากพบความถี่ของจีโนไทป์แบบใดแบบหนึ่งมากเกินไป ส่งผลให้ผลบวกปลอมจากกลุ่มควบคุมข้างต้นได้ จากตำแหน่งของสนิปส์ทั้งหมด 52 ตาแหน่ง เมื่อตั้งค่า HW p-value cutoff ของโปรแกรมเป็น 0.05 หรือค่าโอกาสความน่าจะเป็นที่ข้อมูลจีโนไทป์นี้มีการกระจายแบบสมดุลตามทฤษฎีสมดุลของฮาร์ดี-ไวน์เบิร์กพบว่า สนิปส์ 9 ตาแหน่ง (กรอบสีเขียว) มีค่า P<0.05 ซึ่งหมายถึง ข้อมูลสนิปส์ ทั้ง 9 ตาแหน่งมี case/control ratios ของสนิปส์แตกต่างกันอย่างมีนัยสำคัญทางสถิติ ดังนั้นข้อมูลสนิปส์ที่มีการกระจายแบบสมดุลทั้งหมด 24 ตำแหน่งที่เหลือจะถูกนำมาศึกษาว่าเครื่องหมายพันธุกรรมที่อยู่ใกล้กันมีโอกาสถ่ายทอดไปด้วยกันมากกว่าหรือน้อยกว่าค่าคาดหวัง

2. แสดงภาพ linkage disequilibrium map พร้อมอธิบาย

ภาพที่ 2 แผนที่การถ่ายทอดไปด้วยกัน (Linkage disequilibrium ; LD) โดยใช้โปรแกรม Haploview การถ่ายทอดไปด้วยกันพิจารณาจากค่า D’≥ 0.8

การวิเคราะห์หา Linkage disequilibrium (LD) เพื่อศึกษาการถ่ายทอดอัลลีลที่อยู่คนละตำแหน่งบนโครโมโซมเดียวกัน ซึ่งมีโอกาสที่จะถ่ายทอดจากรุ่นหนึ่งไปยังรุ่นหนึ่งด้วยกัน ปรากฎการณ์ที่สนิปส์หลายตำแหน่งถูกถ่ายทอดไปด้วยกันในกลุ่มประชากรพบบ่อยกว่าการที่พบโดยบังเอิญ เรียกกลุ่มของสนิปส์เหล่านี้ว่า Linkage disequilibrium ต่อกัน ดังนั้นการศึกษาแฮพโพลไทป์จึงมีความน่าเชื่อถือในการวิเคราะห์หาความสัมพันธ์กับการเกิดโรคมากกว่าการศึกษาสนิปส์แค่ตำแหน่งเดียว จากข้อมูลสนิปส์จำนวน 24 ตำแหน่งที่ศึกษาว่าเครื่องหมายพันธุกรรมที่อยู่ใกล้กันมีโอกาสถ่ายทอดไปด้วยกันมากกว่าหรือน้อยกว่าค่าคาดหวังพบว่า สามารถแบ่งได้เป็น 4 กลุ่ม ดังแสดงตามภาพที่ 2 โดยที่เครื่องหมายพันธุกรรมที่อยู่ใกล้กันมีโอกาสถ่ายทอดไปด้วยกันมากกว่าหรือน้อยกว่าค่าคาดหวังนั้นจะพิจารณาจากค่า Lewontin’s coefficience (D’) ที่คำนวณจากระยะทางและความถี่อัลลีลของแต่ละคู่สนิปส์ การสร้างบล็อกมาจากการเลือกพารามิเตอร์ solid spin ซึ่งโปรแกรมจะเลือกตำแหน่งที่มีการถ่ายทอดไปด้วยกันสูง (strong LD) ของสนิปส์ตัวแรกและตัวสุดท้ายใน LD chart และสนิปส์ที่อยู่ใน LD เรียกว่า haplotype block ซึ่งสีในแต่ละบล็อกจะแสดงผลการศึกษาค่า LD ข้างต้น ทั้งนี้ 4 กลุ่มของเครื่องหมายพันธุกรรมแบ่งเป็น กลุ่มที่ 1 มีสนิปส์จำนวน 2 ตำแหน่ง (rs2099361และ rs8100458) มีความยาวประมาณ 1 กิโลเบส กลุ่มที่ 2 มี 7 ตำแหน่ง (rs1872125, rs8101756, rs7250601, rs7250745, rs16974799, rs10500282, rs11672911 และ rs3745274) มีความยาว 11 กิโลเบส กลุ่มที่ 3 มี 2 ตำแหน่ง (rs2279344 และ rs2279345) และกลุ่มที่ 4 มี 6 ตำแหน่ง (rs2306606, rs6508965, rs8192719, rs11882450, rs11673270 และ rs10853744) มีความยาว 5 กิโลเบส ตามลำดับ

3. แสดงภาพ Haplotype block พร้อมอธิบาย

ภาพที่ 3 ผลของ Haplotype block ที่ได้จากการวิเคราะห์ด้วยโปรแกรม Haploview

จากการวิเคราะห์ด้วยโปรแกรม Haploview พบว่า ขนาดของ haplotype block ขึ้นกับปัจจัยที่สำคัญ คือ การเกิดรีคอมบิเนชั่น (recombination) ในขั้นตอนของการสร้างเซลล์สืบพันธุ์หรือไมโอซิส (meiosis) ทำให้ SNP ที่อยู่ติดกันมีโอกาสน้อยลงที่จะถูกถ่ายทอดไปด้วยกัน นั่นคือ ขนาดของ haplotype block จะเล็กลงเมื่อเวลาผ่านไปหลายชั่วอายุคน จากการวิเคราะห์ด้วยโปรแกรม Haploview พบ haplotype block ทั้ง 4 กลุ่ม คือ