Bạn có biết: Các gen được đặt tên như thế nào?

Mục lục

1. 1. Đặt tên cho các điều kiện di truyền
2. 2. Gen được đặt tên thế nào?
3. Đánh giá

Gen là đơn vị vật lý và chức năng cơ bản của tính di truyền được tạo thành từ ADN. Ước tính rằng số lượng gen trong cơ thể người từ 20.000 đến 25.000 gen. Chính vì số lượng gen nhiều như vậy, để tiện cho việc theo dõi và nghiên cứu, các nhà khoa học đã đặt tên cho gen.

1. Đặt tên cho các điều kiện di truyền

Các điều kiện di truyền không được đặt tên theo một cách tiêu chuẩn (không giống như các gen, được đặt tên chính thức và ký hiệu bởi một ủy ban chính thức). Các bác sĩ điều trị cho các gia đình mắc chứng rối loạn mới, chưa từng biết trước đây thường là những người đầu tiên đề xuất tên cho tình trạng này.

Sau đó, các chuyên gia chăm sóc sức khỏe, nhà nghiên cứu, những người bị ảnh hưởng bởi tình trạng này và những cá nhân quan tâm khác có thể cùng nhau sửa đổi tên để cải thiện tính hữu dụng của nó. Việc đặt tên rất quan trọng vì nó cho phép giao tiếp chính xác và hiệu quả về các tình trạng cụ thể, điều này cuối cùng sẽ cải thiện việc chăm sóc và giúp các nhà nghiên cứu tìm ra các phương pháp điều trị mới.

Tên điều kiện thường bắt nguồn từ một hoặc kết hợp các nguồn sau:

Khiếm khuyết cơ bản về di truyền hoặc sinh hóa gây ra tình trạng này (ví dụ, thiếu alpha-1 antitrypsin).
Gen trong đó biến thể (hoặc đột biến) gây ra tình trạng này (ví dụ: Chứng loạn dưỡng bạch cầu liên quan đến TUBE4A ).
Một hoặc nhiều dấu hiệu hoặc triệu chứng chính của rối loạn (ví dụ, tăng amiăng máu kèm theo loạn trương lực cơ, bệnh đa hồng cầu và xơ gan do cryptogenic).
Các bộ phận của cơ thể bị ảnh hưởng bởi tình trạng này (ví dụ, hội chứng não-phổi-tuyến giáp).
Tên của một bác sĩ hoặc nhà nghiên cứu, thường là người đầu tiên mô tả rối loạn (ví dụ, hội chứng Marfan được đặt theo tên của Tiến sĩ Antoine Bernard-Jean Marfan).
Một khu vực địa lý (ví dụ, sốt Địa Trung Hải có tính gia đình, xảy ra chủ yếu ở các quần thể giáp biển Địa Trung Hải).
Tên của bệnh nhân hoặc gia đình mắc bệnh (ví dụ, bệnh xơ cứng teo cơ một bên thường được gọi là bệnh Lou Gehrig theo tên một cầu thủ bóng chày nổi tiếng được chẩn đoán mắc bệnh này).

Các điều kiện được đặt tên theo một người cụ thể được gọi là từ ghép. Có tranh luận về việc liệu hình thức sở hữu hay hình thức không thích sở hữu của các từ cùng tên được ưu tiên hơn. Theo quy định, các nhà di truyền học y học sử dụng biểu mẫu không xác nhận, và biểu mẫu này có thể trở thành tiêu chuẩn cho các bác sĩ trong tất cả các lĩnh vực y học.

Gene là gì — Việc đặt tên cho gene rất quan trọng, vì nó cho phép giao tiếp chính xác và hiệu quả về các tình trạng cụ thể

2. Gen được đặt tên thế nào?

Gen là đơn vị vật lý và chức năng cơ bản của tính di truyền được tạo thành từ ADN. Một số gen có vai trò như hướng dẫn để tạo ra các phân tử được gọi là protein. Tuy nhiên, nhiều gen không mã hóa protein mà có những chức năng khác.

Ở người, các gen có kích thước khác nhau, từ vài trăm bazơ ADN cho đến hơn 2 triệu bazơ. Một nỗ lực nghiên cứu tầm quốc tế được gọi là Dự án Bộ gen người, đã được thực hiện để xác định trình tự của bộ gen người và xác định các gen mà nó chứa, ước tính rằng số lượng gen trong cơ thể người từ 20.000 đến 25.000 gen.

Mỗi người có hai bản sao của mỗi gen, một bản sao được thừa hưởng từ cha và một bản thừa hưởng từ mẹ. Hầu hết các gen đều giống nhau ở tất cả mọi người, nhưng một số lượng nhỏ gen (ít hơn 1% tổng số gen) hơi khác nhau giữa mọi người.

Các alen là các dạng khác nhau của cùng một gen với sự khác biệt nhỏ về trình tự các cơ sở ADN của chúng. Những khác biệt nhỏ này góp phần tạo nên những đặc điểm ngoại hình riêng biệt của mỗi người.

Các nhà khoa học theo dõi các gen bằng cách đặt cho chúng những cái tên riêng. Vì tên gen có thể dài nên các gen cũng được gán ký hiệu, là những tổ hợp ngắn của các chữ cái đại diện (và đôi khi là số) cho cách viết tắt của tên gen. Ví dụ, một gen nằm trên nhiễm sắc thể số 7 có liên quan đến bệnh xơ nang được gọi là gen điều hòa độ dẫn truyền qua màng của bệnh xơ nang, gen này được ký hiệu là CFTR.

Các Ủy ban HUGO về danh mục gene (HGNC) chỉ định một tên chính thức và biểu tượng (viết tắt của tên) cho mỗi gen con người biết đến. HGNC là một tổ chức phi lợi nhuận được tài trợ bởi Viện Nghiên cứu Bộ gen Người Quốc gia Hoa Kỳ và Tổ chức Wellcome Trust của Vương quốc Anh. Ủy ban đã đặt tên cho hơn 19.000 trong số ước tính 20.000 đến 25.000 gen mã hóa protein trong bộ gen người.

Trong quá trình nghiên cứu, các gen thường nhận được một số tên và ký hiệu thay thế từ các nhà nghiên cứu điều tra cùng một gen. Để giải quyết sự nhầm lẫn này, HGNC chỉ định một tên và ký hiệu duy nhất cho mỗi gen người, điều này cho phép tổ chức hiệu quả các gen trong các cơ sở dữ liệu lớn, hỗ trợ sự tiến bộ của nghiên cứu. Dưới đây là hướng dẫn hiện tại để đặt tên gen người của HGNC:

Trong trường hợp không có giải pháp thay thế được đồng ý rộng rãi, HGNC vẫn duy trì định nghĩa của một gen là một đoạn DNA đóng góp vào kiểu hình/chức năng. Trong trường hợp không có chức năng được chứng minh, một gen có thể được đặc trưng bởi trình tự, phiên mã hoặc tương đồng.

Mỗi gen chỉ được gán một ký hiệu; HGNC không thường xuyên đặt tên cho các dạng đồng dạng (tức là các bản sao thay thế hoặc các biến thể mối). Điều này có nghĩa là không có ký hiệu riêng biệt cho các dạng đồng dạng ARN mã hóa protein hoặc không mã hóa của vị trí mã hóa protein hoặc các bản phiên mã thay thế từ vị trí ARN không mã hóa.

Trong những trường hợp đặc biệt, và theo nhu cầu của cộng đồng, các ký hiệu riêng biệt đã được chấp thuận cho các đoạn gen trong các locus phức tạp, ví dụ: Quỹ tích UGT1. Các locus lưỡng tính giả định có thể được gán các ký hiệu riêng biệt để đại diện cho các sản phẩm gen riêng biệt.

Mỗi gen mà chúng ta đặt tên được gán một ký hiệu duy nhất, HGNC ID (ở định dạng HGNC: #) và tên mô tả. Các ký hiệu chỉ chứa các chữ cái Latinh viết hoa và chữ số Ả Rập và tránh dấu câu, ngoại trừ dấu gạch ngang trong các nhóm cụ thể. Các ký hiệu không được giống với các chữ viết tắt thường được sử dụng, để thuận tiện cho việc truy xuất dữ liệu. Danh pháp không được chứa tham chiếu đến bất kỳ loài nào hoặc "G" cho gen, cũng như không được gây khó chịu hoặc xúc phạm.

2.1. Gen mã hóa protein

Ủy ban HUGO về danh mục gene đặt tên cho các gen mã hóa protein dựa trên chức năng bình thường chính của sản phẩm gen.

Trong trường hợp không có dữ liệu chức năng, các gen mã hóa protein có thể được đặt tên theo những cách sau:

Dựa trên các miền cấu trúc được công nhận và mô típ được mã hóa bởi gen (ví dụ: BEND7, “miền BEN chứa 7”).
Dựa trên các gen tương đồng trong bộ gen người (ví dụ: GPRIN3, “thành viên gia đình GPRIN 3”).
Dựa trên các gen tương đồng từ một loài khác (ví dụ: FEM1A, “gen tương đồng fem-1 A”).
Chỉ dựa trên sự hiện diện của khung đọc mở (ví dụ: C17orf50, “khung đọc mở 50 nhiễm sắc thể 17”).

Nếu có thể, các gen liên quan được đặt tên bằng cách sử dụng ký hiệu gốc chung để cho phép phân nhóm, thường dựa trên sự tương đồng về trình tự, chức năng được chia sẻ hoặc thành viên của phức hợp protein.

Đối với các gen liên quan đến các quá trình miễn dịch cụ thể hoặc mã hóa enzym, thụ thể hoặc kênh ion, Ủy ban HUGO về danh mục gene tham khảo ý kiến của các nhóm danh pháp chuyên gia. Đối với các nhóm gen chính khác, Ủy ban HUGO về danh mục gene tham khảo ý kiến của một nhóm cố vấn khi đặt tên cho các gen mới và thảo luận về các cập nhật danh pháp được đề xuất.

gene chỉ dẫn sản xuất protein — Ủy ban HUGO đặt tên cho gen mã hóa protein dựa trên chức năng bình thường chính của sản phẩm gen.

2. 2. Pseudogenes

Ủy ban HUGO về danh mục gene định nghĩa gen giả là một trình tự không có khả năng tạo ra sản phẩm protein chức năng nhưng có mức độ tương đồng cao với gen chức năng. Nói chung, chỉ đặt tên cho các gen giả có tính tương đồng với một tỷ lệ đáng kể của gen tổ tiên chức năng.

Các gen giả đã qua xử lý được đặt tên dựa trên gen mẹ cụ thể, với số P và số được gắn vào biểu tượng gen gốc (ví dụ: NACAP10, “NACA pseudogene 10”). Việc đánh số thường dành riêng cho loài.

Các gen giả giữ lại hầu hết trình tự mã hóa so với các thành viên khác trong gia đình (và thường chưa được xử lý) được đặt tên là một thành viên gia đình mới với hậu tố “P”, ví dụ: DDX12P, “DEAD/H-box helicase 12, gen giả”. Định dạng đặt tên này cũng được sử dụng cho các gen được giả hóa liên quan đến hệ thống chính thức chức năng của chúng ở một loài khác.

Lưu ý, hiếm khi các gen giả như vậy không bao gồm chữ “P” nếu ký hiệu được thiết lập tốt, ví dụ: MMP23A; “matrix metallopeptidase 23A (gen giả)”.

2. 3. Các gen ARN không mã hóa

Ủy ban HUGO về danh mục gene đặt tên cho các gen ARN không mã hóa (ncARN) theo loại ARN của chúng.

Đối với các ARN nhỏ, Ủy ban HUGO về danh mục gene tuân theo các quy ước đặt tên của chúng như sau:

MicroRNAs: miRBase gán cho mỗi chuỗi vòng lặp gốc microRNA một ký hiệu ở định dạng “mir‐ #” và mỗi miRNA trưởng thành một ký hiệu ở định dạng “miR‐ #”, theo sau là một số tuần tự duy nhất phản ánh thứ tự gửi đến cơ sở dữ liệu. Sau đó, HGNC phê duyệt một ký hiệu gen cho các gen miRNA của người ở định dạng MIR #; ví dụ, MIR17 đại diện cho gen miRNA, mir ‐ 17 đại diện cho vòng lặp gốc và miR ‐ 17 đại diện cho miRNA trưởng thành.
ARN vận chuyển (tRNA): Cơ sở dữ liệu tRNA của bộ gen (GtRNAdb) chỉ định một ID duy nhất cho mỗi gen tRNA ở định dạng tRNA‐ [mã axit amin ba chữ cái] - [anticodon] - [Mã nhận dạng gen GtRNAdb ]. Ví dụ tRNA ‐ Ala ‐ AGC ‐ 1‐1.

HGNC chỉ định một ký hiệu gen tRNA hơi ngắn gọn nhưng tương đương ở định dạng TR [mã axit amin một chữ cái] - [anticodon] [mã nhận dạng gen gtrnadb], ví dụ: TRA ‐ AGC1‐1.

Các lớp ncRNA nhỏ khác được đặt tên với sự cộng tác của các cố vấn chuyên môn. Các lớp chính của ncRNA nhỏ bao gồm:

ARN hạt nhân nhỏ: Được đặt tên bằng ký hiệu gốc “RNU” cho “RNA, hạt nhân nhỏ U #”.
ARN nucleolar nhỏ: Được đặt tên với ký hiệu gốc SNORD # cho các gen “RNA nucleolar nhỏ, hộp C / D”; SNORA # cho các gen “RNA nucleolar nhỏ, hộp H / ACA”; và SCARNA # cho các gen “RNA cụ thể của cơ thể Cajal nhỏ”.
RNA ribosome: Được đặt tên với các ký hiệu gốc RNA45S, RNA28S, RNA18S, RNA5S, RNA5-8S.

Các ARN dài không mã hóa (lncRNA) được ưu tiên cung cấp các ký hiệu duy nhất dựa trên chức năng được công bố tương tự như các gen mã hóa protein. Các gen LncRNA đã được chú thích bởi các dự án RefSeq và GENCODE mà không có thông tin được công bố phù hợp để làm cơ sở cho một biểu tượng tồn tại được đặt tên theo cách có hệ thống sau:

Các LncRNA có liên quan đến gen mã hóa protein được gán ký hiệu gốc - LINC # theo sau là số có 5 chữ số, ví dụ: LINC01018.
Các LncRNA trái nghĩa với khoảng gen của gen mã hóa protein được gán định dạng ký hiệu [ký hiệu gen mã hóa protein] ‐AS #, ví dụ: FAS-AS1.
Các LncRNA khác nhau (chia sẻ trình tự khởi động hai chiều) gen mã hóa protein được gán định dạng ký hiệu [ký hiệu gen mã hóa protein] ‐DT, ví dụ: ABCF1-DT.
Các LncRNA chứa trong intron của gen mã hóa protein trên cùng một sợi được gán định dạng ký hiệu [ký hiệu gen mã hóa protein] ‐IT #, ví dụ: AOAH-IT1.
Các LncRNA chồng lên gen mã hóa protein trên cùng một sợi được gán định dạng ký hiệu [biểu tượng mã hóa gen protein] ‐OT #, ví dụ: C5-OT1.
Các LncRNA có chứa các gen microRNA hoặc snoRNA bên trong các intron hoặc exon được đặt tên là các gen chủ, ví dụ: MIR17HG, SNHG7.

Ủy ban HUGO đặt tên cho gen ARN không mã hóa (ncARN) theo loại ARN của chúng.

2. 4. Các gen bản sao đọc qua (Readthrough transcripts)

Các bản sao đọc qua thường được tạo ra từ các locus lân cận và bao gồm các phần mã hóa và / hoặc không mã hóa của hai (hoặc nhiều) gen. HGNC chỉ đặt tên cho các bản ghi đã đọc qua được chú thích nhất quán bởi cả chú thích RefSeq tại NCBI và chú thích GENCODE tại Ensembl.

Các bản sao này có loại locus “bản sao đọc qua” và được ký hiệu bằng cách sử dụng hai (hoặc nhiều) ký hiệu từ các gen mẹ, được phân tách bằng dấu gạch ngang, ví dụ: ZNF511-PRAP1 và tên “[ký hiệu] đọc qua”, ví dụ: “ ZNF511-PRAP1 Readthrough”. Tên cũng có thể bao gồm thông tin bổ sung về trạng thái mã hóa tiềm năng của bản sao, chẳng hạn như “(NMD candidate)”.

Về mặt lịch sử, HGNC chỉ có các ký hiệu được chấp thuận cho các gen nằm trên bộ gen tham chiếu của con người. Các ngoại lệ hiếm hoi đã được thực hiện khi được yêu cầu bởi các cộng đồng cụ thể với các ủy ban danh pháp chuyên dụng, chẳng hạn như cộng đồng HLA.

Việc đặt tên cho các biến thể cấu trúc trong tương lai sẽ bị hạn chế đối với những biến thể trên các locus thay thế đã được Hiệp hội Tham chiếu Bộ gen (GRC) đưa vào hệ gen tham chiếu của con người. Ký tự gạch dưới được dành riêng cho các gen được chú thích trên các locus tham chiếu thay thế, ví dụ: C4B_2 là bản sao thứ hai của C4B trên quỹ tích tham chiếu thay thế 6p21.3.

Nguồn tham khảo: medlineplus.gov, sciencedirect.com, genenames.org

XEM THÊM:

Sự thay đổi số lượng gen trong cơ thể có ảnh hưởng đến sức khỏe và sự phát triển không?
Dấu vân tay DNA là gì?
Giải trình tự gen: Bẻ khóa mã di truyền cho bệnh do thực phẩm

Đánh giá

Cho phép thảo luận