Tin sinh học và Dữ liệu mở: Thúc đẩy nghiên cứu cơ bản ở nơi có nguồn lực hạn chế

Việc tạo ra các kho dữ liệu mở về tin sinh học có thể giúp các nhà khoa học ở các nước đang phát triển đào tạo, nghiên cứu và thực hiện các khám phá khoa học trong lĩnh vực hứa hẹn nhiều ứng dụng trong chăm sóc sức khỏe lâu dài cho con người nhưng đòi hỏi rất nhiều chi phí đầu tư.

 



 Việc duy trì các phòng thí nghiệm sinh học phân tử đòi hỏi một nguồn lực lớn về tài chính và con người.



Các thuật toán trong tin sinh học hiện nay rất quan trọng trong việc xử lý dữ liệu –omics thông lượng cao để có thể rút ra những giải thích có ý nghĩa trong hầu hết các lĩnh vực nghiên cứu khoa học y sinh và đời sống. Tuy nhiên việc đào tạo và nghiên cứu liên quan đến tin sinh học hầu hết đều diễn ra ở các quốc gia có nền kinh tế mạnh và các trường đại học, viện nghiên cứu có tiềm lực lớn. Chúng ta đều biết, có một số lĩnh vực khoa học đòi hỏi một nguồn lực lớn về tài chính, nhân sự để thành lập và duy trì, ví dụ như việc thành lập và duy trì phòng thí nghiệm sinh học phân tử là rất tốn kém. Ngày nay, sự phát triển của điện toán đám mây có thể giúp cho các tổ chức có được khả năng tính toán mạnh với chi phí thấp khiến cho việc phát triển các phương pháp tính toán mới và thực hiện các phân tích, mô phỏng trước khi tiến hành thực nghiệm. Điều này làm tăng hiệu quả nghiên cứu cũng như chi phí. 

So với các trường đại học có uy tín ở các quốc gia giàu có, các tổ chức học thuật ở những quốc gia đang phát triển thường nhận được ít tài trợ hơn, hoạt động với sự phối hợp hành chính ít hơn và làm ra  ít bài báo hơn trên các tạp chí học thuật cấp cao. Do đó, việc nâng cao năng lực tin sinh học ở các quốc gia, trường, viện với nguồn lực hạn chế có thể giúp xây dựng đội ngũ nhà khoa học, công nghệ, kỹ thuật và toán giỏi trong các cộng đồng thông qua cách: (i) nâng cao chất lượng nghiên cứu bằng cách kích thích sáng tạo và mở rộng các bài toán có thể giải quyết được bởi cộng đồng khoa học toàn cầu, (II) đa dạng hóa cộng đồng khoa học, (iii) kích thích sự sáng tạo bằng cách nuôi dưỡng các hướng tiếp cận mới đối với các vấn đề đã cũ; (iv) thu hút nhiều hơn các nhà khoa học và công chúng trong môi trường cộng tác đa văn hóa, (v) có thể làm giảm áp lực thất nghiệp và di cư thông qua việc cung cấp các việc làm địa phương.

Khoa học ở các nước có nguồn lực hạn chế

Ngân hàng Thế giới phân loại các nền kinh tế quốc gia là các quốc gia có thu nhập trung bình thấp (LMIC) khi tổng thu nhập quốc dân trên đầu người rơi vào khoảng 996 đến 3.895 USD và định nghĩa các quốc gia có thu nhập thấp (LIC) là các quốc gia có tổng thu nhập quốc dân dưới 995 USD. Trong số 219 nền kinh tế được khảo sát năm 2018, Ngân hàng Thế giới phân loại 37% là thu nhập cao, 16% là thu nhập trung bình cao, 21% là LMIC (bao gồm 47 quốc gia) và 26% là LIC (bao gồm 34 quốc gia). Sự chênh lệch giữa các quốc gia thu nhập thấp và cao thể hiện rõ ràng trong các hoạt động khoa học được thực hiện, số lượng ấn phẩm khoa học được công bố hằng năm và xếp hạng các tạp chí trong đó các bài báo được xuất bản.

Các nhà khoa học ở các nước thu nhập cao và trung bình cao phụ thuộc vào các công nghệ thông lượng cao sáng tạo và quy mô lớn, tài nguyên chuyên sâu về kinh tế, giúp tạo ra một khối lượng lớn các khám phá khoa học trong thế giới khoa học dữ liệu lớn. Các nhà khoa học tại LMIC và LIC trong lịch sử đã đóng góp ít hơn cho khoa học hiện đại. Trong số 159 quốc gia có cơ sở dữ liệu của Nature Index, 103 quốc gia đã tạo ra ít hơn 100 bài báo khoa học trong năm 2015 – 2016. Việc thực hiện các nhóm nghiên cứu và xây dựng các phòng thực nghiệm ở một nước đang phát triển có thể tạo ra dữ liệu thông lượng cao đủ để phân tích quy mô lớn, nhưng các dự án ở quy mô này sẽ yêu cầu cơ sở hạ tầng phối hợp và hỗ trợ tài chính vượt xa số tiền do các nguồn trong nước và quốc tế đầu tư. 

Trong thập kỷ qua, một số quốc gia có nguồn lực hạn chế đã đưa ra các ưu đãi tài chính với mục đích nâng cao năng suất khoa học trong nước. Ví dụ, Chính phủ Indonesia có giải thưởng bằng tiền mặt trị giá 100 triệu rupiah (7.400 USD) cho các nhà khoa học xuất bản trên các tạp chí có chỉ số ảnh hưởng (Impact Factor IP) cao. Ước tính 90% các trường đại học ở Trung Quốc treo thưởng cho các nhà khoa học giải thưởng lên tới 500.000 nhân dân tệ (70.000 USD) cho một bài báo được công bố trên một tạp chí có chỉ số ảnh hưởng cao. Mặc dù được khuyến khích tài chính, các bài báo của các nhà khoa học Trung Quốc năm 2014 vẫn chỉ bằng một nửa số lượng được công bố bởi các nhà khoa học Mỹ. Treo thưởng kiểu này có thể không đủ bù đắp cho sinh viên tốt nghiệp tham gia nghiên cứu và có thể không đủ bù đắp cho cơ sở hạ tầng hỗ trợ nghiên cứu hạn chế. Ngoài ra, gánh nặng hành chính trong việc đảm bảo quyền truy cập dài hạn vào các dịch vụ đào tạo và hỗ trợ phù hợp có thể là rào cản đối với các nhà khoa học hoạt động với ngân sách nhỏ hơn.

Tạo các nền tảng chia sẻ dữ liệu

Trong bối cảnh đó, lĩnh vực tin sinh học có thể làm được những gì? Có lẽ, điều hợp lý nhất là một mô hình giáo dục, đào tạo và hỗ trợ mới cho phép các nhà khoa học sống ở các nước thu nhập thấp có thể phân tích lại dữ liệu -omics công khai bằng phương pháp tin sinh học và từ đó tăng cường nghiên cứu và xuất bản khoa học trong nước. Có một may mắn là cơ sở hạ tầng máy tính đầy đủ và kết nối internet tốc độ cao thường có sẵn trong các bộ phận khoa học và kỹ thuật máy tính của các tổ chức giáo dục trong LMIC và LIC. Hiện tại, các tài nguyên này hiếm khi được sử dụng để phân tích tin sinh học vì các nhà khoa học máy tính đang lại không được đào tạo về Tin sinh học. Trong khi đó, các nhà nghiên cứu trong các tổ chức ít nguồn lực có thể sử dụng tài nguyên đám mây để phân tích các bộ dữ liệu lớn, giúp giảm bớt gánh nặng hậu cần cho việc lắp ráp một cơ sở hạ tầng điện toán hiệu năng cao.

Tái phân tích dữ liệu y sinh thông lượng cao sẽ tăng hiệu quả về chi phí, tạo ra những khám phá khoa học, cung cấp cái nhìn sâu sắc về các hệ thống sinh học phức tạp và có khả năng sửa chữa bất kỳ vấn đề thống kê hoặc tính toán nào được xác định trong ấn phẩm gốc. Ví dụ, TS. Paez- Espino và cộng sự đã sử dụng các phương pháp tin sinh học để mô tả đặc điểm của virus Trái đất bằng cách sử dụng dữ liệu metagenomics hiện có; TS. Lyer và cộng sự đã sử dụng dữ liệu giải trình tự RNA hiện có để lập danh mục các RNA không mã hóa; và TS. Gutzwiller và cộng sự đã sử dụng dữ liệu biểu hiện gene để nghiên cứu mối quan hệ giữa ruồi giấm và vi khuẩn Wolbachia pipientis nội sinh của nó. Không giống như trong các phòng thực nghiệm, nơi tốc độ đào tạo có thể chậm do nhiều vấn đề về an toàn, việc giảng dạy và hỗ trợ các nhà khoa học thực hiện phân tích tin sinh học với dữ liệu -omics là nhanh chóng, an toàn và hoàn toàn khả thi với một số khóa đào tạo. Các nhà sinh học có tham vọng ở các nước thu nhập thấp có thể tận dụng các nguồn lực hiện có tại các cơ sở giáo dục địa phương bằng các tài nguyên giáo dục trực tuyến để tạo ra các phương pháp mới và thực hiện phân tích lại dữ liệu được công bố. Nền tảng đào tạo ảo của các nhà sinh học đã thành lập (xem https://github.com/smangul1/online.bioinformatics/wiki). Các nhà khoa học LMIC và LIC có thể có được các tài liệu cần thiết thông qua các hội thảo và bài báo qua nền tảng này. Ví dụ, các nhà phân tích tính toán mới làm quen có thể tự học bằng cách sử dụng các hội thảo UNIX trực tuyến dành cho người lần đầu làm quen và các bài báo tổng quan với các chủ đề khoa học thích hợp có thể giúp sinh viên đại học có được sự hiểu biết cơ bản về một khái niệm hoặc lĩnh vực mà không cần đăng ký các khóa học tốn kém về thời gian và chi phí. Ngoài ra, sự sẵn có ngày càng tăng của các phiên bản dữ liệu hệ gene đã được xử lý không chỉ trở thành nguồn dữ liệu sẵn có cho các chương trình đào tạo tin học sinh học mà còn có thể dành cho các mức đào tạo và nghiên cứu cao hơn. Các bộ dữ liệu đã qua xử lý thường nhỏ hơn nên cần ít băng thông mạng hơn cũng như hiệu năng tính toán để xử lý.

Các nhà chuyên môn đã dự đoán nhu cầu thậm chí còn lớn hơn để phân tích dữ liệu tin sinh học trong những năm tới và tin việc thành lập một nền tảng đào tạo và hỗ trợ tin sinh học toàn cầu để hợp nhất các nền tảng và tài liệu hiện có sẽ khuyến khích các nhà khoa học ở các nước và tổ chức có thu nhập thấp tham gia vào nghiên cứu STEM tiên tiến. Do đó, họ đã phát triển một hướng dẫn tài nguyên trực tuyến bao gồm các tài liệu giáo dục, các mã nguồn công cụ tin sinh học mẫu, bộ dữ liệu mẫu, tài nguyên tính toán dựa đám mây và giao diện để truy cập các bộ dữ liệu quan trọng và nhiều ý nghĩa (https://github.com/smangul1/online.bioinformatics/wiki).  Nền tảng này có thể kết nối hiệu quả các nhà khoa học trong các tổ chức học thuật và khu vực có nguồn lực STEM kém với các khía cạnh nâng cao nghề nghiệp của công nghệ sinh học hiện đại trước đây đã bị hạn chế cho các nhà nghiên cứu trong các trường đại học, trường đại học và nền kinh tế mạnh.

Tiến về phía trước

Các nguồn tài nguyên dựa trên điện toán đám mây có thể cho phép các nhà khoa học ở các nước đang phát triển đào tạo, nghiên cứu và thực hiện các khám phá khoa học bằng cách sử dụng các nguồn dữ liệu -omics công khai. Các nguồn tài nguyên này, cùng với năng lực và cơ sở hạ tầng đã được cài đặt đã có sẵn ở các quốc gia có nguồn lực hạn chế, có thể hỗ trợ mở rộng các cộng đồng STEM tiên tiến, tự duy trì trên toàn thế giới. Mô hình này có thể có một số tác động tích cực quan trọng đối với các nền kinh tế và giáo dục địa phương trong nước và rất có thể sẽ được chính phủ trong nước hỗ trợ như một phần của chương trình đào tạo STEM quốc gia của họ. Các chương trình đào tạo như vậy có thể cho phép các nhà hoạch định chính sách giới thiệu các lĩnh vực khoa học mới vào chương trình giáo dục hiện có, khuyến khích tài trợ STEM của liên bang, tiểu bang và địa phương, và cuối cùng tăng sự tập trung của cộng đồng khoa học toàn cầu vào việc giải quyết các vấn đề liên quan đến các bệnh nhiệt đới hoặc dị thường di truyền địa phương.□

TS. Nguyễn Cường, Trung tâm công nghệ cao Vinmecdịch

Nguồn: nature.com

Trung Mỹ, trường hợp điển hình Khu vực

Trung Mỹ là sự kết hợp của các quốc gia LMIC và LIC, mỗi quốc gia có lịch sử phong phú về khám phá các sản phẩm tự nhiên và các phát triển nghiên cứu y tế, y sinh và y tế công cộng. Theo truyền thống, các nhà khoa học trong LMIC và LIC đã tiến hành nghiên cứu cả trong nước và hợp tác với các nhà khoa học từ các nước thu nhập cao hơn. Cơ cấu tài trợ không đầy đủ và thiếu kinh nghiệm hành chính quản lý các chương trình đào tạo liên ngành đã thách thức sự tích hợp của khoa học sống và khoa học sinh học tính toán ở Trung Mỹ. Trên thực tế, các nhà khoa học sự sống thường được đào tạo theo truyền thống kinh viện thuần túy, theo các chuyên ngành đã được định hình theo thời gian và các nhà khoa học máy tính thường được đào tạo để làm việc trong các ngành công nghiệp viễn thông và phát triển phần mềm tư nhân. Có một khoảng cách không nhỏ giữa họ. Vì thế, việc xây dựng đào tạo liên ngành và hỗ trợ trong các khoa KH&CN có thể giúp các tổ chức Trung Mỹ tiến tới các thực tiễn STEM sáng tạo hơn, như công nghệ điện toán tiên tiến và các lĩnh vực như tin sinh học và sinh học hệ thống. Hầu hết các tổ chức giáo dục lớn ở Trung Mỹ đã sở hữu cơ sở hạ tầng tính toán đầy đủ để thực hiện công việc phân tích và phát triển phương pháp. Được đào tạo chuyên môn và tài nguyên điện toán trên nền tảng đám mây, sinh viên và nhà nghiên cứu ở Trung Mỹ có thể phát triển các kỹ thuật và thu thập kiến ​​thức để giúp hiện đại hóa các đơn vị học thuật trong nước, như nhiều tổ chức nhỏ hơn ở Hoa Kỳ đã làm trong thập kỷ qua. Cuối cùng, thu hẹp khoảng cách liên ngành có thể thúc đẩy các phòng thí nghiệm quốc gia sinh học phân tử được thành lập ở Trung Mỹ. Khi các tổ chức trong nước trở thành cường quốc thu thập dữ liệu, quản lý và phân tích lại và phổ biến dữ liệu mở, các phòng khám và bệnh viện quốc gia có thể thành lập và phát triển các đơn vị nghiên cứu di truyền và hệ gen thông lượng cao của riêng họ.

Tác giả