Làm thế nào máy tính giúp các nhà sinh học phá vỡ bí mật của cuộc sống

Sau khi bộ gen người dài ba tỷ chữ cái được giải trình tự, chúng tôi đã lao vào một bản mớiOmicsThời đại của nghiên cứu sinh học. Các nhà khoa học hiện đang chạy đua để giải trình tự bộ gen (tất cả các gen) hoặc proteome (tất cả các protein) của các sinh vật khác nhau - và trong quá trình này đang tổng hợp một lượng lớn dữ liệu.

Chẳng hạn, một nhà khoa học có thể sử dụng các công cụ om om của Nhật Bản như các trình tự DNA để trêu chọc gen nào của con người bị ảnh hưởng trong nhiễm cúm. Nhưng vì bộ gen của con người có ít nhất tổng số gen 25,000, nên số lượng gen bị thay đổi ngay cả trong một kịch bản đơn giản như vậy có thể có khả năng trong hàng ngàn.

Mặc dù giải trình tự và xác định gen và protein cung cấp cho chúng một tên và địa điểm, nhưng nó không cho chúng ta biết những gì chúng làm. Chúng ta cần hiểu làm thế nào những gen, protein và tất cả những thứ ở giữa tương tác trong các quá trình sinh học khác nhau.

Ngày nay, ngay cả các thí nghiệm cơ bản cũng mang lại dữ liệu lớn và một trong những thách thức lớn nhất là giải quyết các kết quả có liên quan từ nhiễu nền. Máy tính đang giúp chúng tôi vượt qua núi dữ liệu này; nhưng họ thậm chí có thể tiến một bước xa hơn thế, giúp chúng ta đưa ra các giả thuyết khoa học và giải thích các quá trình sinh học mới. Khoa học dữ liệu, về bản chất, cho phép nghiên cứu sinh học tiên tiến.

Máy tính để giải cứu

Máy tính có đủ điều kiện duy nhất để xử lý các tập dữ liệu lớn vì chúng có thể đồng thời theo dõi tất cả các điều kiện quan trọng cần thiết cho phân tích.


đồ họa đăng ký nội tâm


Mặc dù họ có thể phản ánh lỗi của con người chúng được lập trình với, máy tính có thể xử lý một lượng lớn dữ liệu một cách hiệu quả và chúng không thiên về quen thuộc, như các nhà điều tra của con người có thể.

Máy tính cũng có thể được dạy để tìm kiếm các mẫu cụ thể trong các tập dữ liệu thử nghiệm - một khái niệm gọi là học máy, lần đầu tiên được đề xuất trong 1950, đáng chú ý nhất là bởi nhà toán học Alan Turing. Một thuật toán đã học được các mẫu từ các bộ dữ liệu sau đó có thể được yêu cầu đưa ra dự đoán dựa trên dữ liệu mới mà nó chưa từng gặp trước đây.

Học máy đã cách mạng hóa nghiên cứu sinh học vì bây giờ chúng ta có thể sử dụng các tập dữ liệu lớn và yêu cầu máy tính giúp hiểu về sinh học cơ bản.

Đào tạo máy tính để suy nghĩ bằng cách mô phỏng các quá trình não

Chúng tôi đã sử dụng một loại học máy thú vị, được gọi là mạng nơ ron nhân tạo (ANN), trong phòng thí nghiệm của chúng tôi. Não là mạng lưới nơ-ron liên kết cao, giao tiếp bằng cách gửi các xung điện qua hệ thống dây thần kinh. Tương tự, ANN mô phỏng trong máy tính một mạng lưới các nơ-ron khi chúng bật và tắt để đáp ứng với các tín hiệu của các nơ-ron khác.

Bằng cách áp dụng các thuật toán bắt chước các quá trình của các nơ-ron thực tế, chúng ta có thể khiến mạng học cách giải quyết nhiều loại vấn đề. Google sử dụng ANN mạnh mẽ để nổi tiếng hiện nay Dự án Deep Dream nơi máy tính có thể phân loại và thậm chí tạo ra hình ảnh.

Nhóm chúng tôi nghiên cứu hệ thống miễn dịch, với mục tiêu là tìm ra phương pháp điều trị ung thư mới. Chúng tôi đã sử dụng các mô hình tính toán ANN để nghiên cứu mã protein bề mặt ngắn mà các tế bào miễn dịch của chúng tôi sử dụng để xác định xem có thứ gì đó xa lạ với cơ thể của chúng tôi hay không và do đó nên bị tấn công. Nếu chúng ta hiểu thêm về cách các tế bào miễn dịch (như tế bào T) phân biệt giữa tế bào bình thường / bản thân và tế bào bất thường / ngoại lai, chúng ta có thể thiết kế vắc-xin và liệu pháp tốt hơn.

Chúng tôi đã tìm kiếm các danh mục có sẵn công khai của hàng ngàn mã protein được xác định bởi các nhà nghiên cứu trong những năm qua. Chúng tôi chia bộ dữ liệu lớn này thành hai phần: mã tự protein bình thường có nguồn gốc từ tế bào người khỏe mạnh và mã protein bất thường có nguồn gốc từ virus, khối u và vi khuẩn. Sau đó, chúng tôi chuyển sang một mạng lưới thần kinh nhân tạo được phát triển trong phòng thí nghiệm của chúng tôi.

Khi chúng tôi đưa mã protein vào ANN, thuật toán có thể xác định sự khác biệt cơ bản giữa mã protein bình thường và bất thường. Mọi người sẽ khó theo dõi các loại hiện tượng sinh học này - có hàng ngàn mã protein này để phân tích trong tập dữ liệu lớn. Nó cần một cỗ máy để giải quyết những vấn đề phức tạp này và xác định sinh học mới.

Dự đoán thông qua học máy

Ứng dụng quan trọng nhất của học máy trong sinh học là tiện ích của nó trong việc đưa ra dự đoán dựa trên dữ liệu lớn. Dự đoán dựa trên máy tính có thể có ý nghĩa về dữ liệu lớn, kiểm tra các giả thuyết và tiết kiệm thời gian và tài nguyên quý giá.

Ví dụ, trong lĩnh vực sinh học tế bào T của chúng tôi, việc biết mã protein của virus nào cần nhắm mục tiêu là rất quan trọng trong việc phát triển vắc-xin và phương pháp điều trị. Nhưng có rất nhiều mã protein riêng lẻ từ bất kỳ loại virus nào, do đó rất tốn kém và khó kiểm tra từng loại.

Thay vào đó, chúng tôi đã đào tạo mạng lưới thần kinh nhân tạo để giúp máy tìm hiểu tất cả các đặc tính sinh hóa quan trọng của hai loại mã protein - bình thường so với bất thường. Sau đó, chúng tôi đã yêu cầu người mẫu dự đoán và các mã protein virut mới giống với thể loại bất thường và có thể được nhìn thấy bởi các tế bào T và do đó, hệ thống miễn dịch. Chúng tôi đã thử nghiệm mô hình ANN trên các protein virus khác nhau chưa từng được nghiên cứu trước đây.

Chắc chắn, giống như một học sinh siêng năng muốn làm hài lòng giáo viên, mạng lưới thần kinh có thể xác định chính xác phần lớn các mã protein kích hoạt tế bào T như vậy trong virus này. Chúng tôi cũng đã thử nghiệm các mã protein mà nó đã gắn cờ để xác thực tính chính xác của các dự đoán của ANN. Sử dụng mô hình mạng thần kinh này, do đó, một nhà khoa học có thể dự đoán nhanh chóng tất cả các mã protein ngắn quan trọng từ một loại virus gây hại và kiểm tra chúng để phát triển một phương pháp điều trị hoặc vắc-xin, thay vì đoán và thử nghiệm chúng riêng lẻ.

Thực hiện máy học một cách khôn ngoan

Nhờ tinh chỉnh liên tục, khoa học dữ liệu lớn và học máy đang ngày càng trở nên không thể thiếu đối với bất kỳ loại nghiên cứu khoa học nào. Khả năng sử dụng máy tính để đào tạo và dự đoán trong sinh học là gần như vô tận. Từ việc tìm ra sự kết hợp của dấu ấn sinh học là tốt nhất để phát hiện bệnh để hiểu tại sao chỉ Một số bệnh nhân được hưởng lợi từ một điều trị ung thư cụ thể, khai thác các tập dữ liệu lớn bằng máy tính đã trở thành một lộ trình quý giá cho nghiên cứu.

Tất nhiên, có những hạn chế. Vấn đề lớn nhất với khoa học dữ liệu lớn là chính dữ liệu. Nếu dữ liệu thu được từ các nghiên cứu -omics bị lỗi bắt đầu hoặc dựa trên khoa học kém chất lượng, máy móc sẽ được đào tạo về dữ liệu xấu - dẫn đến dự đoán kém. Học sinh chỉ tốt như giáo viên.

Bởi vì máy tính không có tình cảm (nhưng), họ có thể trong hành trình tìm kiếm các mẫu của họ ngay cả khi không tồn tại, phát sinh trở lại, với dữ liệu xấu và khoa học không thể sản xuất được.

Và một số nhà nghiên cứu đã làm dấy lên mối lo ngại về việc máy tính trở nên hộp đen dữ liệu cho các nhà khoa học không hiểu rõ các thao tác và âm mưu mà họ thực hiện thay mặt họ.

Bất chấp những vấn đề này, lợi ích của dữ liệu lớn và máy móc sẽ tiếp tục biến chúng thành đối tác có giá trị trong nghiên cứu khoa học. Với sự cẩn thận trong tâm trí, chúng tôi sẵn sàng duy nhất để hiểu sinh học qua con mắt của một cỗ máy.

Giới thiệu về Tác giảConversation

Sri Krishna, Ứng viên Tiến sĩ, Thiết kế Sinh học, Trường Kỹ thuật Hệ thống Sinh học và Sức khỏe, Đại học Bang Arizona và Diego Chowell, Nghiên cứu sinh về Toán ứng dụng, Đại học Bang Arizona

Bài viết này ban đầu được xuất bản vào Conversation. Đọc ban đầu bài viết.


Sách liên quan:

at Thị trường InnerSelf và Amazon