컴퓨터를 이용하여 대규모 생물학 데이터를 분석하고 가공하여 유용한 정보를 얻어내는 응용과학 학문.
생물학과 전산학이 융합된 학제 간(interdisciplinary) 학문 분야이며
기계학습의 주요 응용 분야 중 하나이다.
유전자와 단백질은 각각 4종류와 20종류의 알파벳으로 구성된 문자열(character string)로 표현할 수 있어서
컴퓨터 프로그램으로 처리하기에 적절하다. 1980년대 초반 유전자와 단백질 데이터를 대량으로 생산할 수 있는 생명공학 기술이 등장하며 컴퓨터를 이용한 데이터 처리와 분석이 생물학 연구에 중요한 역할을 하게 되었다. 이러한 경향은 점차 확산되어 1985년에는 생물학을 위한 컴퓨터 기술 연구를 다루는 「
Computer Applications in the Biosciences」라는 논문지(1998년 「
Bioinformatics」 논문지로 개명)가 창간되기에 이르렀다.
1990년대 이후 인터넷과
기계학습(ML:
Machine Learning), 대규모 생물학 데이터 생산을 위한 생명공학 기술이 급속도로 발달하면서 생물정보학도 급속히 발전하였다. 1999년 매사추세츠공과대학교(MIT: Massachusetts Institute of Technology)의 에릭 랜더(Eric Lander) 교수 연구팀은 유전자 정보를 이용해 백혈병의 아형(subtype)을 자동으로 탐지하는
기계학습 기술을 개발하였으며 곧 이와 유사한 연구가 널리 확산되었다.
* 아형(subtype): 동일한 질병을 유전자나 염색체 등의 차이에 따라 더 세밀하게 분류하는 것. 같은 질병이라도 아형이 다른 경우 적절한 치료 방법을 다시 선정하고 예후에도 큰 차이가 있을 수 있다.
이후 생물정보학의 발전은 2003년 인간 게놈 프로젝트(Human Genome Project)가 완료되는 데 결정적인 역할을 하였으며, 현재 질병의 진단과 치료 등에 관한 연구를 비롯한 다양한 생의학(biomedicine) 및 생물학 연구가 생물정보학을 기반으로 한다.