The Fifth Annual International Conference On Research in ComputationalMolecularBiology (RECOMB)

  • (Montreal, Canada, April 22-25, 2001) --yong27, KSBI News letter 2001,4

학회에 도착하기까지

인터넷을 통해서 학회 등록신청을 하고, 숙소예약 및 항공권예약을 마친 후, 21일 오전, 노스트웨스트 항공편을 통해서 도쿄, 디트로이트를 거쳐 몬트리올에 도착. 미국비자가 없던 본인으로서는 중간 디트로이트에서 다분히 불쾌한 경험을 해야만 했다. 동시에 하루빨리 국력신장이 되어야 겠다는 결심도 서게하는 경험이였다.

도착한 몬트리올은 불어문화권이면서도 영어의 공용어화가 잘 되어있는 도시라서 의사소통에 큰 불편함은 없었다. 약간은 고풍스럽게 유럽분위기가 느껴지는 도시풍경이였으며, 이민국가답게 각 인종들을 모두 어색하지 않게 볼 수 있었다. 몬트리올은 생물정보학 분야에 있어서도 University of Montreal을 선두로 각종 유전체연구센터, 생물정보학기업 등이 포진한 도시임을 학회관련 책자들을 보고 알 수 있었다. RECOMB 2001이 열린 곳은 Wyndham Hotel, Grand Salon이였으며, 학회시작전날 둘러보면서 다음날의 학회분위기를 미리 느껴볼 수 있었다.

학회 첫날

아침 일찍 학회장소를 찾은 우리일행. 한명 두명 전세계의 생물정보학 석학들이 자리를 매우면서 RECOMB 2001은 시작되었다. 첫날 세션은 학회등록 및 Thomas Lengauer, David Sankoff의 Opening Remarks를 필두로 ProteinStructure 라는 주제와 MolecularInteraction 이라는 주제로 진행되었다. 특히, 첫날 점심시간에는 CeleraGenomics사의 연구원과 자리를 같이하여 회사 소개 및 국내 생물정보학 연구동향 소개를 했으며, 한국의 생물정보학 연구발전를 위한 조언, 최근 이슈화 되고 있는 분야에 대한 간략한 얘기들을 들을 수 있었다.

첫날의 주요 세션들을 소개하면 Genome서열이해의 필요조건으로 대두되고 있는 RNA에 관한 특별강연을 시작으로 MolecularBiology관련 ComputerScience적 도전 중 가장 중요한 부분이라고 여겨지는 ProteinStructure에 관한 세션들과, 아직은 시작단계라고 여겨지는 ProteinProteinInteraction분야의 세션들이 계속되었다.

ProteinStructure와 관련해서는 ProteinFoldingPathway를 예측하는 기법과, SequenceAlignment의 가장 궁극적인 방법인 PDB alignment, MassSpectrometry data를 이용하여 ProteinProteinInteractionProteinStructure를 유추할 수 있는 Algorithm, 보다 더 HighThroughPut, data-directed한 NMR 구조정보획득방법 등이 소개되었으며, MolecularInteraction 관련해서는 특정 interaction Motif에 대해 유전체레벨에서 MotifRecognition하는 알고리즘 및 ProteinDocking 부위 예측 Algorithm이 소개되었다.

학회 둘째 날

둘째 날은 최근의 DnaMicroArray 기술 발전에 의한 ExpressionProfile 분석과 관련된 세션들이 많았다. 정확하고, 유용한 실험정보해석은 전산학자 및 통계학자들에게도 많은 도전이 되고 있슴을 느낄 수 있었다. Classification, Clustering등을 위한 각각의 효율적인 Algorithm들이 소개되는 자리였다. 또한 SBH (SequencingByHybridization)에 관한 연구 역시 여전히 활발함을 알 수 있었으며, BiologicalSequenceAnalysis의 첫번째 주제에 대한 세션들을 통해, 여전히 서열분석은 다양하고 활발하게 연구되고 있슴을 알 수 있었다.

주요세션을 간략히 설명하면 Expression data로부터 SimulatedAnnealing 방법으로 classification하는 기법, Gene Clustering을 통해 regulatory elements를 발견하는 기법 phylogenetic profiles와 접목하여 gene function classification하는 내용 등의 ExpressionProfile 분석과 관련된 세션들이 있었고, 생물학과 전산학의 연결에 대한 고찰로써, TuringMachine 안의 tape과, DNA내의 linear sequence는 유사하다는 기본가정으로부터, ClaudeShannonInformationTheory을 인용, 생물학의 많은 문제들이 전산학을 통해 해결될 수 있슴이 특별강연을 통해 소개되었다.

SequencingByHybridization에 관해서는 현재 49 9-mer에 hybridization error가 없다고 가정하여도 400 bp까지 밖에 sequencing 할 수밖에 없다고 알려져 있는 SBH 의 error에 대한 자세한 고찰 및 개선방향에 대한 내용을 통해 아직까지도 SBH를 통한 LargeScaleSequencing은 가능성 있는 분야임을 인지할 수 있었으며, 마지막 분야인 BiologicalSequenceAnalysis 부분에서는 새로운 기법의 HMM 및 패턴인식에서의 유용한 RegularExpression기법 등이 소개되었다.

학회 셋째 날

셋째 날에는 서열분석 위주의 주제들에 대한 발표들이 있었다. 전날에 이어 Sequence Analysis 2 주제가 있었고, 이부분 Session chair를 맡고 있던 MichaelWaterman에 대해 SmithWatermanAlgorithm 알고리즘의 부적합성을 설명하며, 자신의 Normalized sequence alignment를 발표하던 발표자가 인상적이었다. 또한 Phylogeny and Gene duplications에 대한 주제를 통해 Phylogeny관련 연구 또한 활발히 진행되고 있슴을 알 수 있었다.

세부세션을 간략히 소개하면, 몬트리올 대학의 전산학적 도전에 대한 생물학자적 견해를 세포내 기구 유전체의 비교분석을 통해서 제시하는 내용을 시작으로, MaximumLikelihood (ML) PhylogeneticTree 알고리즘을 개선한 Structural-[EM] for learning MaximumLikelihood trees 알고리즘을 통해 phylogenetic 연구의 전산적 문제점을 개선하는 내용 등이 소개되었다.

두 번째 주제인 Sequence analysis부분에서는 SmithWatermanAlgorithmLocalAlignment분야에 있어 중요한 역할을 수행해왔으나, poorly conserved initial and terminal segments를 버리지 않음으로써, maximal percent of matches를 찾지 못하고, 단지 maximal score만을 찾는 단점을 지적. 이 단점이 최근에 주목 받고 있는 long genomic sequence 및 ComparativeGenomics에 적합하지 않음을 보이면서 새로운 Normalized Sequence alignment 알고리즘을 선보이는 내용이 있었다. 이 방법은 fractional programming에 기반을 두고, maximal degree of similarity를 제안함으로써 위의 단점을 해결할 수 있다고 한다. 현재의 SmithWatermanAlgorithm에 비해서는 3-5배 느린 문제점이 있다고 설명하였다. 발표중간에 Session chair로 있던 MichaelWaterman박사와 잠시간의 재미있는 논쟁을 통해 잠시간 회장을 웃음바다로 만들기도 하였다.

이외에도 gapped LocalAlignment에 대해 이들 분포의 parameters를 결정하는 문제가 computationally expensive task임을 지적하고, 기존 방법보다 5배 빠른 보다 중요한 Gumbel parameters 의 예측방법에 관한 알고리즘에 대한 설명 등이 있었다.

학회 넷째 날

넷째 날에는 최근 생물정보학의 핫 이슈답게 LargeScaleSequencingProteomics부분이 발표되었다. 역시도 Sequencing과 관련된 많은 문제들은 전산학 분야에서도 커다란 도전이 되고 있슴을 알 수 있었다. Sequencing관련해서는 HumanGenomeProject의 성공적인 마무리에 대한 언급을 들을 수 있었고, 최근 많은 곳에서 진행중인 미생물 Genome에 대한 FragmentAssembly의 새로운 전략, repeats DNA의 분리, scaffolds분석, 효율적인 GapClosing 전략 등이 소개되었다.

또한 Proteomics 관련 세션에서는 이미지분석 알고리즘, MassSpectrometry data로부터 Genome레벨의 GeneFinding등이 소개되었다. 특히 이날 점심시간에는 CeleraGenomics사 연구원 및 MichaelWaterman박사와 동석하게 되어 국내발전방향 및 MichaelWaterman 박사의 방한예정에 대한 언급을 들을 수 있었고, MichaelWaterman 박사와 직접 악수하고 명함까지 건넬 수 있었던 자리가 되었다. 또한, CeleraGenomics사의 연구원과 함께 생물학자의 전산학 공부, 전산학자의 생물학공부에 대한 재미있는 대화들을 나눌 수 있었으며, 자신의 주요 ProgrammingLanguage들에 대해 자랑도 하고(본인의 Python, CeleraGenomics사 연구원의 Lisp), FunctionalProgramming에 대한 중요성들을 들을 수 있었다.

CeleraGenomics사의 Genome programs vice president인 Mark Adams로부터 HumanGenomeProject와 관련된 많은 세부내용 들을 소개 받을 수 있었다. Whole assembly와 regional hybrid assembly가 동시에 사용되었으며, GenBank의 BAC data와 CeleraGenomics의 data와의 결합을 통해 500,000 bp 혹은 그 이상의 assemblies 90개 이상과 2510 Mbps 이상의 데이터를 얻을 수 있었다고 한다. 이로부터 26,178개의 protein encoding gene을 유추했으며, 12,000개의 mouse homologues를 찾아내었다고 한다. 향후, ComparativeGenomics analysis를 통해 neuronal function, tissue-specific developmental regulation, hemostasis, immune systems등을 연구할 것이라고 하였다. 또한, SNP연구 및 Proteomics연구를 병행함으로써 종합적인 생물정보시스템구축을 이룰 예정이라고 하였으며, 특히 Proteomics연구 분야로 One genome and a lot of proteome 이라는 주제로 나방류를 선정한 것이 이채로왔다.

최근 Sequencing project들의 증가로 FragmentAssembly는 중요한 분야로 떠오르기 시작했으며, 현존하는 FragmentAssembly의 기본 원리인 overlap - layout - consensus 방법은 현재 Phred, Phrap, CAP3, TIGR등을 통해 매우 유용하게 활용되고 있지만 WholeGenomeShotGun assembly 하기에 매우 어렵고, prokaryotic genomes에서 조차 repeat문제에 어려움을 겪고 있음을 인식하고, 새로운 접근방법을 제안한 내용이 있었으며, LargeScaleSequencing 작업 시, assembler를 매우 혼동스럽게 만드는 long repeats에 대한 구체적인 해결방안이 언급되었다. 또한 WholeGenomeShotGun sequencing project에 활용될 수 있는 multiplex PCR strategy에 관한 새로운 GapClosing Method가 제안되었다.

Proteomics 분야에 있어서 TwoDiPage image의 비교분석은 ComparativeProteomics에 중요한 부분이다. protein spots를 정확히 identifying 하고, 두 이미지간의 matching을 계산하는 문제는 NP-hard로 알려진 문제로서, 쉽게 구현되기 어려우나, User-defined landmarks를 사용하여 효율적으로 matching작업을 수행한 내용을 비롯해서 (HPLC-tandem mass spectrometry)와 Genomic sequence를 match시킴으로써, 유전자를 찾아내는 과정에 대한 설명이 있었다

포스터세션을 둘러보고

본 학회를 통해서 전세계 각 생물정보학 연구그룹의 연구성과 총 130편의 포스터가 게재되었다. 생물정보학 전반에 걸쳐 새로운 이론 및 접근방법 들이 소개되었다. 본 일행은 언어소통의 어려움 속에서도 하나라도 더 배워가고자 하는 신념아래, 관심분야에 대한 꾸준한 질문을 통해 세계적 연구동향을 인지할 수 있었다.

특별히 알고리즘에 관련된 본인의 질문에 대해 I like Heuristics approach. 이라고 대답하던 한 연구원의 말이 기억에 남는다. 본인의 생각에도 그러한 부분이 존재한다는 것은 전산학 분야의 또 다른 매력이 아닐까 한다. 수준 높은 기초이론을 탄탄히 갖추지 못하더라도, 다양한 접근 방법에 의해 솔루션을 얻을 수 있다는 것은 많은 부분에 자신이 할 수 있는 분야가 있슴을 인지할 수 있기 때문이다.

포스터 세션 중 특별히 관심 있던 포스터에 대한 소개를 하고자 하면, 진핵세포의 Sec containing protein은 다양한 기능을 가진다는 것과 common [Motif]s가 없다는 사실을 이용하여 SECIS elements를 recognition하고, selenoprotein gene finding 할 수 있는 프로그램을 개발한 내용을 통해 생명현상의 복잡성 및 생물정보학적 많은 솔루션들이 필요하다는 것을 느꼈으며, MembraneProtein에 대해서만 통계적 유의성을 얻어낸 후, 이로부터 새로운 ScoreMatrix인 TM matrix를 만들어낸 것에 관한 포스터설명이 있었다. 이 matrix는 기존의 ScoreMatrix에 비해 MembraneProtein에 관한한 보다 정확한 alignment score 및 분석정보를 제공할 수 있다고 했으며, 미지의 서열이 있다고 할 때 그것이 MembraneProtein인지 아닌지도 모르는 가운데 어떻게 위 ScoreMatrix를 사용할 수 있느냐는 본인의 질문에 대해 당연한 답인지는 모르겠지만, transmembrane prediction program을 사용하여 미지의 서열이 MembraneProtein일 확률을 계산한 후, 높을 경우 위 score matrix를 쓰면 된다는 대답을 얻을 수 있었다.

Biobridge라는 Sweden company에서 발표한 MassSpectrometry data를 이용한 단백질 동정 프로그램을 통해 Proteomics관련 생물정보학 분야가 세계적으로 새롭게 부각되는 분야임을 인식할 수 있었다. 내세우는 가장 큰 장점은 fully automatic protein identification system 이라는 점. Proteome work를 하는 곳에서 실제로 대량의 데이터를 움직이는데 효율적이도록 fully automatic system을 설계하는 것이 중요할 것이라고 느낄 수 있었다.

일본의 실제적인 ObjectOriented개념을 통해 biological system의 수학적 모델링 구현한 것을 살펴보고, 실제적으로 OOP과정을 생명현상 연구에 응용한 좋은 예라고 생각되었으며, 시스템적 접근방법에 의한 StrangeAttractor분석, 및 EmergentProperty 연구에 좋은 활용이 되리라 생각되었다.

돌아오면서

RECOMB2001은 학회제목에서 느껴지듯이 생물정보학 분야에서도 다분히 이론적인 부분들이 다루어지고 있다. 대부분의 연구과정을 살펴보면, 생물학자로부터 문제를 정확히 인식 받고, 그 문제를 해결하기 위한 현재의 ComputerScience 이론이 NP-Complete 혹은 NP-hard problem임을 인지한 후, 이를 어떤 방법으로 효과적이고 효율적으로 해결할 수 있을 지에 초점이 맞추어진 학회임을 알 수 있었다. 대부분의 세션 및 포스터 발표들이 전산학자에 의한 Algorithm 소개임을 비추어볼 때, 국내 및 회사의 생물정보학 발전을 위해서는 많은 전산학자들이 투입되어야 함을 느꼈으며, 이보다 선결과제로 이러한 생물학적 문제들을 정확히 인식하고, 전산학적으로 풀이하여, 전산학자들에게 연결시켜주는 과정이 있어야 함을 알 수 있었다.

물론, 그러한 이론들을 직접 만들어내는 일 이외에, 만들어진 이론들을 사용하여 효율적인 시스템을 구축하는 일도 중요하겠지만, 최근 다수의 생물정보학적 솔루션들이 라이센스를 걸고 있슴을 볼 때, 이대로 만들어진 이론만을 가공하는 것은 차후 지식식민지로의 전락 가능성이 있기에, 국내 및 회사의 발전을 위해서는 앞에서 제시한대로, 전산학 지식을 어느 정도 갖추면서 생물학적 문제인식이 가능한 인력과, 전문 전산학자, 그리고 시스템 개발자가 한데 어우러져야만 가능할 것이라 여겨졌다.

또한 최근의 DnaMicroArray에 의한 ExpressionProfile 분석에 대해서는 실제적으로 실험데이타를 조작해야 하는 만큼, 이를 위해서는 실험정보의 획득이 꼭 필요하다. 따라서 이 분야의 발전을 위해서는 실험데이타를 직접 생산해내는 곳과 전문 기술력을 갖춘 생물정보학적 분석기관이 공동작업을 하는 형태로 나아가야 할 것이다.

이번 학회를 통해 가장 절실히 느낀 것은 다방면을 통한 지식의 부재이다. ComputerScience, LifeScience, Statistics, 및 최근의 SystemDynamics, ComplexSystem 등 전반에 걸친 4일간의 학회내용은 우리 일행으로 하여금 지식의 부재를 느끼게 하기에 충분했으며, 세계 속에 우뚝 서야 할 우리나라를 위해 무한한 노력을 경주해야 함을 인식할 수 있었다.


AboutBioinformatics


CategoryArticle

RECOMB/2001Report (last edited 2011-09-08 13:15:38 by 211)

web biohackers.net