Clustering Example

다음의 예제는 Clustering기법을 최근 주목받는 DNA Microarray 실험해석에 적용한 예이다. 이러한 생물정보학적 분야외에도 많은 분야에서 사용되고 있음을 상기하기 바란다.

실험 : 시간별 대장균 유전자 발현패턴을 알기 위해 DNA Microarray실험. 대장균 시료를 2분간격으로 샘플링하여 총 16개의 유전자를 올려놓은 칩에 놓고 분석한다.

여기서 실제 DNA chip에는 보통 6000개의 유전자가 올려지며, 예제에 사용된 대장균은 DoublingTime이 20분이므로 cell cycle에 관한 시간별 10개의 데이타가 얻어질 것이다.

위 실험을 통해 얻을 수 있는 데이타는 각 유전자의 발현정량정도(수치데이타). 따라서 다음과 같은 matrix를 얻을 수 있다.

2분 4분 6분 8분 10분 12분 14분 16분 18분 20분

gene1
gene2
gene3
gene4
.....
gene16

위(10 * 16) matrix를 가지고 실제 시간대별 발현양상이 비슷한 유전자끼리 Clustering할 수 있다.

Average linkage method는 각각의 유전자를 순서에 상관없는 모든 조합에 대해 pair하고 이들 사이의 EuclideanDistance를 구한다. 그리고 가장 작은 쌍을 골라낸뒤, 그값의 평균을 취하고 그 두값을 버린 후 위의 과정을 반복한다.

소스코드참고