FAMSA: Fast and accurate multiple sequence alignment of huge protein families

"FAMSA: Fast and accurate multiple sequence alignment of huge protein families - Scientific Reports". Nature. https://www.nature.com/articles/srep33964 (accedido el 20 de marzo de 2023).

FAMSA es un algoritmo diseñado para una alineación rápida y precisa de miles de secuencias de proteínas

Llega a ser superior a los algoritmos de la competencia como Clustal Omega o MAFFT para conjuntos de datos superando unos pocos de miles de secuencias

Para resolver un problema de alineamiento de secuencias múltiples, se necesitan 3 etapas:

Una construcción de árbol guía

Cálculo de un matriz de similitud para secuencias investigadas

Algunos utilizan el cálculo de alineaciones por pares de la mayor probabilidad o precisión máxima esperada

Alineación codiciosa de acuerdo con el orden dado por el árbol

Otros emplean enfoques aproximados

Permite que se alineen miles de secuencias en un periodo de tiempo razonable mejorando la calidad de la alineación y el tiempo de ejecución

MÉTODO

FAMSA consta de 4 etapas:

Determinación de un árbol guía

Cálculo de similitudes por pares

Refinamiento iterativo opcional del perfil final

Fusión progresiva de perfiles según el orden del árbol guía

image

image

image

Utiliza enlace simple porque se puede calcular incrementalmente, es muy rápido, los resultados fueron de calidad superior

Requiere perfil O(k) alineaciones, cada una calculada por medio de programación dinámica. Puede ser simplificado por las variantes especializadas del procedimiento general de DP.

Corrige desalineaciones hechas en las primeras fases de la alineación del perfil.