美國耶魯大學發表新的降維視覺化方法 PHATE,以資料點間的幾何距離來突顯 local 與 global 非線性結構。隨著許多不同類型的高維度生物資料產生,如何能保留生物資料中重要且感興趣的結構並視覺化顯得相當重要。目前常見的降維方法如 PCA 與 t-SNE,但其對 noise 相當敏感,而生物醫學資料存在許多雜訊導致可能無法識別精細的局部結構,再者非線性方法(如 t-SNE)通常會擾亂資料的全域結構。
作者將 PHATE 與其他降維工具 (PCA、Diffusion maps、t-SNE、lsomap、Force-directed layout、UMAP、Monocle2) 以 5 份 scRNA 資料集分析比較,結果顯示 PHATE 能有效解決細胞異質性及保留資料的特性,包括連續性過程、分枝(branch)和聚類分析,其中許多分支與作者驗證的細胞類型或 cluster 一致 (亦存在於 Force-directed & t-SNE),但在 Force-directed layout 往往會產生帶有較少分支的視覺化效果,此外,t-SNE 傾向於將軌跡打碎成 clusters,以至於無法真實呈現資料中的 natural clusters。
PHATE 可適用於各種生物資料型態,包含基因體表型分析、質譜資料、單細胞分析、Hi-C 與微生物體資料等,作者希望透過 PHATE 提供新的大規模高維度資料視覺化工具,徹底改變生物醫學數據的探索方式。
https://www.nature.com/articles/s41587-019-0336-3?fbclid=IwAR3pUGj04BKwhmYh-_NOW1XTxPOcrmu-LjIbEVf6aA1JRtR4--axUUZb0r0
沒有留言:
張貼留言