本發明提供一種針對FASTQ數據的多線程快速存儲無損壓縮方法,應用于DNA序列的壓縮,其中,所述方法包括:數據分類步驟:輸入原始FASTQ數據,并將所述原始FASTQ數據的短讀分成元數據、質量分數和堿基序列三個數據流;數據壓縮步驟:針對元數據,利用增量編碼方式進行檢測并消除元數據的冗余信息;針對質量分數,利用比特級別的PPM預測模型和算術編碼進行壓縮;針對堿基序列,利用固定階位的改良型算術編碼進行壓縮;數據輸出步驟:將不同數據流的壓縮結果進行歸檔合并,輸出經過壓縮后的最終數據。本發明還提供一種針對FASTQ數據的多線程快速存儲無損壓縮系統。本發明提供的技術方案能提高壓縮效率和壓縮速度。
聲明:
“針對FASTQ數據的多線程快速存儲無損壓縮方法及其系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)