Corectarea șirurilor de caractere folosind distanța Damerau-Levenshtein | BMC Bioinformatics

Algoritmi cu un singur nucleu
Algoritmul spațial liniar L S_D L
Algoritmul de spațiu liniar S t r i p_D L eficient din punct de vedere al memoriei cache
Algoritmul de trasare în spațiu liniar L S D L_T R A C E
Algoritmul strip trace S t r i p_T R A C E
Algoritmi multi-core
Algoritmul P P P_D L
Algoritmul P P P_L S_D L
Algoritmul P P P_S t r i p_D L
Algoritmul P P P_D L_T R A C E
Algoritmii P P P_L S D L_T R A C E și P P P_S t r i p_T R A C E

Algoritmi cu un singur nucleu

În această secțiune, dezvoltăm patru algoritmi cu un singur nucleu în spațiu liniar pentru corectarea șirurilor de caractere folosind distanța DL. Toți patru se execută în timp O(mn). Primii doi (LS_DL și Strip_DL) calculează doar scorul Hmn al urmei optime; ei diferă în ceea ce privește eficiența memoriei cache. Ultimele două (LSDL_TRACE și Strip_TRACE) calculează o urmă optimă.

Algoritmul spațial liniar L S_D L

Să fie s dimensiunea alfabetului. În loc să folosească matricea H utilizată în DL, algoritmul LS_DL utilizează o matrice unidimensională U și o matrice bidimensională T. Aceste două matrice au un necesar de spațiu de O((s+1)n) = O(n) pentru constanta s. Când m<n, se poate schimba A și B pentru a reduce memoria necesară. Adăugând memoria necesară pentru A și B, complexitatea spațială este O(s min{m,n}+m+n) = O(m+n) când s este o constantă.

Ca și în algoritmul DL, valorile Hij sunt calculate pe rânduri. Matricea unidimensională U este utilizată pentru a salva valorile H calculate de algoritmul DL atunci când se calculează rândul i. Fie H ultimul rând calculat pentru caracterul c. Atunci, T este rândul w-1 din H. Algoritmul 2 prezintă pseudocodul pentru LS_DL. Corectitudinea acestuia rezultă din corectitudinea algoritmului DL. Rețineți că swap(T],U) necesită un timp O(1), deoarece se schimbă indicatorii către 2 matrici unidimensionale și nu conținutul acestor matrici. Numărul de pierderi de memorie cache pentru LS_DL este același cu cel pentru DL atunci când n este suficient de mare, deoarece ambele au același model de acces la date. Cu toate acestea, în cazul instanțelor mai mici, LS_DL va prezenta un comportament mult mai bun în memoria cache. De exemplu, datorită faptului că utilizează mult mai puțină memorie, este posibil să avem suficientă memorie cache LLC pentru a stoca toate datele în LS_DL, dar nu și în DL (O(sn) față de O(mn)).

Algoritmul de spațiu liniar S t r i p_D L eficient din punct de vedere al memoriei cache

Când (s+1)n este mai mare decât dimensiunea memoriei cache LLC, putem reduce ratarea memoriei cache în raport cu algoritmul LS_DL prin calcularea lui Hij prin benzi de lățime q, pentru un anumit q mai mic decât n (ultima bandă poate avea o lățime mai mică decât q). Acest lucru este prezentat în figura 3. Benzile sunt calculate în ordinea 0, 1,… folosind algoritmul LS_DL. Cu toate acestea, spațiul necesar pentru T și U în LS_DL este redus la (s+1)q, deoarece lățimea benzii este q în loc de n. Alegând q suficient de mic, ne putem asigura că blocurile din array-urile T și U utilizate de LS_DL nu sunt evacuate din memoria cache după ce sunt introduse. Astfel, dacă fiecare intrare din T și U ocupă 1 cuvânt, atunci când dimensiunea cache-ului este lw, avem q<lw/(s+1). Rețineți că, în plus față de T și U, memoria cache trebuie să conțină părticele din A, B și alte matrici necesare pentru a trece datele de la o bandă la alta.

Algoritmi cu un singur nucleu

Algoritmul spațial liniar L S_D L

Algoritmul de spațiu liniar S t r i p_D L eficient din punct de vedere al memoriei cache

Algoritmul de trasare în spațiu liniar L S D L_T R A C E

Algoritmul strip trace S t r i p_T R A C E

Algoritmi multi-core

Algoritmul P P P_D L

Algoritmul P P P_L S_D L

Algoritmul P P P_S t r i p_D L

Algoritmul P P P_D L_T R A C E

Algoritmii P P P_L S D L_T R A C E și P P P_S t r i p_T R A C E

Lasă un răspuns Anulează răspunsul