Az egyik probléma a rendszer, hogy minden ismétlődő sorokat lenne ismételni hash; soha nem tudnál azonosítani, ha egy ilyen vonal adunk vagy törölt
Nagyon jó pont, de nem probléma. A megismételt vonal egy példányban, és minden ismétli hagyni a következő feldolgozási szakaszban. Tehát igen, igazad van, de ez nem okoz problémát.
„Diff” link elvisz egy oldalra egy leírást, amit vállalnak egy olyan alkalmazás? Nincs letöltési linket, nincs kód bármely nyelven ... Mit hagytam itt?
Néhányan közületek már beszéltünk bájtszinten részletesség. Ez nem szükséges. Csak vonalszintű részletesség van szükség, mert ha valami a vonalon már megváltozott, az egész sort (rekordot) kell regenerálni becasue bármilyen változás a vonalon belül kihat az egész vonalon.
Tehát azt összehasonlítjuk vonalak kb 1000 karakter (nem bináris), a két fájl (mai helyzetkép és yesterdays snapshot), amelyek mindegyike kb 1m vonalak.
Tehát egy biztonságos hash mint SHA256 (MD5 van ütközések és lassú képest) tudok feldolgozni kb 30MB / sec én HO laptop. A szerver természetesen elfogy a mely sokkal gyorsabb.
Tehát, ha a fájl Arond 1GB, majd így minden hases kb 33sec, és az olvasás 1Gb fájlt a Windows oldalas memória kb 30 mp. nem szörnyű
Most két tömbök hashs képviselő sorok minden fájlt. Ha rendezni őket, most már bináris keresés használatával, így sokszor ismételjük meg végig az új fájlokat hashs keres egy mérkőzés a régi fájlokat hashs. Ha mi dont találják, hogy sorral egészül ki a változásokat fájlt.
Tartsuk szem előtt, hogy a könyv a vonalak (legacy adatbázis) ismeretlen minden szempontból. Nincs garancia arra, hogy az Elsőfokú sor, helyszín változik, a fajta változás.
A javaslatokat az olvasás foreward oldalanként jó, de feltételezi, hogy a két fájl a smae rendelésre, amíg az első változás. Ezt nem lehet feltételezni. A vonalak (sorok) lehet bármilyen sorrendben. Szintén egy tetszfileges blocksize sérti tagoltságát egy sort. Az E feladat vonalak megváltoztathatatlan.
Ettől kiváló kapcsolatot invrementa betöltés: Fájl Összehasonlítás Capture: Ez a módszer is ismert, mint a pillanatfelvétel eltérés módszer. Ez a módszer működik tartása előtt és után képek fájlok, amelyek foglalkoztatják az adattárház. A rekordokat összehasonlítva azt találtuk, változások, és rekord kulcsok összehasonlítva azt találtuk, beszúrások és törlések. Ez a technika a legalkalmasabb esetében örökölt rendszerek annak a ténynek köszönhető, hogy a kiváltó általában nem léteznek és tranzakciós naplók vagy nem létezik, vagy egy saját formátumban. Mivel a legtöbb régebbi adatbázisok valamilyen mechanizmus dömping adatok fájlokat, ez a technika teremt rendszeres pillanatfelvételek, majd összehasonlítja az eredményeket okoznak változást rekordokat. Természetesen, minden probléma statikus befogó jelen vannak itt. Komplexitás vezetünk a kihívás összehasonlítása egész sora információk és a kulcs azonosító és az illesztés. Ez a technika komplex jellegű, és jellemzően nem kívánatos, de néhány esetben, lehet az egyetlen megoldás.
Ez a legfontosabb idevonatkozó: Ahogy haladunk a birodalmába terabyte adattárházak, a képesség, hogy újjáépítsék az adattárház a semmiből minden éjjel fog menni, ahogy a dinoszauruszok. A logikai és hatékony megközelítés frissítése adattárház jár valamilyen formában az inkrementális frissítési stratégiát.
Szóval azt hiszem, én vagyok a helyes úton, akkor? A B-fán alapuló index nem engedheti meg magának előnyt?