SAP HANA real-time Business Intelligence
Již není tou „drahou hračkou“ Od uvedení revolučního řešení od společnosti SAP již uběhla nějaká doba. Při uvedení na trh se nadšení z nové technologie často velice rychle vytratilo, když se zákazník dozvěděl cenu. Jistě, musíme se koukat na ROI (návratnost investice) a ne na pořizovací cenu, ale Česká republika zkrátka není USA nebo Německo, kde se dají vydělat násobně větší peníze, proto logicky není možné udělat velkou investici, za kterou není tak dobrá návratnost. Toto se však začíná dramaticky měnit! Startujeme kolem 1M Kč! Řešení business inteligence je tu od toho, aby investované peníze rychle vrátilo zpět ve formě úspěšných rozhodnutí a zaměření firem správným směrem. Pak se můžeme bavit o ROI v řádu měsíců!
Co to vlastně řešení SAP HANA je?
Jedná se o naprosto nové řešení databáze. Vše bylo vyvinuto v tomto tisíciletí pro technologie tohoto tisíciletí. Historicky byli databáze vytvořeny pro strukturované ukládání a zprávu informací, jenže v dnešní době Internet-Of-Things, kdy se data generují raketovým tempem, tyto staré databázové systémy přestávají dostačovat. Zpracování nějakého dotazu trvá hodiny a v extrémních případech i dny. Dynamická doba potřebuje rychlé rozhodování a k tomu potřebujeme aktuální informace. Informace v reálném čase. Největší nepřítel rychlosti v počítačovém světě je latence. Jediné, jak čelit tomuto problému, je zkrátit trasu po které informace putuje. Přibližovat se tedy co nejblíže procesoru. Pokud bychom si to vyjmenovali v klasickém řešení tak je to: 1) Pevný disk 2) Police na pevné disky 3) Procesory diskového pole 4) SAN přepínač 5) HBA v serveru 6) PCIe Sběrnice 7) CPU Cache (nové generace procesorů Intel mají technologii Data Direct I/O, která umožňuje přímý přístup na PCIe sběrnici.) 8) CPU Z výše uvedeného výčtu je jasné, že zde je spousta kroků, které nám přidají čas k celkovému požadavku na získání informace. Jak toto zkrátit není novinkou. Zkrácení je jednoduché, stačí vložit do cesty nějakou paměť, ze které se data načítají samozřejmě mnohokrát rychleji. Jako například CPU Cache. Problém ale je velikost této paměti. Pokud chcete dnes řešit nějaký BIG DATA dotaz, znamená to přístup ke všem datům a ne jen k těm, co jsou v CPU Cache. Toto se dá udělat např. přes RAM v serveru, jenže do nedávna tato RAM byla velice malá. Dnes se již začínáme bavit o TB kapacity! V řešení SAP HANA je tedy přístup k datům výrazně zkrácen: 1) RAM 2) CPU Cache 3) CPU Nejsou to ale pouze „tvrdé“ schopnosti (HW), ale společnost SAP doplňuje i o „měkké“ dovednosti (SW)
-
Data v sloupcích místo řádcích: Běžné databáze mají data uložená v řádcích, např. pan XY bydlí v tom a tom městě. Vyhledávání lidí podle měst je pak poměrně náročné, je třeba projít všechny záznamy/řádky a zjistit, zda dotyčný v požadovaném městě bydlí či nikoliv. V databázi HANA jsou naopak data uložená ve sloupcích, v prvním sloupci je jméno, v dalším pak město, kde dotyčný bydlí. Při vyhledávání podle měst není nutné procházet všechny řádky a kontrolovat, kde dotyčný bydlí, tuto informaci už máme k dispozici. Jistě, v běžných databázích tuto informaci poskytují indexy, jejichž vytváření a údržba jsou poměrně náročné. V HANA databázi náklady na operaci indexy odpadají. Obecně je tak provádění složitějších analýz nad daty, které jsou uložené ve sloupcích, mnohem efektivnější.
Klasické uložení dat vyžaduje pro vyhledávání dle Bydliště složitou indexaci. SAP HANA sloupcové uložení umožňuje právě pro BIG DATA dotazy typu „ukaž mi všechny lidi z Berounska mezi 25-50 lety“, odpovědět daleko rychleji.
- Paralelní zpracování: uložení ve sloupcích přináší i širší možnosti paralelního zpracování. Při zpracování takto uložených dat dochází k jejich blokaci pouze částečně. Data tak mohou být zpracovávána více procesy a je možné nad nimi provádět více paralelních operací.
- Komprese: data uložená po sloupcích je možné také jednodušeji komprimovat. Obdobné údaje bývají totiž uložené ve stejném sloupci a je tedy vysoká pravděpodobnost, že zde bude více stejných záznamů.
- In-memory: Jak již bylo zmíněno výše, oproti běžným databázím HANA uchovává data přímo v operační paměti. Není nutné je tak načítat z fyzického disku, což je časově náročná operace.
- Replikační technologie: součástí HANA může být i nástroj pro replikaci dat z externích zdrojů do HANA databáze. Tento nástroj umožňuje rychlé přenášení velkého množství dat z různých externích zdrojů do centrální HANA databáze, stejně jako jejich průběžnou aktualizaci. Je tak možné shromažďovat aktuální data z různých zdrojů na jednom místě a zde s nimi dále pracovat.
-
Vývojové nástroje: součástí HANA je i nástroj pro vyvíjení aplikací přímo pro HANA databázi a data v ní uložená. Zákazník sám si tak může napsat aplikaci na míru, která plně využije výhod HANA databáze.
To není ale všechno!
Společnosti Intel a Dell se dali dohromady a vytvořili řešení, která podporují řešení SAP HANA.
Společnost Intel doporučuje pro řešení SAP HANA nejspolehlivější procesory Intel Xeon E7. Tyto procesory jsou nejvyšší řadou a představují tu nejvyšší kvalitu a dostupnost. Jedná se o řadu procesorů architektury x86, která je ale stavěna jako přímý konkurent mainframe systémům. Hlavním parametrem zde je dostupnost představená fukcemi RAS (Reliability, Availability, and Serviceability). SAP HANA je přímo ve středu řízení společnosti a slouží jak pro strategické tak taktické rozhodování. Není proto možné si dovolit delší výpadek. http://www.intel.com/content/www/us/en/processors/xeon/xeon-e7-v2-family-performance-animation.html
Intel Xeon E7 procesor vytvořen pro „pět devítek“
- Intel® Run Sure Technology+, technologie pro snížení četnosti a nákladů spojených s plánovaným a neplánovaným výpadkem
- MCA Recovery Execution Path, technologie umožňující systému se zotavit po určitých chybách, které by jinak byli fatální.
- Enhanced MCA Gen 1, technologie pro vytváření chybových logů, pro lepší diagnostiku a prediktivní předcházení chybám.
- MCA I/O, technologie pro diagnostiku chyb I/O pro operační systém
- PCIe* Live Error Recovery (LER), technologie pro zvýšení dostupnosti systému, díky zpracování chyb PCIe sběrnice, které by jinak způsobily jeho zhroucení
Intel Xeon E7 technologie pro podporu řešení SAP HANA
http://www.intel.com/content/www/us/en/processors/xeon/xeon-e7-v2-family-in-memory-animation.html
- Intel® Hyper-Threading Technology (Intel® HT Technology). Umožňuje každému procesorovému jádru zpracovávat dva instrukční proudy současně. SAP HANA využívá této technologie díky vlastnímu zaměření databáze na paralelní zpracování.
- Non-Uniform Memory Access (NUMA). Snižuje komunikační zátěž paměťových přístupů mezi procesory. Technologie, která umožňuje adresaci pouze té paměti, která je přímo připojena k danému procesorovému jádru. SAP HANA této technologie využívá právě díky znalosti kde daná data jsou a zrychluje tak tím zpracování úloh.
- Intel® Turbo Boost Technology umožňuje procesoru běžet na vyšší frekvenci než nominální při splnění jistých podmínek. SAP HANA využívá této funkcionality automaticky pro zvýšení výkonu zpracovávání úloh.
-
Větší L3 Cache umožňující posunout více dat blíže CPU
Společnost Dell celé řešení zastřešuje kombinací SW a HW řešení na míru
Jelikož velikost zpracovávaných dat je v každé společnosti jiné, je třeba vytvořit více škálových řešení. Základní rozhodnutí je zda chci, aby řešení bylo škálovatelné v budoucnu a zda chci, aby bylo vysoce dostupné. Jednoduché řešení, které není redundantní a neumožňuje škálovat se jmenuje SINGLE NODE. Škálovatelné řešení, které je možné zároveň rozšířit o vysokou dostupnost se jmenuje SCALE-OUT
Řešení DELL SAP HANA SINGLE NODE
Řešení je založeno na vlajkové lodi serverového portfolia spol. Dell PowerEdge R920 s procesory intel E7 http://youtu.be/ibAv4xYvwCI Více o Dell serverech si můžete přečíst zde: http://www.optimalizovane-it.cz/hardware/software-defined-ready-dell-poweredge-13.-generace-serveru.html SAP HANA SINGLE NODE varianty:
Řešení DELL SAP HANA SCALE-OUT
SAP HANA Scale-out varianty: Jako hlavní DB server je stále R920 s procesory intel E7 Rozšířené diskové úložiště je Dell Compellent o tom více zde: http://www.optimalizovane-it.cz/hardware/dell-storage-portfolio-2014.html
Zdroje, ze kterých můžete čerpat více informací : Dell stránky o řešeních SAP: http://www.dell.com/learn/us/en/555/campaigns/dell-and-sap-ga-partners v ČR pomáhá s těmito řešeními Value Added Distributor DNS: http://www.dns.cz/dell/saphana Konkrétní dodávy zákazníkům se dají řešit přes SAP partnery jako je například Sabris: http://www.sabris.com/cz