Optimalizované IT - portál pro IT pro komunitu

Operation Management Suite – První díl: Obecně o OMS část 1

Vytisknout E-mail

1 1 1 1 1 1 1 1 1 1 Rating 0.00 (0 Votes)

V poslední době Microsoft uvolňuje do široké veřejnosti své produkty, které jsou již dlouho na trhu, ale jejich využívání administrátory bylo poněkud omezené a málo kdo tyto online produkty zná. Během tohoto seriálu vám ukáži, co všechno vám může přinést produkt Operation Management Suite jako samostatný produkt, podíváme se, zda dokáže nahradit monitoring celé infrastruktury a to jak Online, tak OnPremise a zaměříme se na jeho hlavní funkcionality.

Během tohoto seriálu se nebudeme zabývat, až tak jeho vlastním nasazením, jelikož to je pouze instalace System Center Operation Manager Agenta na koncové zařízení, ale spíš možnostmi a funkcionalitami, které vám tato služba přináší a to i zadarmo nebo v rámci předplacených subskripcí.

Abychom společně mluvili stejnou řečí, pokusím se zde uvést menší slovník použitých výrazů

  • Tenant - prostředí, v rámci kterého provozujete cloudové služby, obsahující primárně vaše vlastní Azure AD a je jedinečným v rámci prostředí Microsoftu. Jeho název je striktně definován a nikdy jej nelze změnit (tvar názvu vypadá zhruba takto defense-ops.onmicrosoft.com a v případě OMS vypadá takto defense-ops.portal.mms.microsoft.com)
  • Azure AD - Online verze Active Directory, obsahující objekty buď v online režimu (In-Cloud) nebo synchronizované z vašeho lokálního Active Directory (Synchronized)
  • Cloud - prostředí u poskytovatele, kde máte hostovány služby SaaS, PaaS nebo IaaS. Nemusí se jednat jen o Azure, ale může zde být i AWS nebo servery u nějakého místního poskytovatele
  • OnPremise - místo kde jsou umístěny vaše servery a máte k nim fyzický přístup
  • OMS - zkratka pro Operation Management Suite dříve Azure Operational Insights
  • SCOM - zkratka pro System Center Operation Manager
  • Solution Pack - obdoba Management Packu v SCOM, tudíž připravené řešení, obsahující v sobě eventlogy, selecty, grafy, trigery, které jsou pak zobrazovány v rámci daného řešení

Tak na začátek trošku obecně, abychom věděli proč

Operation Management Suite je dle slov Microsoftu nástroj pro správu a ochranu OnPremise a Cloud infrasruktury, který je schopen integrovat různé produkty a sondy z lokální infrastruktury přímo do sebe, jako například Syslog server, do kterého jsou zaznamenávány logy pomocí SNMP trapů z fyzických zařízení, sbírá event logy a kontroluje anomálie v prostředí. Já bych osobně tento produkt klasifikoval jako malý SIEM nebo monitoring s možností implementace některých procesů ITSM jako je například

  • Continuity Management (Backup a Disaster recovery)
  • Availability Management
  • Configuration Management
  • Access Management
  • Capacity Management

Zrovna tyto procesy se mi velice líbí, jelikož je společnosti málo kdy řeší, případně řeší jen availability a continuity management a co je hlavním důvodem? Dle mých zkušeností je to neznalost těchto procesů nebo finanční stránka věci. Když se společnost rozhodne tyto procesy implementovat, je nutné vydat nemalého úsilí, které by stálo připravit prostředí tak, aby tyto procesy bylo schopno absorbovat.

Pokud se rozhodneme pro implementaci, tak musíme vždy:

  • Uzpůsobit infrastrukturu pro dané procesy
  • Nasadit potřebná workflow, směrnice, plány a eskalační schémata, atd..
  • Mít nástroj pro sběry dat
  • Nastavit trigery a eskalace
  • Mít nástroj pro rychlé vyhodnocení dat
  • Mít know-how pro přečtení dat

A to všechno jen, abychom byly schopni provést správné závěry a vyhodnotit zda se jedná o:

  • True Positive vs False Positive
  • True Negative vs False Negative

O těchto typech informace najde určitě více na wikipedii, kde je vše velmi pěkně zobrazeno a vysvětleno:

· https://en.wikipedia.org/wiki/Sensitivity_and_specificity

Tak v čem mi vlastně může pomoci OMS?

OMS jako nástroj pro management a monitoring prostředí obsahuje 4 základní části a to:

clip_image002

Velkou výhodou celého systému je, že není striktně určen pro Azure nebo Cloudové služby, ale je možno jej využít i v OnPremise infrastruktuře. Dále pak není určen jen pro Windows Servery a počítače, ale umí sledovat performance a logy i v Linuxovém prostředí, případně je schopen se integrovat do dalších služeb jako jsou například služby Office365, SQL, Docker, atd...

Podobných nástrojů existuje celá řada a hodně jich je na platformě Linux, přičemž některé jsou od ostatních vendorů jako například Symantec. Níže se můžeme podívat na mapu funkcionalit, které jsou dostupné v OMS a ostatní produkty jimi bohužel nedisponují. Pro lepší srovnání je zde uvedena i orientační cena, za kolik je možno pořídit dané produkty per VM na měsíc.

clip_image004

Tak jdeme na to - Insight & Analytics

Nejprve tady začněme tím největším a to je Log Management (Insight & Analytics), který je plnohodnotným nástrojem pro Log management, configuration management a mnoho dalšího.

Odbočka: Zažil jsem v životě několik situací, kdy jsem si říkal "Bylo by dobré sbírat logy, umístit je na centrální server a vyhodnocovat" toto vás určitě napadlo již mockrát, ale ve chvíli, kdy jste zapnuli tento Log Management (audit mód ve Windows Serveru), tak jste určitě došli k podobnému závěru jako já. Workload na CPU stoupl cca o 10 - 20% (na Terminálu, Sharepointu nebo Exchange ještě mnohem více), stoupl workload na RAM (5 - 10%) a v případě, že jste chtěli mít logy centrálně na jednom Syslog serveru (jinak by to asi nedávalo celé smysl), tak i zátěž na síťových kartách. V neposlední řadě při 10 serverech jsem potřeboval poměrně velkou diskovou kapacitu, abych logy mohl ukládat a tak jsem se dostal stejně do stavu, že jsem mohl sbírat cca 14 dní zpětně. Nakonec to dopadlo tak, že 14 dní mi nestačilo, a tak jsem se stejně musel vrátit ke starému známému Event Logu přímo na serveru :(

Log management v OMS v sobě obsahuje poměrně velké množství Solution Packů, které mají předpřipravené filtry a grafy pro snadné vyhodnocení informací, které jsou zaznamenávány do OMS z přenesených logů systému a je jen na vás jak často budete stahovat data ze serverů a jak často budete provádět performance monitoring. Můžete i specifikovat jaké event logy, jejich typ, a jaké performance countery budete do OMS posílat.

 

 

V rámci Insight & Analytics může najít tyto Solution Packy:

  • AD Replication Status - Analyzuje replikační stav mezi doménovými řadiči v rámci domény nebo forestu a pomáhá troubleshotovat problémy s replikacemi v Active Directory
  • AD Assessment - kontroluje zdraví vašeho Active Directory prostředí. Doporučuje a kategorizuje rizika a nabízí řešení pro eliminaci těchto rizik
  • Alert Management - shlukuje informace o zaslaných alertech z prostředí a napomáhá lepší integraci v rámci nastaveného pohledu na alerty z jednotlivých řešení
  • Azure Networking Analytics - sleduje problémy mezi Azure sítěmi a poskytuje globální pohled nad network security group a aplikační gateway logy
  • Agent Health - sleduje dostupnost agentů na jednotlivých zařízeních
  • Application Insights Connector - shlukuje data z jednotlivých sond do uceleného pohledu, kde je možno sledovat v rámci aplikační analýzy věci jako dostupnost, zobrazení stránek, přidávat volitelné event logy, telemetrii, atd.
  • Application Dependency Monitor - tento solution pack agreguje informace a závislosti služeb a definuje přidružené zdroje k jednotlivým aplikacím
  • Container Monitoring - tento Solution Pack sleduje stavy kontejnerů, zatím však jen na Linuxovém prostředí
  • DDI Analytics - provádí monitoring služeb jako DNS, DHCP a IP infrastruktury
  • Key Vault Monitoring - monitoruje Key Vault Service z Azure nebo z Azure Stacku
  • Network Performance Monitor - sleduje síťové zatížení, latence mezi sítěmi, nody, subnety společně s datovými přenosy mezi uvedeným endpointy
  • Office365 Analytics - provádí analýzu Office365 a sleduje stav služeb Office365
  • System Center Operation Manager Assessment - sleduje zdravotní stav prostředí SCOMu a navrhuje patřičná opatření k eliminaci daných problémů
  • Service Fabric Analytics - pomáhá identifikovat problémy napříč vaším Service Fabric clusterem a sleduje služby micro-service a performance těchto služeb
  • Surface Hub Monitoring - sleduje stavy Surface Hub zařízení
  • SQL Assessment - sleduje stavy SQL služeb na jednotlivých serverech, dává doporučení na změny a řeší návrhy na upgrade a mnoho dalších služeb v rámci SQL serveru
  • VMWare Analytics - Sleduje stav jednotlivých VMWare serverů a jeho guestů z pohledu výkonu, komunikace, atd..
  • Wire Data - poskytuje detailní informace o datových přenosech, typech datových přenosů a komunikace odchozí a příchozí, včetně automatické lokalizace IP (stát ze kterého probíhala komunikace a na jakém typu protokolu)

Některé tyto Solution Packy jsou označeny jako Preview verze k nahlédnutí, což znamená, že mohou být ještě upraveny Microsoftem, ale primárně budou takto vypadat a obsahovat dané funkcionality. Nelze však podchytit všechny změny, které se zde provádějí, a proto záměrně neuvádím, které Solution Packy jsou označeny jako Preview verze.

Tím bychom uzavřeli tento díl seriálu o Operation Management Suite a příště se podíváme na Automation & Control, Security & Compliance a Protection & Recovery. V dalších dílech seriálu se podíváme detailně na každý Solution Pack, na integrace s PowerBI a možnosti vytváření vlastních Solution Packů, dále na licencování a integrace se SCOM Serverem.

 

 

 

Malá ochutnávka z tohoto co vás ještě čeká v dalších dílech tohoto seriálu o OMS

clip_image006

Díky, že jste se dočetli až sem a budu se těšit u dalšího dílu

Daniel Hejda | Senior konzultant KPCS and P-Seller Microsoft

MCSD: Azure Solutions Architect

MCSE: Cloud Platform and Infrastructure

MCSE: Productivity

MCSE: Server Infrastructure

MCSE: Messaging

MCSA: Windows Server 2012

MCSA: Office 365

O autorovi...
Author: Daniel Hejda
Senior konzultant KPCS and P-Seller Microsoft

Přihlašovací formulář