icon2

IT Operation Management เป็นบทบาทสำคัญ ที่ช่วยทำให้ Digital Transformation ก่อให้ประสบความสำเร็จ หรืออาจจะล้มเหลว และการที่จะทำให้ IT Operation Managerment มีประสิทธิภาพได้สูงสุด คือต้องนำ AIOps Platform เข้ามาในการทำงาน
ในโลกยุคปัจจุบันที่ธุรกิจขับเคลื่อนด้วย Digital Technology การปฏิบัติการด้าน IT operations มีความท้าทาย 3 เรื่องใหญ่ๆ คือ
การขยายตัวของ IT Infrastructure ทำให้เกิดข้อมูลทั้ง events, metrics, traces, network flow data, telemetry data ซึ่งมีรูปแบบหลายหลาย (variety) มีปริมาณมหาศาล (volume) มีความเร็ว (velocity) ทั้งแบบ real-time และ historical ทำไม่สามารถเห็นข้อมูลเชิงลึก (insight) เพราะขาดเครื่องมือที่มาจัดการวิเคราะห์ข้อมูลปริมาณมหาศาล (big data) เหล่านี้ ทำให้งาน IT Operations ไม่สามารถส่งมอบคุณค่าที่อยู่ในข้อมูลเหล่านี้ให้กับธุรกิจ
การมีเครื่องมือบริหารจัดการและเฝ้าระวังด้าน IT หลายตัวเพื่อบริหารจัดการด้านต่างๆ ได้แก่ ITIM, ITSM, NPMD, SIEM, APM, DEM กลับเพิ่มเวลาในการหาสาเหตุและแก้ไขปัญหา เนื่องจากมีรอยต่อในการทำงานระหว่างระบบหรือเครื่องมือต่างๆ
การปฏิบัติการด้าน IT โดยส่วนใหญ่มุ่งตอบโจทย์เฉพาะฝ่าย IT โดยมักจะขาดการวิเคราะห์ข้อมูลเชิงลึกที่ส่งผลต่อธุรกิจ และไม่ทราบประสบการณ์การใช้งานด้านดิจิทัล (Digital Experience) ของผู้ใช้งานหรือลูกค้า

icon2

AIOps ย่อมาจาก Artificial Intelligence for IT Operations หรือการนำเทคโนโลยีปัญญาประดิษฐ์ (AI) มาใช้ในการปฏิบัติการด้านเทคโนโลยีสารสนเทศ คำว่า AIOps ถูกบัญญัติขึ้นมาโดยบริษัทวิจัยระดับโลกอย่าง Gartner ซึ่งพูดถึง AIOps platform ที่ใช้เทคโนโลยี Machine Learning มาจัดการข้อมูลมหาศาล (big data) ที่ถูกสร้างมาจากระบบ IT ซึ่ง Gartner ได้อธิบายว่า AIOps Platform จะช่วยเพิ่มประสิทธิภาพกระบวนทำงานต่างๆ ของการปฏิบัติการด้าน IT อาทิเช่น anomaly detection, event correlation และ root cause analysis (RCA) เพื่อที่จะปรับปรุงการการเฝ้าระวัง (monitoring) การบริหารจัดการงานบริการ (service management) และการทำงานแบบอัตโนมัติ (automation tasks) ให้ดีขี้น โดยครอบคลุม 3 ด้านได้แก่

Observe (Monitoring) แพลตฟอร์มจะได้รับข้อมูล real-time และ historical ในรูปแบบ events, metrics, traces, topology จากระบบ IT ต่างๆ และมีการทำ historical analysis, anomaly detection, performance analysis และ correlation & contextualization
Engage (ITSM) แพลตฟอร์มจะได้รับข้อมูล incidents, dependencies และ changes และมีการทำ task automation, change risk analysis, SD agent performance analysis, knowledge management
Act (Automation) แพลตฟอร์มสามารถวิเคราะห์และรัน playbook เพื่อตรวจสอบ (Self-Diagnostic) แก้ไขปัญหา (Self-Healing) กู้คืน (Self-Recovery) และป้องกันปัญหา (Self-Prevention) ระบบ IT แบบอัตโนมัติ โดยเฉพาะงานที่เกิดซ้ำ (recurring task) ทั้งนี้เพื่อลด incident ลด down time ลด error เพิ่ม SLA

icon2

ฟังก์ชั่นการทำงานของ AIOps Platform หลักๆ ประกอบด้วย

1. Data Ingestion คือ การนำข้อมูลเข้าจากหลายๆ แหล่ง ทั้งข้อมูลประเภท events, metrics, traces จาก Configuration Item (CI) ต่างๆ ไม่ว่าจะเป็นอุปกรณ์เครือข่าย เครื่องแม่ข่ายคอมพิวเตอร์ แอพพลิเคชั่น คลาวด์ หรือข้อมูลจากระบบบริหารจัดการ IT อื่นๆ เช่น ITIM, ITSM, NPMD, SIEM, APM, DEM

2. Data Analytics คือ การวิเคราะห์ข้อมูล โดยใช้เทคโนโลยี machine learning ซึ่งสามารถทำได้ 2 จุดคือ
ๅแบบ real-time โดยทำการวิเคราะห์ ณ จุดที่นำข้อมูลเข้าระบบ (data-in-motion)
แบบ historical โดยทำการวิเคราะห์จากข้อมูลที่ได้จัดเก็บไว้แล้ว (data-at-rest)

3. Prescription คือ การแนะนำสิ่งที่ต้องทำจากการวิเคราะห์ข้อมูลในข้อ 2 รวมถึงการคาดการณ์ (predictive analytics) เช่น การระบุสาเหตุ วิธีการแก้ปัญหา วิธีการป้องกันปัญหา

4. Action คือ กระทำสิ่งที่แนะนำแบบอัตโนมัติโดยเข้าถึงอุปกรณ์ หรือแอพพลิเคชั่น และส่งคำสั่งดำเนินการเพื่อแก้ไขปัญหา หรือป้องกันตามที่แนะนำ

เป้าหมายหลักของการวิเคราะห์ข้อมูล คือ การค้นหารูปแบบ (patterns) ที่อยู่ในชุดข้อมูล เพื่อคาดการณ์ incident ที่น่าจะเกิดขึ้นในระบบ IT หรือเพื่อหาสาเหตุ จากนั้นแพลตฟอร์มก็สามารถเข้าไปยัง CI เพื่อไปป้องกันไม่ให้ incident นั้นเกิด หรือแก้ไขปัญหาจากสาเหตุที่ได้ค้นพบ โดย AIOps Platform ที่ดีจะมีคุณสมบัติดังนี้

1. ลด Noise เช่น false alarm
2. หาสาเหตุ หรือที่คาดว่าจะเป็นสาเหตุโดยใช้แผนผังการเชื่อมต่อ (topology) หรือ ML และเชื่อมโยงปัญหาเหล่านี้ไปยัง customer journey
3. ตรวจจับสิ่งผิดปกติจากหลายๆ ตัวแปร (multivariate anomalies) ซึ่งเกินกว่าที่ static thresholds หรือ numeric outliers จะทำได้ ทั้งนี้เพื่อตรวจจับเงื่อนไขและพฤติกรรมที่ผิดปกติและส่งผลกระทบกับธุรกิจ
4. หาแนวโน้มซึ่งอาจจะส่งผลให้ใช้งานไม่ได้ก่อนที่จะเกิดขี้นจริง
5. ขับเคลื่อนการทำ automation สำหรับงานที่ความเสี่ยงต่ำถึงปานกลาง
6. ใช้ chatbots หรือ virtual support assistants (VSAs) เพื่อเข้าถึงองค์ความรู้และขับเคลื่อนการทำ automation สำหรับงานหรือ incident ที่เกิดซ้ำๆ
7. ช่วยจัดความสำคัญของ incident ให้อัตโนมัติและแนะนำวิธีการแก้ไขจาก incident ที่เคยเกิดขึ้นในอดีต

AIOps Platform นอกจากจะนำมาใช้ประโยชน์กับการบริหารจัดการ IT ในด้าน Monitoring ทั้ง ITIM, ITSM, NPMD, SIEM, APM, DEM และ IT Service Management แล้ว AIOps Platform ยังเป็นเครื่องมือที่สำคัญสำหรับการทำ DevOps, Continuous Integration/Continuous Delivery (CI/CD) และ Site Reliability Engineering (SRE) ซึ่งมีการใช้ automation ในขั้นตอนการทำงานต่างๆ ตั้งแต่การพัฒนาทดสอบ application การ deploy application และการ monitoring ซึ่งจะต้องทำอย่างต่อเนื่องในลักษณะ continuous delivery ให้กับทีมต่างๆ รวมถึงผู้ใช้งาน

Let’s make something
great together