Их өгөгдөл гэж юу вэ?

September 13, 2019

Big Data буюу “Их өгөгдөл” гэж юу вэ? Үгийн утгаар нь бодвол ямарваа нэг зүйлийн талаарх маш их хэмжээний өгөгдөл гэж ойлгомоор ч юм шиг, эсвэл багтаамж өндөртэй нарийн төвөгтэй өгөгдөл ч юм шиг. Гэвч “Их өгөгдөл” гэдэг нь нэр шигээ зүгээр л их хэмжээтэй гэсэн утгыг агуулдаггүй гэдгийг би судалгааныхаа явцад олж мэдсэн. Үнэндээ “Их өгөгдөл” нь мэдээллийн эрин зуунд улс орон болон үндэстэн дамнасан компаниуд, технологийн гигантуудын бүх зүйлсийн талаар илүү ихийг мэдэх хүсэлд тулгуурласан эрэл хайгуулд үүссэн асар их хэмжээний өгөгдөл, түүнтэй холбогдох бүх ойлголтуудын нэгдэл гэж ойлгож болно. Үүнд өгөгдлийг олж авах, бүтээхээс эхлээд боловсруулах, хайх, түгээх, дамжуулах, шинжлэх, визуал болгох, хамгаалах зэрэг үйлдлүүд орно. Тэгвэл “Их өгөгдөл”-г яагаад ашиглах болсон бэ? Энэ асуултын хариултыг нэгэн жишээгээр тайлбарлая. 10 орчим жилийн өмнө нэгэн худалдааны байгууллага байсан гэж бодъё. Тухайн байгууллагын бүхий л ажил цаасан хэлбэрээр явагддаг боловч энэ нь маш их цаг хугацаа, зардал, бүтээмж шаарддаг байсан тул уламжлалт арга барилаа өөрчлөх шаардлага гарчээ. Энэ байдлаа өөрчлөхийн тулд олон системүүдийг нэвтрүүлэх буюу дор хаяж 10 орчим системүүдийг ашиглана. /Дундаж байгууллагууд дор хаяж 10 систем ашигладаг/ Байгууллага өргөжиж системийн хэрэглээ, цар хүрээ нэмэгдэхийн хэрээр байгууллагад цугларах дата маш их болно. Мэдээж байгууллага өөрийн гэсэн уламжлалт Data warehouse-д датагаа хадгална. Гэвч уламжлалт Data warehouse-д хуримтлагдсан их хэмжээний датаг хадгалах, нөөцлөх асуудал үүснэ. Мөн тухайн олон системүүдийн хооронд мэдээллийн давхцал үүсэж оновчтой шийдвэр гаргах хугацаа уртасна. Энэ асуудал нь “Их өгөгдөл”-г ашиглах шалтгаан гэж хэлж болно.  

“Их өгөгдөл”-г хэрхэн тодорхойлох вэ?

Тэгвэл бид яг юуг буюу ямар өгөгдлийг “Их өгөгдөл” гэж ойлгож болох вэ? Энэхүү асуултын хариултыг “Их өгөгдөл”-г тодорхойлогч 5V-р  тайлбарлая.

 

Volume – Тодорхой хугацааны туршид үүсгэгдэж байгаа өгөгдлийн хэмжээ юм. Дэлхий дээр нийт 6 орчим тэрбум хүн гар утастай бөгөөд түүгээр дамжин дата үүсгэгдэж байдаг. Монголд л гэхэд И-баримтын систем нь секунд бүр бидний худалдан авалтын мэдээллийг авч хадгалж байдаг бол интернэт сүлжээний компаниуд бидний хэрэглээний мэдээллийг мөн цуглуулж байдаг. Харин өдөр тутам бидний ашигладаг Фэйсбүүк нь бидний ямар мэдээлэл үзэж байгаа, ямар мэдээлэлд хариу үйлдэл (reaction) үзүүлсэн, ямар мэдээлэл хадгалж байгаа зэрэг мэдээллийн авч байдаг.   

Velocity – Их хэмжээний өгөгдлийг цуглуулна гэдэг нь тус өгөгдлүүдийг ачаалах, боловсруулах, шинжлэх чадамж хурдтай байх ёстой. Жишээ нь: Нью-Йоркын хөрөнгийн бирж 1 терабайт хэмжээтэй арилжааны мэдээллийг боловсруулах чадамжтай.

Variety: Хуримтлагдсан байгаа нийт өгөгдлүүдийн ялгаатай байдал буюу өгөгдлүүд нь бүтэцлэгдсэн, бүтэцлэгдээгүй болон и-мэйл, аудио, видео, санхүүгийн гүйлгээ гэх мэт. Жишээ нь: Сар бүр Facebook-т 30 тэрбум контент шейр хийгддэг бол, Youtube -д 4 тэрбум цагийн бичлэг үзэгддэг. Харин Twitter-т өдөр 200 сая гаруй идэвхтэй хэрэглэгчийн 400 сая гаруй жиргээ нийтлэгддэг. Эдгээр контентууд нь видео, аудио, зураг, текст гэх мэт ялгаатай.

Value – Хуримтлагдаж байгаа өгөгдлүүд нь бүгд ямар нэг байдлаар эргээд үнэ цэнэ, өгөөж өгөхүйц байх хэрэгтэй билээ. Хэрэггүй, ашиглагдахгүй өгөгдлүүд нь “Их өгөгдөл” болж чадахгүй юм.

Veracity – Хуримтлагдаж буй өгөгдлүүд нь дээр дурдсанчлан хэрэглэгдэхүйц үнэ цэнэтэй байхын зэрэгцээ үнэн бодитой байх хэрэгтэй. “Их өгөгдөл”-н үндсэн зорилгын нэг бол шийдвэр гаргалтын оновчтой байдлын нэмэгдүүлэхэд оршдог бөгөөд ашиггүй, худал өгөгдөл нь сайн үр дүн мэдээж авч ирэхгүй. Жишээ нь: АНУ-н эдийн засагт жилд 3,1 их наяд доллар poor data буюу хэрэгцээгүй өгөгдөлд зарцуулагддаг.

“Их өгөгдөл”-тэй ажиллах ямар технологи байдаг вэ?

“Их өгөгдөл”-тэй ажилладаг хамгийн нийтлэг бөгөөд шалгарсан технологи бол Hadoop юм. Apache-с гаргасан эх өгөгдлийн технологи болох  Hadoop нь найдвартай ажиллагаатай, өргөтгөх боломж бүхий Opensource технологи юм. Нэг серверийг олон тооны машинаар өргөтгөх боломжтой буюу их хэмжээний өгөгдлийг тус олон тооны машинуудад байршуулан ачаалуулдаг. Найдвартай ажиллагааны хувьд энэ нь олон тооны машин зэрэг ажиллаж байгаа бөгөөд аль нэг нь ажиллагаагүй болсон тохиолдолд түүнтэй холбогдож байсан программ хангамж өөр машинтай холбогдон үйл ажиллагаагаа хэвийн үргэлжлүүлэн ажилладгаараа онцлог юм. Жишээ нь: Google бидний хайлтыг түргэн хугацаанд гүйцэтгэхийн тулд энэ технологийг ашигладаг.

“Их өгөгдөл”-н давуу тал юу вэ?

Дээр дурдсан “Их өгөгдөл”-н технологи болох Hadoop-г Commodity Hardware буюу биет төхөөрөмжид суурилсан эсвэл клауд шийдлүүдийг ашиглаж болно. Үүнээс commodity hardware илүү нийтлэг ашиглагддаг шийдэл бөгөөд их өгөгдөл нь танай байгууллагад хуримтлагдсан байгаа өгөгдлүүдийг анализ хийх хурд болон дата хадгалах багтаамж хангалттай болно. Энэ нь яг л Google хайлт шиг маш хурдан хугацаанд хэрэгтэй, оновчтой мэдээллээ олж авч чадна гэсэн үг юм.   

“Их өгөгдөл”-ийн хэн, ямар салбарт ашиглаж байгаа вэ?”

Банк - “Их өгөгдөл”-г түлхүү ашиглаж байгаа салбар бол банк билээ. Банкнууд харилцагчдадаа ямар төрлийн үйлчилгээ, бүтээгдэхүүн санал болгох, харилцагдаа ялгаатай бүлэг болгон ангилах, шинээр болон нэмэлтээр зээл олгох, сэжигтэй болон луйврын гүйлгээнээс болон бусад эрсдэлүүдээс урьдчилан сэргийлэхэд ашиглаж байна.

Засгийн газар – Мэдээж “Их өгөгдөл”-г ашиглах зайлшгүй шаардлагатай газар бол Засгийн газар юм. Улс орны өнөөгийн байдлыг тодорхойлох, төлөвлөгөө, төлөвлөлт хийхэд түлхүү ашиглахын зэрэгцээ ил тод байдлыг нэмэгдүүлэх, гэмт хэргийг буруулах, эрүүл мэндийн төлөв байдал зэргийг оновчтой тодорхойлоход ашиглаж байна.

Боловсрол – Боловсролын байгууллагууд мөн “Их өгөгдөл”-г түлхүү ашиглаж байна. Сургалтын чанар, үнэлгээ болон суралцагчдын төлөв байдал, сургалтын системийн хүртээмжтэй байдал зэргийг тодорхойлоход ашигладаг.

Үйлдвэрлэл, Худалдаа – Үйлдвэрлэл болон худалдааны байгууллагуудын нь бараа бүтээгдэхүүний төлөвлөлт, татан авалт болон маркетингийн оновчлол, оновчтой шийдвэр гаргахад ашиглаж байна.

“Их өгөгдөл”-н хүндрэл юу вэ?

 “Их өгөгдөл”-г ашиглана гэдэг нь байгууллага бүрийн хувьд боломжтой биш бөгөөд хэд хэдэн хүндрэл тулгарна. Үүнд:

Боловсруулалт – “Их өгөгдөл”-г боловсруулалт хийнэ гэдэг нь амаргүй зүйл бөгөөд техник, тоног төхөөрөмж зэргийг хувьд ихээхэн хүндрэлүүдтэй учирч болзошгүй.

Хадгалах, Нөөцлөх – Нэрийг нь уншихад л ИХ гэдэг үг орсон байгаа бөгөөд “Их өгөгдөл”-г хадгалж, нөөцлөх нь хүндрэлтэй.

Хайх – “Их өгөгдөл”-с хайлт хийнэ гэдэг нь мөн л техник, төхөөрөмжийн байдлаас хамаарах бөгөөд Google шиг ажиллагаатай биш л бол хайлт хийх нь хүндрэлтэй.

Хуваалцах, Шилжүүлэх – “Их өгөгдөл”-г шилжүүлэх, өөр нэг байгууллагатай хуваалцана гэдэг нь маш ажиллагаатай.

Мэдээж хэрэг техник, төхөөрөмж, ажиллах чадамж, хүний нөөц зэрэг нь хангалттай бол эдгээр хүндрэлүүд нь учрахгүй.

Г. Цэнгэл

Контент Архитектурч.Мэдээллийн Технологийн салбарын хэрэглэгчид болон харилцагч байгууллагуудад зориулан контент бүтээх, Дижитал, Сошиал медиа, Контент маркентинг хариуцсан маркетер.