Data Scientist vs Data Engineer, farqi nimada?

Ma'lumotlar bo'yicha mutaxassislar va ma'lumot muhandislari yangi ish unvonlari bo'lishi mumkin, ammo asosiy ish rollari bir muncha vaqt bo'ldi. An'anaga ko'ra, ma'lumotlarni tahlil qilgan har bir kishi "ma'lumotlar tahlilchisi" deb nomlanadi va ma'lumotlar tahlilini qo'llab-quvvatlash uchun orqa platformani yaratgan "Business Intelligence (BI) Developer" bo'ladi.

Katta ma'lumotlarning paydo bo'lishi bilan korporatsiyalar va tadqiqot markazlarida yangi ma'lumotlar paydo bo'ldi - ma'lumotlar olimlari va ma'lumot muhandislari.

Bu erda Data Analyst, BI dasturchisi, ma'lumotlar mutaxassisi va ma'lumotlar muhandisining roli haqida qisqacha ma'lumot.

Ma'lumotlar tahlilchisi

Ma'lumot analitiklari - bu o'z tashkilotida ma'lumotlarni so'rash va qayta ishlash, hisobotlarni taqdim etish, ma'lumotlarni umumlashtirish va vizualizatsiya qilish qobiliyatiga ega tajribali mutaxassislar. Ular muammoni hal qilish uchun mavjud vositalar va usullardan qanday foydalanishni yaxshi bilishadi va kompaniyaning turli joylaridagi odamlarga maxsus so'rovlarni ad-hok hisobotlar va jadvallar yordamida tushunishga yordam berishadi.

Biroq, ular katta ma'lumotlarni tahlil qilish bilan shug'ullanishlari kutilmaydi va odatda ma'lum muammolar uchun yangi algoritmlarni ishlab chiqish uchun matematik yoki tadqiqot ma'lumotiga ega bo'lishlari kutilmaydi.

Ko'nikmalar va vositalar: Ma'lumot analitiklari ba'zi asosiy ko'nikmalar haqida boshlang'ich ma'lumotga ega bo'lishlari kerak: statistika, ma'lumotlarni yig'ish, ma'lumotlarni vizualizatsiya qilish, ma'lumotlarni qidirish, Microsoft Excel, SPSS, SPSS Modeler, SAS, SAS Miner, SQL, Microsoft Access, Tableau, SSAS .

Business Intelligence dasturchilari

Business Intelligence Ishlab chiqaruvchilari - bu hisobot ehtiyojlarini tushunish, keyin esa talablarni yig'ish, BI va kompaniya uchun hisobot echimlarini yaratish uchun ichki manfaatdor tomonlar bilan yanada yaqinroq aloqada bo'lgan ma'lumotlar bo'yicha mutaxassislar. Ular yangi va mavjud bo'lgan ma'lumotlar omborlarini, ETL paketlarini, kublarni, boshqaruv panellarini va tahliliy hisobotlarni loyihalashtirish, ishlab chiqish va qo'llab-quvvatlashlari kerak.

Bundan tashqari, ular o'zaro va ko'p o'lchovli ma'lumotlar bazalari bilan ishlaydi va turli xil manbalardan ma'lumotlarni birlashtirish uchun SQL-ni ishlab chiqish bo'yicha katta ko'nikmalarga ega bo'lishi kerak. Ular ushbu ko'nikmalarning barchasini korxonaning o'z-o'ziga xizmat ko'rsatish ehtiyojlarini qondirish uchun ishlatadilar. Odatda BI Ishlab chiqaruvchisi ma'lumotlar tahlilini o'tkazishi kutilmaydi.

Ko'nikmalar va vositalar: ETL, hisobotlarni ishlab chiqish, OLAP, kublar, veb-razvedka, biznes ob'ektlarini loyihalash, Tableau, boshqaruv paneli vositalari, SQL, SSAS, SSIS.

Ma'lumotlar muhandisi

Ma'lumotlar muhandislari - bu ma'lumotlar bo'yicha mutaxassislar tomonidan tahlil qilinadigan "katta ma'lumotlar" infratuzilmasini tayyorlaydigan ma'lumotlar mutaxassilari. Ular turli xil manbalardan ma'lumotlarni loyihalashtiradigan, quradigan, birlashtiradigan va katta ma'lumotlarni boshqaradigan dastur muhandislari. So'ngra ular murakkab so'rovlarni yozadilar, unga oson kirishga, muammosiz ishlashiga ishonch hosil qiladilar va ularning maqsadi kompaniyaning katta ma'lumotlar ekotizimining ishlashini optimallashtirishdir.

Ular, shuningdek, katta ma'lumot to'plamlari ustiga ba'zi ETL (Extract, Transform and Load) dasturlarini ishga tushirishlari va ma'lumotlar olimlari tomonidan hisobot berish yoki tahlil qilish uchun foydalanish mumkin bo'lgan katta ma'lumotlar omborlarini yaratishlari mumkin. Bundan tashqari, Data Engineers dizayni va arxitekturasiga ko'proq e'tibor qaratganligi sababli, ular odatda katta ma'lumotlar uchun har qanday mashina o'rganish yoki tahlilni bilishlarini kutishmaydi.

Ko'nikmalar va vositalar: Hadoop, MapReduce, Hive, Cho'chqa, MySQL, MongoDB, Cassandra, Ma'lumotlar oqimi, NoSQL, SQL, dasturlash.

Ma'lumotlar olimi

Ma'lumot olimi 21-asrning alkimyogari: xom ma'lumotlarni tozalangan tushunchalarga aylantiradigan kishi. Ma'lumotlar bo'yicha olimlar statistika, mashinani o'rganish va biznesning muhim muammolarini hal qilishda analitik yondashuvlardan foydalanadilar. Ularning asosiy vazifasi tashkilotlarga katta ma'lumotlarning hajmini qimmatli va ta'sirchan tushunchalarga aylantirishga yordam berishdir.

Darhaqiqat, ma'lumotlar ilmi mutlaqo yangi yo'nalish emas, lekin uni ma'lumotlar tahlilining ilg'or darajasi sifatida ko'rib chiqish mumkin, bu esa mashinalarni o'rganish va kompyuter fanlari yordamida boshqariladi va avtomatlashtiriladi. Boshqacha qilib aytganda, «ma'lumot tahlilchilari» bilan taqqoslaganda, Data Scientists ma'lumotlar analitik mahoratiga qo'shimcha ravishda kuchli dasturlash ko'nikmalariga, yangi algoritmlarni tuzish, katta ma'lumotlarga ishlov berish va domen bo'yicha bilimlarga ega bo'lishi kutilmoqda.

Bundan tashqari, Data Scientistlar o'zlarining topilmalari natijalarini vizualizatsiya usullari, ma'lumotlarga oid ilova yaratish yoki ularning ma'lumotlari (biznesi) muammolarining echimiga oid qiziqarli hikoyalarni sharhlashlari va bemalol etkazishlari kutilmoqda.

Ma'lumot olimi muammolarini hal qilish ko'nikmalari statistik modellarni yaratish yoki ma'lumotlardagi naqshlarni aniqlash uchun an'anaviy va yangi ma'lumotlarni tahlil qilish usullarini tushunishni talab qiladi. Masalan, tavsiyalar tizimini yaratish, fond bozorini bashorat qilish, bemorlarga o'xshashligi asosida tashxis qo'yish yoki soxta bitimlar tuzilishini topish.

Ma'lumotni olimlarga ba'zan biron bir biznes muammosi bo'lmaganda katta ma'lumotlar bilan ta'minlash mumkin. Bunday holda, qiziquvchan Data Scientist ma'lumotni o'rganishi, kerakli savollarni topishi va qiziqarli topilmalarni taqdim etishi kutilmoqda! Bu juda qiyin, chunki ma'lumotlarni tahlil qilish uchun kuchli Ma'lumotni o'rganish bo'yicha mutaxassislar mashinalarni o'rganish, ma'lumotlarni yig'ish, statistika va katta ma'lumot infratuzilmasida har xil usullar to'g'risida juda ko'p bilimga ega bo'lishlari kerak.

Ular har xil o'lchamdagi va shakldagi turli xil ma'lumotlar to'plamlari bilan ishlash tajribasiga ega bo'lishi va katta o'lchamdagi ma'lumotlarga uning algoritmlarini samarali va samarali ishlatishi kerak, bu odatda barcha zamonaviy texnologiyalardan xabardor bo'lishni anglatadi. Shuning uchun informatika asoslari va dasturlash, shu jumladan tillar va ma'lumotlar bazasi (katta / kichik) texnologiyalarini bilish juda muhimdir.

Ko'nikmalar va vositalar: Python, R, Scala, Apache Spark, Hadoop, ma'lumotlar qidirish vositalari va algoritmlari, mashinalarni o'rganish, statistika.

MUORO - Ma'lumotlar va tahlillar Genius muoro.io