Koncept Big Data predstavlja jedan od najaktuelnijih pojmova u oblasti informacionih tehnologija. Big Data u prevodu na srpski jezik znači velika količina podataka, pri čemu se o govori o redu veličine terabajt (TB) ili petabajt (PB). Podaci dolaze iz različitih izvora, kao što su društvene mreže, slike, senzori, logovi, video zapisi, i mnogi drugi. Pored podataka iz osnovne delatnosti i transakcija organizacije, ovde spadaju i mnogobrojni podaci iz spoljnih izvora, i koji ne moraju biti direktno povezani za procese koji se odvijaju u organizaciji. Podaci mogu biti struktuirani i nestruktuirani. Studenti treće godine smera Informacioni sistemi i tehnologije Darko Marjanović, Miloš Milovanović, Dušan Mijatović i Nemanja Milaković su na cloud infrastrukturi Katedre za elektronsko poslovanje implementirali Big data infrastrukturu zasnovanu na Hadoop-u.
Hadoop je open-source software framework Apache fondacije. Služi za skladištenje i procesiranje velikih količina podataka, i predstavlja projekat koji je dao najveće rezultate kao Big Data softver. Konkretna implementacija je ostvarena pomoću gotove Hadoop distribucije, HDP, razvijene od strane kompanije Hortonworks. Implementacijom ovog okruženja dobija se adekvatan Hadoop ekosistem, sa pratećim alatima. Neki od najkorišćenijih su Sqoop i Flume za unošenje podataka i Pig i Hive za obradu podataka. Za vizualizaciju rezultata obrade u trenutnoj implementaciji potrebno je koristiti eksterni softver.
Trenutna, istraživanja u okviru Katedre za elektronsko poslovanje obuhvataju arhitekturu Hadoop-a i obradu podataka. Istraživanja arhitekture su usmerena na različite implementacije platforme, i testiranja u ovoj oblasti. Praćene su performanse ekosistema u zavisnosti od veličine klastera, odnosno broja servera, i rad u cloud okruženju implementiranom u okviru Katedre za elektronsko poslovanje. Hadoop je implementiran na jednom klasteru koji se sastoji iz tri servera za Hadoop i jednog za skladištenje podataka i rezultata obrade.
Hadoop infrastruktura
Kada je reč o obradi podataka, u implementiranom okruženju radi se na testiranju alata za obradu podataka – Pig i Hive. Istraživanje je usmereno ka unapređenju nastavnog procesa Katedre za elektronsko poslovanje. Koristeći log podatke sa Moodle platforme Katedre za elektronsko poslovanje, posmatraju su različiti parametri Internet saobraćaja kako bi se povećala efikasnost i performanse servisa. U narednom periodu Darko, Miloš, Dušan i Nemanja nastaviće rad na istraživanju tehnologija zasnovanih na Hadoop platformi. Aktivnosti će biti usmerene na unapređenje postojeće Big Data infrastrukture Katedre, obradu podataka i približavanju Hadoop platforme studentima Fakulteta organizacionih nauka.