Big Data: 1-2-3, så er du i gang

Big Data: 1-2-3, så er du i gang

Big Data er overalt. Man kan ikke åbne et medie uden de store data rydder hele eller halve sider. Men, hvad kræver og koster det egentligt at komme i gang? Få inspiration til at komme godt ud af starthullerne...

Kim Gregers Petersen

Atea
Big Data- og Analytics
; 29.09.14    : 16:14
Kom godt i gang med at anvende big data

Vi samler flere og flere data. Tal fra 2011 viser, at der det år blev indsamlet flere data end nogensinde før nogensinde.

Interessen for dataene – og brugen af dem – er også stigende. Der afholdes kurser, konferencer og gåhjemmøder som aldrig før – men spørgsmålet, ingen for alvor har besvaret endnu er: Hvordan kommer man i gang?

Uanset om du er inden for retail, inden for produktion eller inden for logistik og distribution, så vil der være grunde til at tage et kig på, hvordan man kan udnytte big data. Det mener i hvert fald en af de få danske eksperter på området, som også har gode råd til, hvordan du kommer i gang:

»Vi hører ofte spørgsmålet, ’hvordan kommer jeg i gang?’ Alt for sjældent er der et rungende klart svar på det, men mange taler om emnet og vi mærker en stor interesse,« siger Kim Gregers Petersen, Big Data- og Analytics-ekspert hos it-leverandøren Atea.

Her er man i øjeblikket i gang med at kortlægge den vej, der skal tages for at man kan høste fordele af virksomhedens mange data. Udfordringen med at komme i gang ligger som oftest hos virksomhederne selv, lyder det.

»For det første skal man have en idé – om ikke en businesscase – så man kan retfærdiggøre investeringen både i kroner og i tid. Man skal begynde i et hjørne af virksomheden, hvor man mener at stå med et problem, som bedre indblik i dataene kan løse. I denne fase vil det i være en rigtig god idé at alliere sig med nogen, der allerede har viden om Big Data. Kan man ikke identificere en idé eller businesscase, anbefaler jeg faktisk, at man slipper projektet,« siger han.

»Den næste selvindsigt, man skal komme til er, om man i sin organisation har kompetencerne til at køre et sådant projekt. Mange af teknologierne, man benytter i et Big Data-setup, er baseret på open source. Og lige så mange fordele, open source har prismæssigt, lige så mange ulemper har det, når det kommer til opsætning, tilretninger og opdateringer. Her tænker jeg blandt andet på Hadoop, som er vidt udbredt, men som i sin rå form savner meget af den funktionalitet, man normalt vil kræve af enterprise software,« siger han.

Argumentet her går på, at det for mange specialister er ukendt farvand at bevæge sig i – ukendt kode, ukendte værktøjer og også ukendte forretningsløsninger.

En måde at omgå det på er at gå den ”sikre” vej – at alliere sig med en etableret leverandør og indkøbe en såkaldt væg-til-væg-løsning. Der findes flere løsninger på markedet, men få er til stede i Danmark, lyder det fra Atea-specialisten.

»De fleste virksomheder er bedst tjent med at vælge en Hadoop-distribution, hvor alt den “rå” open source kode er pakket pænt ind med forståelige og anvendelige brugersnitflader og tillægsapplikationer. Et komplet Big Data-miljø vil ofte rumme filsystemer, databaser, tekstanalyse og -indeksering, streaming-data-analyse (analyse af data-in-motion), system-management-værktøjer, progammeringssprog og div. værktøjer og løsninger til håndtering af sikkerhed og information governance, « siger Kim Gregers Petersen.

Microsofts bud på en big data løsninger kombinerer Office 365, Azure og SQL Server med netop Apache Hadoop. Se mere om Microsofts tilgang til big data i skyen her

Big Data, stor pris? Hvad koster et Big Data-setup?

Som nævnt er Big Data-setups typisk i open source, ofte Apache Hadoop. Netop open source og en række andre faktorer er med til at holde prisen på Big Data-installationer nede (læs mere om teknologierne og udviklingen her), mens det typisk vil være et internt timeforbrug, der kan sende regningen for installationerne i vejret.  

En anden faktor, som holder prisen nede er hardwarens tilgængelighed. Hadoop-installationer kører typisk på en antal ganske almindelige servere, hvor hardwarepriserne er styrtdykket de senere år.

»IBM BigInsights kan anvendes gratis i evalueringsøjemed, men skal man køre det i produktion, så koster det penge. Her giver enterprise-versionen mest mening, fordi man får en række meget anvendelige “tillægsapplikationer” med. Gadeprisen for enterpriseversionen vil ligge på 32-33.000 kr. pr. node inkl. 12 mdr. support – og vi anbefaler typisk 3-4 noder til en start. En komplet serverinstallation inkl. software til formålet kan klares for omkring 400.000,« siger Kim Gregers Petersen.

»Med et miljø som ovenstående vil næsten alle typer virksomheder kunne komme i gang med Big Data og Hadoop. Man kalder ofte startmiljøet for en Hadoop-sandkasse, fordi den typiske Big Data-tilgang er, at virksomheden har en idé eller et ønske om at udforske og anvende data til ét, men ofte i løbet af processen finder andre Big Data-egnede datasæt, der giver mere mening. Med en learning-by-doing-tilgang opbygger man indsigt undervejs og lader denne indsigt afgøre det første Hadoop-projekt,« slutter han.

Sådan ser et Big Data-miljø typisk ud:

    • Ofte baseret på Apache Hadoop (open source) – enten på Linux eller Microsoft Server
    • Rummer ofte: Hadoop med HDFS/GPFS (filesystemer), Yarn (Yet another ressource navigator), Spark, SQL og NoSQL databaser, tekstanalyse og-indeksering, streaming data analyse (analyse af data-in-motion), system management værktøjer, progammeringssprog (Java, Pig/Pig Latin, Jaql m.fl.) og div. værktøjer og løsninger til håndtering af sikkerhed og information governance
    • Et fornuftigt startsystem vil have 4-6 fysiske servere
      • Hver server vil typisk være en 2-cpu server med et passende antal kerner afhængigt af behovet for regnekraft og 64-256GB RAM
      • Alle Hadoop data gemmes på billige, indbyggede diske i servernoderne, og serverne bliver typisk fyldt op med 3-6TB diske
      • På den måde har man typisk netto 40-50TB data (som med kopier af data, overhead etc. ender på 168TB, svarende til diskkapaciteten)
    • Hvis man fra starten også ønsker en kommerciel BI-løsning til analyse af dataene i Hadoop-miljøet, vil prisen for en sådan løsning komme oveni. Ofte vil virksomhederne dog have en BI-løsning (Microsoft BI, IBM Cognos/SPSS, SAS Institute, SAP Business Objects, Targit, Tableau, Micro Strategy osv.) i forvejen, ofte kombineret med en data warehouse/datamart-løsning

     

    Seneste artikler

    Hvor ofte har du stået ved en butiksdisk eller en skranke i en lufthavn, eller brugt dyrebar tid mens du ventede på din læge, sygeplejerske eller advokat – mens folk slog information op i forskellige...

    Gi forecastingen bedre forutsetninger

    Det har været forbeholdt spåkoner med farverige gevandter, kort og krystalkugler at udtale sig om fremtiden. Men ude i virksomhederne prøver vi jo alligevel, og ofte er værktøjet et Excel-ark, hvor...

    I virksomheder har de fleste medarbejdere et klart overblik over deres egne arbejdsopgaver, og adgang til de systemer og informationer, de har brug for, for at kunne udføre dem.