Kicsit bealudtam a post megírása kapcsán, de a hetem léggé sűrű volt. Volt szerencsém a héten Brüsszelbe utazni ahol többek között megnézhettem az egyik legnagyobb kereskedelmi (nem social!) bigdata kezdeményezést, amiről nyilván semmit nem beszélhetek, de eléggé lenyűgöző dolgokat hoztak össze… (ja és persze elasticsearch és hdfs alapokon). Szóval az utazás és az amúgy is sűrű munkanapok miatt csak lassan volt lehetőségem reagálni arra, hogy kijött az 5.3-as stabil főverzió az Elasticseachből és végre hivatalosan is implementálták mind az ES-ben, mind pedig Kibanában a “top hit” aggregációt. Ráadásul mindjárt elég komoly finomhangolásokkal együtt tették ezt. Közel már fél éve várom, hogy ez a feature megjelenjen az ES főveziójában is, eddig csak nagyon komoly hackeléssel lehetett beleerőszakolni a githubon fellelhető projektet. Amúgy ezúton is külön köszi a top hits értelmi szerzőjének “scampi”-nak. A tisztelére és a munkássága elismeréseként az imént említett Brüsszeli utazásomon életemben először megkóstoltam egy scampi (rákocska) alapú kaját. Jelentem túléltem. Nézzük az alap problémát:
Folytatás…
Tag: big data
Tisztázzuk az alapokat: big data, nosql, ES, APM
Mielőtt nagyon belemélyednél a konkrét témákba (lásd címben), talán érdemes tisztázni, hogy mit is jelentenek ezek a fogalmak, mi közük van egymáshoz és konkrétan én mit értek ezeken. Ebben a postban véletlenül sem szeretném tudományos alapokig részletezni és szakmailag sem mennék bele. Célom csak egy általános kép kifejtése azoknak, akik csak most ismerkednek ezekkel a fogalmakkal.
Big data: kezdeném is mindjárt a legnagyobb lufival. Kezdetben vala a strukturált adattárolás, amikor (az ősidőkben) még luxus volt az adattár, jól végig gondoltuk, hogy mit is akarunk tárolni és törekedtünk arra, hogy ezt a leginkább optimális módon tegyük. Ezzel együtt eljött az internet, eljöttek a felhők (nem… nem a skynet) és eljött mindaz, ami ma jellemzi az adattárolást. Az olcsó adattárolás, a mesterséges(-nek tűnő) intelligencia (gépi tanulás) és strukturálhatatlan adatkörök miatt jöt létre az a valami, amit big datanak nevezünk. Mi jellemzi ezt: gyakorlatilag mindent tárolunk amilyen adatot csak elő tudunk állítani, annak minősége, jellege és értelme nélkül, mindezt tesszük azzal a szándékkal, hogy később feltételezhetően fel fogunk fedezni olyan összefüggéseket, amik értelmet adnak a strukturálatlan adatnak. A régi mondás, mely szerint “a kevesebb több”, mára átalakult a “több az több lehet” mondássá.
Folytatás…