Hogyan lehetséges webes adatok felhasználása a RapidMiner-ben? | Precognox

Hogyan lehetséges webes adatok felhasználása a RapidMiner-ben?

 

RapidMiner olyan adatkezelő platform, mely integrált környezetet biztosít az adatok előkészítéséhez, a gépi tanuláshoz és a prediktív elemzéshez. A RapidMiner ezeken felül alkalmas a vállalati belső adatforrások tartalmának vizualizációjára is.
De mit tegyünk akkor, ha a rendelkezésre álló adatbázisokon túlmenően a külső, interneten elérhető adatokat is szeretnénk felhasználni a RapidMiner alkalmazáson belül?
A megoldás alapját a Precognox TAS Data Collector szolgáltatása adja, mely az interneten elérhető strukturálatlan adatok legyűjtését és ezen adatok strukturált adatbázisba történő rendezését is elvégzi. A kapott strukturált adatbázis (MySQL) pedig már alkalmas a RapidMiner alkalmazásban történő munkavégzésre.

A folyamatot az alábbiakban mutatjuk be lépésről-lépésre:

1. Az adott weboldal (mint adatforrás) kiválasztása, letöltése

 

A kiválasztott webes adatokat (példánkban a Keresővilág Blog weboldal tartalmát mutatjuk) első lépésben a Data Collector szolgáltatás segítségével letöltjük. A weben található strukturálatlan adatok (szöveges tartalmak) esetében a letöltés mellé azonban számos feladat (adattisztítás, validálás) társul, melyeket szakembereink végeznek el. Ezen munkafolyamatok megvalósításának eredményeképpen a letöltött adatokból strukturált adatbázis kerül létrehozásra, melyet a későbbiekben is folyamatosan frissítünk, így mindig az aktuális adatok válnak elérhetővé és felhasználhatóvá.
A letöltött adatokhoz egy biztonságos, jelszóval védett csatornán keresztül kap hozzáférést (server adatot, felhasználónevet és jelszót) a felhasználó.

2. Az adatok betöltése a RapidMiner kezelőfelületén az Import Data menüpontra, majd a Database gombra kattintva lehetséges:

 

Kattintás a New Connection gombra

Itt kell megadni az adatbázishoz való csatlakozáshoz szükséges adatokat, amelyeket előzetesen tőlünk kap meg a felhasználó, majd OK gombra történő kattintás

3. Az adatbázis kiválasztása, utána kattintás a Next gombra

4. Az adatok betöltése után következhet azok kezelése és vizualizációja a megszokott módon

példa az elkészült vizualizációra

Az elkészült vizualizáció amellett, hogy betekintést nyújt a webes forrás tartalmába, komoly üzleti előnyt is jelent hiszen prezentációk, üzleti jelentések, értékelések vagy akár konkurenciaelemzések alapjául is szolgálhat. Ily módon aknázható ki az Interneten található hatalmas adatmennyiségben rejlő potenciál.

Ön is RapidMiner felhasználó? Szeretne többet megtudni szöveganalitikai megoldásainkról?
Keresse munkatársunkat!

Hódi Péter
phodi@precognox.com
+36 20/416-74-79

A TAS Data Collector működéséről és előnyeiről a TAS Text Analytics System oldalán olvashat bővebben.

A Data Collector által biztosított strukturált adatbázisok – az integrációnak köszönhetően – a legtöbb ismert business intelligence eszközzel (Tableau, PowerBI, Google Data Studio, IBM SPSS) vizualizálhatók.

 

Képek: RapidMiner kezelőfelület és vizualizáció