Legtöbb esetben a világhálón – mint a legnagyobb adatforrás – megjelenő tartalmak nem alkalmasak a további munkafolyamatok elvégzéséhez, hiszen a honlapokon megjelenő információk különböző formátumban állnak rendelkezésre. További összetett feladatok elvégzésére van szükség ahhoz, hogy a folyamat végén az elvárt minőségű adat álljon a rendelkezésünkre.
Milyen kritériumok merülnek fel az adatokkal kapcsolatban és milyen folyamatokat kell elvégezni mindahhoz, hogy a webes tartalmak összegyűjtése után megfelelő minőségű adathoz jussunk?
Kritériumok
Egy adat minősége mindig attól függ, hogy milyen mértékben felel meg a vele szemben támasztott követelményeknek. Ezek a követelmények vonatkozhatnak az adat
– tartalmára
– formátumára
– a mennyiségére is.
Ezeket a kritériumokat pedig mindig a további adatfelhasználás módja határozza meg. A weben elérhető tartalmak azonban nem mindig tudnak megfelelni a fenti kritériumoknak, mert:
– egymástól eltérő formátumúak
– eltérő adatforrásokból származnak
– folyamatosan bővülnek, változnak
– nem kompatibilisek (nem integrálhatók) az adatfeldolgozás további lépcsőivel.
Könnyen belátható, hogy számos munkafolyamat elvégzése válik szükségessé ahhoz, hogy az Interneten található adattartalmak alkalmassá váljanak a további munkavégzésre.
Ezek a feladatok:
– adatgyűjtés – az Internetes tartalom legyűjtése a meghatározott weboldalakról
– adattisztítás – a felesleges, nem releváns vagy hibás adatok kiszűrése és eltávolítása
– adatgazdagítás – a honlapon nem elérhető adatokkal való kibővítés
– validálás – a kimenő adatok megfeleltetése
– annotálás
– megfelelő formátumba alakítás – az adattartalom megfelelő formátumba történő rendezése, transzformálása (JSON, MySQL tábla)
– adattovábbítás – a már megfelelő adat biztosítása, eljuttatása a felhasználóhoz, biztonságos úton (jelszóval védett hozzáférés).
A valóban minőségi adat „előállítása” az Internetes tartalmakból igen összetett folyamat és megoldása emellett számos szakterület (programozás, szoftverfejlesztés, adattudomány, nyelvészet vagy akár a mesterséges intelligencia fejlesztése) ismeretét igényli. Mindenképpen érdemes olyan komplex megoldást választani, mely képes a feladat kihívásainak teljes mértékben megfelelni, így a folyamat végén valóban minőségi adattal fogunk rendelkezni.
Megoldás
A TAS Data Collector szolgáltatás úgy került kifejlesztésre, hogy az adatgyűjtés mellett a Precognox TAS szöveganalitikai platformjának további szolgáltatásai segítségével az összes, fent leírt munkafolyamat elvégzése lehetséges legyen.
A partnernek kizárólag a releváns weboldalakat és az azon belüli tartalmakat (input), illetve a kimeneti oldalon (output) fellépő elvásárokat szükséges megjelölnie, a Precognox csapata pedig a teljes folyamatot elvégzi. Így lesz Önnek a világhálóról minőségi adata, melyek már alkalmasak a további munkavégzésre.
Kapcsolódó blogbejegyzés:
Lépjen velünk kapcsolatba!
Amennyiben Önt is érdekli adatgyűjtő megoldásunk, forduljon hozzánk bizalommal!