Data Collector

A TAS Data Collector adatgyűjtő használatával lehetséges az interneten elérhető domain összes strukturálatlan és strukturált adatának összegyűjtése. Az összegyűjtött adatok felhasználhatóak akár nyers formában is, vagy hasznosíthatóak a TAS szöveganalitikai rendszer további szolgáltatásainak segítségével.

Mi a TAS Data Collector?

 

A TAS Data Collector szolgáltatás – a TAS szöveganalitikai platform részeként – képes az interneten található strukturálatlan adatokat (szöveges tartalmakat) letölteni oly módon, hogy a tartalmakat strukturált formába rendezni, ezáltal elérhetővé teszi más információs rendszerek számára, illetve alkalmassá a további feldolgozásra, elemzésre vagy vizualizálásra.
A TAS Data Collector által legyűjtött tartalmak azonnal hasznosíthatóak, vagy alapjául szolgálhatnak a TAS Platform további, egymásra épülő moduljaival megvalósítható szöveganalitikai munkafolyamatoknak.

Az adatgyűjtési folyamat részletei

  • a megrendelő által megjelölt weboldalak (vagy azon belül található részegységek) adatai (szöveges tartalmai) a szolgáltatás által legyűjtésre kerülnek
  • a további lépéseket (adattisztítás, adatgazdagítás, validálás) szakembereink felügyelete mellett valósítja meg a rendszer
  • a folyamat végeredményeként olyan strukturált adatbázis jön létre, mely már alkalmas a további adatfeldolgozásra (elemzés, vizualizálás) vagy alapjául szolgálhat további szöveganalitikai megoldásoknak
  • a legyűjtött, megfelelő formátumú tartalmak biztosítása, átadása a megrendelő felé (akár egy authentikált, jelszóval védett csatornán keresztül)

A TAS Data Collector jellemzői

  • a szolgáltatás képes egy webhelyről legyűjteni a látható adatokat, metaadatokat (címkéket, képleírást) vagy akár a lapszámozást.
  • az aloldalak, a dinamikus, trükkös lapozású, hierarchikus, diavetítéssel rendelkező vagy többnyelvű tartalmú, esetleg bejelentkezést igénylő oldalak sem okoznak problémát az adatlegyűjtés folyamán
  • rejtett adatok esetén egy screenshot-megoldást kínálunk (képernyőkép az adatok eredeti pontos megjelenítésével)
  • a robots.txt által – megjelölt tartalmakat tiszteletben tartjuk, így azok nem kerülnek letöltésre
  • számos különböző dokumentumból és képformátumból (PDF, táblázatkezelő, diagram vagy képfájlformátumok) lehetséges a szövegkinyerés
  • a kimeneti formátum: JSON kiterjesztés, de egyéb formátum is lehetséges (például MySQL adattábla, melynek elemzése, vizualizásása azonnal lehetséges a legismertebb business intelligence eszközökkel (részletek a technikai leírás menüpontban)
  • speciális (további szoftverfejlesztést igénylő) egyedi megoldás szállítása is lehetséges

Mire használhatók a legyűjtött tartalmak?

  • Kutatásokhoz, fejlesztési projektekhez
  • Újabb tartalmak, publikációk megírásához
  • Szolgáltató-, információnyújtó-, tematikus gyűjtőoldalak, blogok, közérdekű- és open data portálok adatokkal történő feltöltéséhez
  • Elemzések, statisztikák, vizualizációk létrehozásához
  • Vállalati folyamatok / működés biztosításához, adatmentésre (webhely, internetes adatbázis állapotának lementéséhez)
  • Konkurenciafigyeléshez
  • Sajtófigyeléshez
  • Kereshető adatbázisok létrehozásához
  • Mesterséges intelligencia megalkotásához, gépi tanuláshoz
  • Adatváltozások nyomon követéséhez

A TAS Data Collector megjelenése

A TAS Data Collector GUI lehetőséget nyújt a letöltési adatfolyam figyelemmel kísérésére. A kezelőfelület megjelenése a TAS Platform arculatához illeszkedik.

Data Collector kezelőfelület

A kezelőfelület az alábbiakról ad tájékoztatást:
források áttekintése: melyek vannak bekötve, honnan mennyi rekord érkezik, mennyi a valid és mennyi a hibás rekord
össz-rekordszám áttekintése, időbeni alakulásuk
gyűjtés állapota
mikor futott a gyűjtés

Data Collector technikai leírás (követelmények, integráció, felhasznált nyílt forráskódú szoftverek)

Kezdeti erőforrásigény (On Premise – helyszíni telepítés esetén):
x86_64 CPU legalább 4 mag
legalább 16GB RAM
35GB merevlemez (a tárolókapacitás bizonyos esetekben megnövekedhet)
64-bit Linux, Windows, or macOS – 64-bit JDK 1.8 vagy felette

Elérhetőség ás platform támogatás fejlesztőknek

Cloud API – On Premise API – Java SDK elérhető

Integráció más szolgáltatásokkal

TAS Platform
Tableau
RapidMiner
PowerBI
Google Data Studio
IBM SPSS

Szöveganalitikai megoldásainkról bővebben olvashat a TAS Platform angol nyelvű termékoldalán!

Amennyiben olyan adat- és szövegbányászati megoldásra van szüksége, amellyel lehetséges az interneten elérhető strukturált és strukturálatlan tartalmak gyűjtése, kérjük, vegye fel velünk a kapcsolatot!