Tagger

The TAS Tagger service enables the automatical tagging and categorization of text contents. This kind of thematicization improves the searchability of these contents (documents, emails, articles).

Mi a TAS Tagger?

A TAS Tagger egy olyan szöveganalitikai megoldás, amely képes kinyerni és meghatározni a kulcsfontosságú kifejezéseket és témákat (címkék) a szöveges tartalmakból. Ezen kifejezések és a megnevezett entitások (pl.: személynevek, helyek, szervezetek, dátumok) azonosítása számítógépes nyelvészeti és gépi tanulási módszerekkel és eszközökkel történik. Az alkalmazott módszerek és eszközök kombinációja az ügyfél igényeitől függ.

A címkézendő szöveges tartalmak típusai különbözőek lehetnek: interneten megjelenő szövegek (cikkek és egyéb dokumentumok), tudományos tartalmak (esszék, disszertáció, közzétett kutatások), üzleti dokumentumok (szerződések, jegyzetek) vagy akár e-mailek.

Jelenleg a címkézés magyar és angol nyelven érhető el, de természetesen más nyelvű szövegek címkézése is lehetséges.

Miért hasznos a TAS Tagger?

A nagyobb szöveges tartalmak (szövegtestek) címkézésével a megoldás javítja a dokumentumok (szöveges tartalmak) használatának hatékonyságát, mivel a címkézés által adatgazdagítás történik (a címkék metaadatok), ezáltal növekszik az adatminőség. Így például könnyebben kereshetővé tehetők a dokumentumok vagy akár az e-mailek. Ezen felül a TAS Tagger megoldása akár a szövegek automatikus (gépi tanulás alapú) osztályozásához is szolgáltathat adatokat.
A Tagger szolgáltatás alkalmazása tehát hatékonyabb munkavégzést biztosít, így mind üzleti, mind szervezeti előnyt is jelent. A szolgáltatás költségei (folyamatos használat esetén havi díjas szolgáltatási formájában) pedig könnyen kalkulálhatóak.

A címkézési folyamat

A folyamat első lépése a címkézendő szöveges tartalmak (dokumentumok, szövegtestek) meghatározása. Amennyiben a címkézendő tartalom nem áll rendelkezésre strukturált adatbázisként, akkor a megjelölt szöveges tartalmak legyűjtését a TAS Data Collector szolgáltatás is elvégezheti. Ezután a TAS Tagger elemzi a szövegtesteket és automatikusan meghatározza a címkéket. A lehetséges (felhasználható) címkék listáját az ügyfél akár előre is meghatározhatja. Ilyen esetben egy szakmai-szakterületi címke-adatbázist építünk a felhasználóval együttműködve. Ez az adatbázis fogja tartalmazni az előre meghatározott címkéket és a gépi tanulási modell ezt az adatbázist használja a címkézési folyamat során. A címke-adatbázis változása esetén a megállapított címkék is automatikusan megváltoznak. Ezt az újratanítási metódust (címke-adatbázis változtatás) a felhasználó a TAS Tagger felhasználói felületén keresztül tudja megvalósítani, ahol a címkézési folyamat is nyomon követhető.

A TAS Tagger kezelőfelületén lehetőség van a címkék közötti relációt (tágabb és szűkebb kifejezések, alá- és mellérendelés) meghatározására, illetve a címkék közötti kapcsolatok felülvizsgálatára historizált vagy vizuális formában. A címke elfogadása után a szoftver tárolja azt. A rendszer egyúttal a szöveges tartalmat is tárolja. Minél több kapcsolat és reláció van meghatározva, annál pontosabb címkézési eredmények érhetők el. Ezért kiemelten fontos, hogy a címke-adatbázis precízen kerüljön kialakításra.

A TAS Tagger kezelőfelület megjelenése

A TAS Tagger kezelőfelület a TAS Platform (TAS Cloud szolgáltatás) vagy On Premise (lokálisan telepített) keretein belül hozható létre. Megjelenése megfelel a TAS Platform arculatának. A kezelőfelület (GUI) felhasználóbarát és használata könnyen elsajátítható. A felület testreszabható, lehetséges az elemek egyenkénti módosítása az ügyféligényeknek megfelelően.

A TAS Tagger-hez kapcsolódó szolgáltatások

  • Tagger kezelőfelület
  • a TAS Tagger által létrehozott címkék (automatikus vagy előre meghatározott címkék)
  • API a TAS Tagger szolgáltatás integrációjához
  • beállítható hozzáférési jogosultságok (admin, szerkesztő, csak olvasó)
    kapcsolattartás és karbantartás
  • projekt nyomonkövetés

A TAS Tagger integrált technológiái

A címkézési feladat komplexitásától függően többféle módszert alkalmazunk az ügyfél igényeinek legjobban megfelelő megoldás kialakítására. Ezek a módszerek:

  • entitásfelismerés (NER)
  • kulcskifejezés kinyerés
  • gépi tanulás az adatok annotálásával vagy a már megjelölt szövegtestek használatával
  • a fent említett módszerek kombinációja

TAS Tagger technikai leírás (követelmények, integráció, felhasznált nyílt forráskódú szoftverek)

Kezdeti erőforrásigény (On Premise – helyszíni telepítés esetén):
x86_64 CPU legalább 4 mag
legalább 16GB RAM
35GB merevlemez (a tárolókapacitás bizonyos esetekben megnövekedhet)
64-bit Linux, Windows, or macOS – 64-bit JDK 1.8 vagy felette

Elérhetőség ás platform támogatás fejlesztőknek

Cloud API – On Premise API – Java SDK elérhető

Integráció más szolgáltatásokkal

TAS Platform


Amennyiben a szöveges tartalmak automatikus címkézését megvalósító megoldásra van szüksége, kérjük, vegye fel velünk a kapcsolatot!

A honlap további használatához a sütik használatát el kell fogadni. További információ

A süti beállítások ennél a honlapnál engedélyezett a legjobb felhasználói élmény érdekében. Amennyiben a beállítás változtatása nélkül kerül sor a honlap használatára, vagy az "Elfogadás" gombra történik kattintás, azzal a felhasználó elfogadja a sütik használatát.

Bezárás