Entitásfelismerés

Az entitásfelismerés a szöveges dokumentumokban található entitások automatizált beazonosítására és csoportokba rendezésére kínál megoldást, amely további eljárások alapjául is szolgál, mint például a szentimentelemzés, a témakinyerés vagy további, a természetes nyelvfeldolgozáshoz (NLP) tartozó technológiák. A folyamat során a szövegtestekből kinyerésre kerülnek a különböző entitástípusok, többek között a személynevek, szervezetek, események, helyek és a dátumok.

Az entitásfelismerés jelentősége

A szöveges tartalmakban található entitások felismerése és csoportosítása számos terület számára kiemelt fontosságú. Az entitásfelismerés elősegíti a PR, a HR és a marketing feladatok megvalósítását, emellett komoly szerepet játszik többek között az alábbi folyamatoknál:

  • ügyfélátvilágítás
  • nyomozati tevékenység
  • előrejelzés készítés.

Az entitásfelismerésnek köszönhetően a fenti területeken, illetve az említett folyamatoknál alapvető fontosságú vállalati keresés sokkal összetettebb és hatékonyabb megoldást képes nyújtani.

Entitásfelismerés és a vállalati keresés

A hatékonyabb entitásfelismerő megoldás alkalmazása kiemelt jelentőségű a keresőmotorok esetében, így a Precognox által fejlesztett TAS Vállalati keresőnél is. Segítségével a keresőfelületen lehetőség nyílik arra, hogy a különböző entitástípusokban keressünk, vagy az entitáscsoportokat szűrőként használjuk. Emellett a találatoknál is megjelennek a szöveges tartalomban található entitások külön csoportokba rendezve.

Lépjen velünk kapcsolatba!

Szeretné entitásfelismerő megoldással hatékonyabbá tenni kereséseit? Többet szeretne megtudni a Precognox és a Basis Technology szöveganalitikai megoldásairól? Írjon nekünk, vagy küldje el üzenetét az oldal alján található kapcsolatfelvételi űrlap segítségével!

Jóföldi Endre
tulajdonos, ügyvezető
endre.jofoldi@precognox.com

Entitások pontosítása

Az automatikusan kinyert entitások címkeként kezelhetők. A Precognox által fejlesztett TAS Tagger címkéző megoldás számos funkciója mellett lehetővé teszi a kinyert entitás címkék pontosítását.

Fejlett entitásfelismerési megoldás integrálva

Az amerikai székhelyű Basis Technology és a Precognox együttműködése mára már hosszú évekre tekint vissza. Magától értetődő, hogy a Basis Technology hivatalos magyarországi viszonteladójaként és termékintegrátoraként az egyesült államokbeli cég Rosette szöveganalitika platform termékeit alkalmazzuk saját megoldásainkban is. A Basistech entitásfelismerő megoldása, amelyet számítógépes nyelvész szakértők építettek a Rosette Entity Extractor (REX).

Szoros együttműködésben

Amellett, hogy a Precognox a Rosette API hivatalos rendszerintegrátora és viszonteladója, az együttmükődés részeként számos megoldás fejlesztésében is részt vett, így például a névazonosító megoldás magyar nyelvű kialakításában is. Az együttműködés egyik fontos állomása volt a Basis Technology és a Precognox közös előadása az Egyesült Királyság budapesti nagykövetségén.

Rosette Entity Extractor (REX)

Az entitások (pl. szervezetek, emberek, helyek, termékek, dátumok kulcsszereplők a szövegekben. A Basistech entitáskinyerő megoldása, a Rosette Entity Extractor (REX) a szöveganalízis és a gépi tanulás statisztikai modelljének felhasználásával feltérképezi az entitásokat, azokat struktúrába rendezi és megtisztítva adja vissza. A megoldás 29 entitástípust és több mint 450 altípust képes azonosítani.

Pontosabb címkézés és gyorsabb annotáció

A Rosette Adaptation Studio (RAS) egy felhasználóbarát alkalmazás amely a nem szakmai felhasználók számára készült. Az intuitív felületen a REX által kinyert entitásokon felül tetszőleges új címke kategóriák vezethetőek be, ezt a folyamatot pedig maga az ügyfél is elvégezheti, hiszen az nem igényli adattudós vagy NLP szakember bevonását. Az alkalmazás használatával pedig felgyorsul és hatékonyabbá válik az annotációs folyamat.

Az entitások feltérképezése  elengedhetetlen a szöveges tartalmak digitális elemzéséhez, mint pl. közösségi média statisztikák, pénzügyi kimutatások és hírszerzés. A Rosette lehetővé teszi személyek azonosítását nemzetbiztonsági okokból és csalások felderítését
vásárlói visszajelzések feldolgozását termékfejlesztéshez kutatások elemzését feldolgozható adat kinyerését nyílt forrású hírszerzéshez
célzott keresés futtatását tartalomelőállításhoz és ajánlómotorokhoz. A Rosette Entity Extractor lehetővé teszi az eszköz betanítását saját adatokon, így saját
entitás vagy entitás csomag is létrehozható. Például orvosi adatokkal való betanítás után kinyerhetőek a betegségek, gyógyszerek, gyógymódok, stb. A Rosette Entity Extractor egy erős hibrid megoldása a következő eljárásoknak.

Statisztikai modell

A statisztikai modell nagy mennyiségű tréning adatból képezett korpuszt használ arra, hogy megállapítsa bizonyos entitások gyakori előfordulását egy mondaton belül, akár különböző nyelveken. A Rosette Entity Extractor mögött egy külön data team foglalkozik a magas minőségű tréning adatok előállításával. Az adatok válogatását a címkézési (taggelési) folyamat követi, melyet minden esetben natív humán erőforrás végez.

Mintaillesztés

Sok entitás beazonosítható véges számú minták segítségével. Ilyenek pl. a dátumok és email címek. Az entitáskinyerő megoldás felhasználja az előre elkészített mintákat, így pl. egy dátum összes lehetséges előfordulását képes megtalálni.

Nyilvántartók és entitás listák

A Rosette Entity Extractorban felhasználhatók különböző elérhető nyilvántartások vagy listák elemei is a beazonosításhoz. Egy specifikusabb területre szánt entitáskinyerő megoldásnak elengedhetetlen, hogy domain specifikus legyen.

A rendszerrel szembeni elvárások

  • strukturálatlan adatok feldolgozása
  • az entitások nagy pontosságú beazonosítása
  • többnyelvűség támogatása
  • a bemenet szabad szöveg lehet
  • Cloud és On Premise szoftver verzió rendelkezésre állása
  • saját fejlesztésű szoftverbe beépíthetőség

Fontosabb jellemzők

  • 22 támogatott nyelv (21 előre megépített nyelvi modell)
  • 29 entitás típus (450 entitás altípus)
  • intuitív cloud API
  • személyre szabható SDK
  • gyors és skálázható
  • folyamatos stressz tesztelés és fejlesztés, évente legalább 6 frissítéssel
  • gyártói szoftvertámogatás (support)

Technikai információk

Integráció

A Rosette Entity Extractor (REX) a következő szoftverekbe integrálható:

Környezeti támogatás

  • cURL
  • Python
  • PHP
  • Java
  • R
  • Ruby
  • C#
  • Node.js

Kinyerhető entitás típusok

  • személy
  • hely
  • szervezet
  • termék
  • cím
  • nemzetiség
  • vallás
  • pénz
  • bankkártya
  • URL
  • szám
  • azonosító
  • telefonszám
  • E-mail
  • távolság
  • dátum
  • idő
  • koordináta
  • anatómia
  • tevékenység
  • nyelv
  • élelmiszer
  • anyagnév
  • betegség
  • esemény
  • faj
  • mérték
  • vegyes entitások
  • közlekedés

Támogatott nyelvek

  • magyar
  • angol
  • francia
  • német
  • görög
  • olasz
  • portugál
  • orosz
  • spanyol
  • japán
  • koreai
  • arab
  • héber
  • egyszerűsített kínai
  • tradícionális kínai
  • pastu
  • perzsa
  • thai
  • urdu
  • maláj
  • indonéz
  • vietnámi

Lépjen velünk kapcsolatba!

Szeretné entitásfelismerő megoldással hatékonyabbá tenni kereséseit? Többet szeretne megtudni a Precognox és a Basis Technology szöveganalitikai megoldásairól? Írjon nekünk, vagy küldje el üzenetét az alábbi kapcsolatfelvételi űrlap segítségével!

Jóföldi Endre
tulajdonos, ügyvezető
endre.jofoldi@precognox.com