Entitásfelismerés

Az entitásfelismerés a szöveges dokumentumokban található entitások automatizált beazonosítására és csoportokba rendezésére kínál megoldást, amely további eljárások alapjául is szolgál, mint például a szentimentelemzés, a témakinyerés vagy további, a természetes nyelvfeldolgozáshoz (NLP) tartozó technológiák. A folyamat során a szövegtestekből kinyerésre kerülnek a különböző entitástípusok, többek között a személynevek, szervezetek, események, helyek és a dátumok.

Az entitásfelismerés jelentősége

A szöveges tartalmakban található entitások felismerése és csoportosítása számos terület számára kiemelt fontosságú. Az entitásfelismerés elősegíti a PR, a HR és a marketing feladatok megvalósítását, emellett komoly szerepet játszik többek között az alábbi folyamatoknál:

  • ügyfélátvilágítás
  • nyomozati tevékenység
  • előrejelzés készítés.

Az entitásfelismerésnek köszönhetően a fenti területeken, illetve az említett folyamatoknál alapvető fontosságú vállalati keresés sokkal összetettebb és hatékonyabb megoldást képes nyújtani.

Entitásfelismerés és a vállalati keresés

A hatékonyabb entitásfelismerő megoldás alkalmazása kiemelt jelentőségű a keresőmotorok esetében, így a Precognox által fejlesztett TAS Vállalati keresőnél is. Segítségével a keresőfelületen lehetőség nyílik arra, hogy a különböző entitástípusokban keressünk, vagy az entitáscsoportokat szűrőként használjuk. Emellett a találatoknál is megjelennek a szöveges tartalomban található entitások külön csoportokba rendezve.

Lépjen velünk kapcsolatba!

Szeretné entitásfelismerő megoldással hatékonyabbá tenni kereséseit? Többet szeretne megtudni a Precognox és a Basis Technology szöveganalitikai megoldásairól? Írjon nekünk, vagy küldje el üzenetét az oldal alján található kapcsolatfelvételi űrlap segítségével!

Jóföldi Endre
tulajdonos, ügyvezető
endre.jofoldi@precognox.com

Entitások pontosítása

Az automatikusan kinyert entitások címkeként kezelhetők. A Precognox által fejlesztett TAS Tagger címkéző megoldás számos funkciója mellett lehetővé teszi a kinyert entitás címkék pontosítását.

Fejlett entitásfelismerési megoldás integrálva

Az amerikai székhelyű Basis Technology és a Precognox együttműködése mára már hosszú évekre tekint vissza. Magától értetődő, hogy a Basis Technology hivatalos magyarországi viszonteladójaként és termékintegrátoraként az egyesült államokbeli cég Rosette szöveganalitika platform termékeit alkalmazzuk saját megoldásainkban is. A Basistech entitásfelismerő megoldása, amelyet számítógépes nyelvész szakértők építettek a Rosette Entity Extractor (REX).

Szoros együttműködésben

Amellett, hogy a Precognox a Rosette API hivatalos rendszerintegrátora és viszonteladója, az együttmükődés részeként számos megoldás fejlesztésében is részt vett, így például a névazonosító megoldás magyar nyelvű kialakításában is. Az együttműködés egyik fontos állomása volt a Basis Technology és a Precognox közös előadása az Egyesült Királyság budapesti nagykövetségén.

Rosette Entity Extractor (REX)

Az entitások (pl. szervezetek, emberek, helyek, termékek, dátumok kulcsszereplők a szövegekben. A Basistech entitáskinyerő megoldása, a Rosette Entity Extractor (REX) a szöveganalízis és a gépi tanulás statisztikai modelljének felhasználásával feltérképezi az entitásokat, azokat struktúrába rendezi és megtisztítva adja vissza. A megoldás 29 entitástípust és több mint 450 altípust képes azonosítani.

Az entitások feltérképezése  elengedhetetlen a szöveges tartalmak digitális elemzéséhez, mint pl. közösségi média statisztikák, pénzügyi kimutatások és hírszerzés. A Rosette lehetővé teszi személyek azonosítását nemzetbiztonsági okokból és csalások felderítését
vásárlói visszajelzések feldolgozását termékfejlesztéshez kutatások elemzését feldolgozható adat kinyerését nyílt forrású hírszerzéshez
célzott keresés futtatását tartalomelőállításhoz és ajánlómotorokhoz. A Rosette Entity Extractor lehetővé teszi az eszköz betanítását saját adatokon, így saját
entitás vagy entitás csomag is létrehozható. Például orvosi adatokkal való betanítás után kinyerhetőek a betegségek, gyógyszerek, gyógymódok, stb. A Rosette Entity Extractor egy erős hibrid megoldása a következő eljárásoknak.

Statisztikai modell

A statisztikai modell nagy mennyiségű tréning adatból képezett korpuszt használ arra, hogy megállapítsa bizonyos entitások gyakori előfordulását egy mondaton belül, akár különböző nyelveken. A Rosette Entity Extractor mögött egy külön data team foglalkozik a magas minőségű tréning adatok előállításával. Az adatok válogatását a címkézési (taggelési) folyamat követi, melyet minden esetben natív humán erőforrás végez.

Mintaillesztés

Sok entitás beazonosítható véges számú minták segítségével. Ilyenek pl. a dátumok és email címek. Az entitáskinyerő megoldás felhasználja az előre elkészített mintákat, így pl. egy dátum összes lehetséges előfordulását képes megtalálni.

Nyilvántartók és entitás listák

A Rosette Entity Extractorban felhasználhatók különböző elérhető nyilvántartások vagy listák elemei is a beazonosításhoz. Egy specifikusabb területre szánt entitáskinyerő megoldásnak elengedhetetlen, hogy domain specifikus legyen.

A rendszerrel szembeni elvárások

  • strukturálatlan adatok feldolgozása
  • az entitások nagy pontosságú beazonosítása
  • többnyelvűség támogatása
  • a bemenet szabad szöveg lehet
  • Cloud és On Premise szoftver verzió rendelkezésre állása
  • saját fejlesztésű szoftverbe beépíthetőség

Fontosabb jellemzők

  • 22 támogatott nyelv (21 előre megépített nyelvi modell)
  • 29 entitás típus (450 entitás altípus)
  • intuitív cloud API
  • személyre szabható SDK
  • gyors és skálázható
  • folyamatos stressz tesztelés és fejlesztés, évente legalább 6 frissítéssel
  • gyártói szoftvertámogatás (support)

Technikai információk

Integráció

A Rosette Entity Extractor (REX) a következő szoftverekbe integrálható:

Környezeti támogatás

  • cURL
  • Python
  • PHP
  • Java
  • R
  • Ruby
  • C#
  • Node.js

Kinyerhető entitás típusok

  • személy
  • hely
  • szervezet
  • termék
  • cím
  • nemzetiség
  • vallás
  • pénz
  • bankkártya
  • URL
  • szám
  • azonosító
  • telefonszám
  • E-mail
  • távolság
  • dátum
  • idő
  • koordináta
  • anatómia
  • tevékenység
  • nyelv
  • élelmiszer
  • anyagnév
  • betegség
  • esemény
  • faj
  • mérték
  • vegyes entitások
  • közlekedés

Támogatott nyelvek

  • magyar
  • angol
  • francia
  • német
  • görög
  • olasz
  • portugál
  • orosz
  • spanyol
  • japán
  • koreai
  • arab
  • héber
  • egyszerűsített kínai
  • tradícionális kínai
  • pastu
  • perzsa
  • thai
  • urdu
  • maláj
  • indonéz
  • vietnámi

Lépjen velünk kapcsolatba!

Szeretné entitásfelismerő megoldással hatékonyabbá tenni kereséseit? Többet szeretne megtudni a Precognox és a Basis Technology szöveganalitikai megoldásairól? Írjon nekünk, vagy küldje el üzenetét az alábbi kapcsolatfelvételi űrlap segítségével!

Jóföldi Endre
tulajdonos, ügyvezető
endre.jofoldi@precognox.com