Az entitások feltérképezése elengedhetetlen a szöveges tartalmak digitális elemzéséhez, mint pl. közösségi média statisztikák, pénzügyi kimutatások és hírszerzés. A Rosette lehetővé teszi személyek azonosítását nemzetbiztonsági okokból és csalások felderítését
vásárlói visszajelzések feldolgozását termékfejlesztéshez kutatások elemzését feldolgozható adat kinyerését nyílt forrású hírszerzéshez
célzott keresés futtatását tartalomelőállításhoz és ajánlómotorokhoz. A Rosette Entity Extractor lehetővé teszi az eszköz betanítását saját adatokon, így saját
entitás vagy entitás csomag is létrehozható. Például orvosi adatokkal való betanítás után kinyerhetőek a betegségek, gyógyszerek, gyógymódok, stb. A Rosette Entity Extractor egy erős hibrid megoldása a következő eljárásoknak.
Statisztikai modell
A statisztikai modell nagy mennyiségű tréning adatból képezett korpuszt használ arra, hogy megállapítsa bizonyos entitások gyakori előfordulását egy mondaton belül, akár különböző nyelveken. A Rosette Entity Extractor mögött egy külön data team foglalkozik a magas minőségű tréning adatok előállításával. Az adatok válogatását a címkézési (taggelési) folyamat követi, melyet minden esetben natív humán erőforrás végez.
Mintaillesztés
Sok entitás beazonosítható véges számú minták segítségével. Ilyenek pl. a dátumok és email címek. Az entitáskinyerő megoldás felhasználja az előre elkészített mintákat, így pl. egy dátum összes lehetséges előfordulását képes megtalálni.
Nyilvántartók és entitás listák
A Rosette Entity Extractorban felhasználhatók különböző elérhető nyilvántartások vagy listák elemei is a beazonosításhoz. Egy specifikusabb területre szánt entitáskinyerő megoldásnak elengedhetetlen, hogy domain specifikus legyen.
A rendszerrel szembeni elvárások
- strukturálatlan adatok feldolgozása
- az entitások nagy pontosságú beazonosítása
- többnyelvűség támogatása
- a bemenet szabad szöveg lehet
- Cloud és On Premise szoftver verzió rendelkezésre állása
- saját fejlesztésű szoftverbe beépíthetőség
Fontosabb jellemzők
- 22 támogatott nyelv (21 előre megépített nyelvi modell)
- 29 entitás típus (450 entitás altípus)
- intuitív cloud API
- személyre szabható SDK
- gyors és skálázható
- folyamatos stressz tesztelés és fejlesztés, évente legalább 6 frissítéssel
- gyártói szoftvertámogatás (support)
Technikai információk