Mire és hogyan használhatjuk a webes tartalmakat? | Precognox

Mire és hogyan használhatjuk a webes tartalmakat?

 

Információk után kutatva nap mint nap indítunk kereséseket a világhálón illetve tartalomletöltéseket a webről. Ez azért lehetséges, mert a weben ma már témafüggetlenül szinte minden tartalom elérhető. Ezek a tartalmak komoly segítséget nyújtanak privát életünkben (pl: hírek, időjárás-előrejelzés) és a munkavégzésünk során is.

 

Most nézzük meg, hogy munkánk során konkrétan mihez is használ(hat)juk fel ezeket az adatokat (szöveges tartalmakat)!

– Kutatásokhoz, fejlesztési projektekhez
– Újabb tartalmak, publikációk megírásához
– Szolgáltató-, információnyújtó-, tematikus gyűjtőoldalak, blogok, közérdekű- és open data portálok adatokkal történő feltöltéséhez
– Statisztikák, vizualizációk létrehozásához

A Precognox Data Collector szolgáltatás által gyűjtött webes tartalomra épülő Tableau adatvizualizáció 

 

– Vállalati folyamatok / működés biztosításához (Adatmentésre (webhely, internetes adatbázis állapotának lementéséhez)
– Email-ek osztályozásához
– Konkurenciafigyeléshez
– Sajtófigyeléshez
– Kereshető adatbázisok létrehozásához
– Szöveges tartalmak indexeléséhez
– Mesterséges intelligencia megalkotásához, gépi tanuláshoz
– Adatváltozások nyomon követéséhez

 

Nézzük meg tételesen, hogy a különböző esetekben hogyan használhatjuk fel az Internetről összegyűjtött adatokat!

Kutatás-fejlesztés, projektek
Az ilyen jellegű munkavégzés első lépcsője általában a korábban felhalmozott tudás és eredmények áttekintése a szakmai portálokon megjelent tudományos cikkek gyűjtésével (amelyeket forrásként jelölünk meg). Ezek tartalma megkönnyíti az újabb kutatási-fejlesztési projektek megvalósulását.

Kutatási projektek esetén számtalan adatforrás (weboldal) tartalmának összegyűjtésére van szükség

 

Új tartalmak, publikációk megírása
Az újságírók cikkeiket többnyire korábbi tartalmak összefésülésével valósítják meg, tehát ebben az esetben alapvető fontosságú a források felkutatása és a megjelent publikációk szöveges tartalmának letöltése.

Szolgáltató-, információnyújtó-, tematikus gyűjtőoldalak, blogok, közérdekű- és open data portálok adatokkal történő feltöltéséhez
Az adat- és információszolgáltatás esetében több, megbízható (hivatalos) adatforrás tartalmainak (táblázatok, statisztikák) összegyűjtésére van szükség. Ilyenek lehetnek például a közérdekű adatok.
Ezen felül nyílt, avagy open data adatok (adatbázisok) létrehozásához és publikálásához is felhasználhatjuk az Interneten elérhető nyilvános és szabadon felhasználható tartalmakat. Jó példa erre az opendata.hu weboldal is.

Statisztikák, vizualizációk létrehozásához
Szakmai előadások, vállalati prezentációk elengedhetetlen része a statisztikák alapján készült vizualizációk (diagramok) bemutatása. Sok esetben a statisztikák alapjául szolgáló adatok forrása az Interneten található tartalmak, gondoljunk csak a nemzetközi szervezetek által közzétett adatokra vagy akár a világ értéktőzsdéin keletkező pénzügyi információkra. A vizualizációk létrehozása egy speciális részterület, készítésükhöz nem csak a tartalmak összegyűjtésére van szükség, hanem ezen adatokat olyan strukturált formába rendezésére is, méghozzá olyan formátumba, amely megfelel a vizualizáló eszköz) által támasztott követelményeknek.

Példák a Business Intelligence eszközökkel történő integrációra

Tableau

RapidMiner

Power BI

Google Data Studio

 

Vállalati folyamatok / működés biztosításához (adatmentésre vagy webhely, internetes adatbázis állapotának lementéséhez)
A vállalati döntések meghozatalához óriási információhalmazra (jelentések, statisztikák) van szükség, ezen adatok összegyűjtése rendkívül fontos feladat. Emellett egyre fontosabb terület a vállalati adatok állandó elérhetőségének biztosítása adatmentéssel. Ennek megvalósítása is lehetséges webes adatgyűjtéssel, gondoljunk csak a céges honlap tartalmának legyűjtésére, mely segíti a korábbi állapotok megtekintését, vagy akár visszaállítását. Így elkerülhető az adatvesztés, amely komoly üzleti károkat is okozhat.

 

Egy weboldal tartalma gyakran változik, a változások manuális követése lehetetlen feladat

 

Email-ek osztályázásához
Ma már lehetséges az elektronikus levelek tartalmának kinyerése és ezáltal a területi illetékesség alapján történő osztályozásuk. Ezzel a megoldással jelentősen hatékonyabbá válik a beérkező email-ek kezelése, hiszen az email-ek ember által történő egyenkénti elolvasását sem igényli, mivel azok tartalma alapján képes elvégezi az email-ek osztályozását a vállalati területek (pénzügy, HR) szerint.

Az email-ek szöveges tartalmuk alapján osztályozhatók 

 

Konkurenciafigyeléshez
A piaci előny kiépítéséhez vagy megtartásához elengedhetetlen a versenytársak nyomon követése. Sok esetben ez kizárólag az Interneten megjelenő tartalmak gyűjtésével lehetséges. Ezek a tartalmak lehetnek akár cikkek, statisztikák, de akár speciális adatgyűjtést igénylő adatok is.

Sajtófigyeléshez
A vállalkozásunkról, konkurenciáról vagy éppen egy adott szakmai területről megjelenő online cikkek ma már minden nagyobb cég életében kulcsfontosságú szerephez jutnak, mivel jól használhatók reklám célokra, így ez egy kiemelkedő fontosságú területe az internetről történő adatgyűjtésnek.

Sajtófigyeléssel nyomon követhető, hogy milyen számunkra releváns publikációk jelennek meg, ezen cikkek tartalma a véleményanalízis alapjául is szolgáhat

 

Kereshető adatbázisok létrehozásához
Ma már sok olyan ingyenes, esetleg regisztrációhoz kötött vagy fizetős webes felület létezik, amelyeket korábbi adatgyűjtés segítségével hoztak létre. Ilyen adatbázisok létrehozásához és az onnan történő további információszerzéshez is komoly tartalomgyűjtés szükségeltetik. Ilyen esetekben már megjelennek az összegyűjtött adatok kereshetőségét szolgáló szöveganalitikai megoldások is, mint a vállalati keresők és a hozzá kapcsolódó speciális szolgáltatások, mint a log analízis vagy a tezauruszok építése.

Szöveges tartalmak indexeléséhez
Nagyobb szöveges korpuszok (pl.: online napilapok) tartalmának beazonosításához és kereshetőségének javításához szükség van a tartalom összegyűjtésére, hogy a szövegek indexelhetőek, címkézhetőek legyenek, így segítve a tematizálást vagy a későbbi visszakereshetőséget.

 

Entitások felismerése a szövegtestben

 

Mesterséges intelligencia megalkotásához, gépi tanuláshoz
A mesterséges intelligencia térnyerésével a gépi tanulás folyamatának biztosításához óriási adatmennyiségre van szükség, ráadásul mindezt nagyon magas adatminőség mellett kell tudni biztosítani. Egy AI (MI) betanításához a hatalmas szövegkorpuszokat csak nagy volumenű adatgyűjtéssel lehet produkálni. Ilyen mennyiségű (akár több könyvtárnyi) adat kizárólag a világhálón található.

 

A mesterséges intelligencia tanításához nagy mennyiségű és jó minőségű adatra van szükség

 

Adatváltozások nyomon követéséhez
Speciális esetben kizárólag egy (vagy több) adott Internetes adatforrás változásának nyomon követésére van szükség, ekkor csak az új és releváns információk (vagy a régi információk változása) érdekelnek minket. Ennek megoldása automatikus adatgyűjtési megoldás alkalmazása nélkül szinte lehetetlen, de legalábbis hatalmas munkaidőt és erőforrást igénylő feladat.

 

A fenti hosszú lista bizonyítja, hogy számtalan felhasználási módja van az Interneten fellelhető tartalmaknak. Az újabb és újabb speciális szakmai részterületek, technológiák és applikációk megjelenése pedig folyamatosan bővíti a felhasználási lehetőségek számát.
Az elkövetkezendő években (évtizedekben) alapvető fontosságú lesz, hogy a webes tartalmakban rejlő potenciált hogyan aknázzuk ki. Bármelyik alkalmazási területen is

van szükség az adatra, az már most kijelenthető, hogy ekkora adatmennyiség összegyűjtésére speciális szöveganalitikai alkalmazásra van szükség.

 

Létezik megoldás
A Precognox szöveganalitikai platformjának egyik alappillére a Data Collector szolgáltatás, amely a webes tartalmak gyűjtése által komoly üzleti előnyt biztosít a cég partnereinek, legyen is szó bármely felhasználási területről.
A megrendelőnek kizárólag a releváns weboldalakat és az azon belüli tartalmakat (input), illetve a kimeneti oldalon (output) fellépő elvárásokat (pl: integráció) szükséges megjelölniük. A Data Collector szolgáltatás által a teljes (egyszeri vagy ismétlődő) adatgyűjtési folyamat elvégezhető. A TAS (Text Analytics System) további szolgáltatásai pedig a szöveges tartalmakkal történő speciális szöveganalitikai munkafolyamatok elvégzését teszik lehetővé.

 

Szeretné Ön is kihasználni a webes tartalmakban rejlő potenciált? Egyedi szöveganalitikai megoldásra van szüksége?

Vegye fel velünk a kapcsolatot!

 

Képek: Pixabay