Komplex dokumentáció feldolgozás
A HungaroDoc rendszer ú.n. end-to-end dokumentáció feldolgozó rendszer, amely egységes rendszerbe integrálja a dokumentációk beolvasásának, megértésének, felhasználásának és szétosztásának folyamatait.
A cél: megkönnyíteni mindazok munkáját, akiknek mindezeket a folyamatokat manuálisan kell elvégezni.
Szervezetek, intézmények, vállalatok részére az elvégzendő feladat kettős:
A HungaroDoc rendszer erre a speciális feladatkörre kialakított magyar nyelvű, saját fejlesztésű strukturált, strukturálatlan, valamint hangalapú dokumentációkat feldolgozó és archiváló rendszer, amely képes a teljes dokumentáció kezelési folyamat lebonyolítására nagy hatásfokú RPA (Robotic Process Automation) eszközökkel, minimális emberi közreműködéssel.
A dokumentumok részét képezik a hang alapú anyagok, amelyek speech-to-text eljárást követően válnak írott dokumentummá.
A HungaroDoc lehetővé teszi más intelligens platformokkal történő együttműködést, melyek könnyen beintegrálhatók. A rendszer használja a Kofax Capture és Kofax Transformation platformokat, valamint vevő specifikus magyar nyelvű Speech-to-text platformokat.
A teljes folyamat manuális elemeket akkor tartalmaz csak, ha szükséges, például a beolvasandó strukturálatlan dokumentumok valamilyen logikai rend szerinti összeállítása, csoportosítása, valamint az elvégzett feladat validálása, ellenőrzése érdekében.
A HungaroDoc rendszer szerves részét képezi a HungaroNer természetes nyelvfeldolgozást (NLP) végző rendszer.
A cél: megkönnyíteni mindazok munkáját, akiknek mindezeket a folyamatokat manuálisan kell elvégezni.
Szervezetek, intézmények, vállalatok részére az elvégzendő feladat kettős:
- Az évek során felhalmozódott értékes információkat tartalmazó dokumentumok mentése, feldolgozása archiválása. Ráadásul a régebbi dokumentációk nagy része strukturálatlan, papír alapú dokumentum. Nagy jelentőséggel bírhat továbbá a hangalapú dokumentációk feldolgozása is. A feladat nem csupán ezeknek a dokumentumoknak a digitalizálása, hanem valamely fontos jellemzők (entitások) szerinti csoportosítása, indexálása, hogy a későbbiekben egy adott dokumentum ezek alapján adatbázisból könnyen visszakereshető, feldolgozható legyen.
- A folyamatosan képződő elektronikus dokumentációk integrált munkafolyamatban történő feldolgozása.
A HungaroDoc rendszer erre a speciális feladatkörre kialakított magyar nyelvű, saját fejlesztésű strukturált, strukturálatlan, valamint hangalapú dokumentációkat feldolgozó és archiváló rendszer, amely képes a teljes dokumentáció kezelési folyamat lebonyolítására nagy hatásfokú RPA (Robotic Process Automation) eszközökkel, minimális emberi közreműködéssel.
A dokumentumok részét képezik a hang alapú anyagok, amelyek speech-to-text eljárást követően válnak írott dokumentummá.
A HungaroDoc lehetővé teszi más intelligens platformokkal történő együttműködést, melyek könnyen beintegrálhatók. A rendszer használja a Kofax Capture és Kofax Transformation platformokat, valamint vevő specifikus magyar nyelvű Speech-to-text platformokat.
A teljes folyamat manuális elemeket akkor tartalmaz csak, ha szükséges, például a beolvasandó strukturálatlan dokumentumok valamilyen logikai rend szerinti összeállítása, csoportosítása, valamint az elvégzett feladat validálása, ellenőrzése érdekében.
A HungaroDoc rendszer szerves részét képezi a HungaroNer természetes nyelvfeldolgozást (NLP) végző rendszer.
Vegye fel velünk a kapcsolatot!
Természetes nyelvfeldolgozás
A HungaroNer a Hungarocom saját fejlesztésű magyar nyelvű természetes nyelvfeldolgozást végző rendszere. Négy alkalmazását mutatjuk be:
Az érzelmi polaritás meghatározásánál egy dokumentum érzelmi polaritását, azaz a szöveg pozitív, negativ, vagy közömbös kicsengését állapítjuk meg.
A kategorizálásnál a bemeneti szöveget a rendszer feldolgozza, értelmezi, majd a szavakat szókapcsolatokat, szóhasználatot figyelembe véve az adott dokumentumokat előre meghatározott osztályokba sorolja be.
- entitás kinyerés;
- érzelmi polaritás meghatározás;
- kategorizálás;
- kapcsolati háló.
Az érzelmi polaritás meghatározásánál egy dokumentum érzelmi polaritását, azaz a szöveg pozitív, negativ, vagy közömbös kicsengését állapítjuk meg.
A kategorizálásnál a bemeneti szöveget a rendszer feldolgozza, értelmezi, majd a szavakat szókapcsolatokat, szóhasználatot figyelembe véve az adott dokumentumokat előre meghatározott osztályokba sorolja be.
A betöltött dokumentumokon a szövegfeldolgozást saját fejlesztésű szövegfeldolgozó robot végzi, amely kezeli a ragozott alakokat (lemmatizálás) is. A rendszer rendkívül hatékonyan és gyorsan tetszőleges vevőspecifikus entitás kinyerésére programozható. A HungaroNer a szoftver robotokkal (RPA) együtt is használható. Az ábrán látható a rendszer felépítése.
Vegye fel velünk a kapcsolatot!
- Nevek
Magyar nyelv szabályai szerint használt név leiratokat kezeli. A HungaroNer név felismerő algoritmusa kezeli az ábrán látható felépítésű személyneveket. Az alkalmazott módszer a névhez kötött intézményneveket (pl. Neumann János egyetem) nem tekinti névnek. Az algoritmus a személyneveket, földrajzi, intézmény, márka stb. nevekkel nem téveszti össze. A rendszer kezeli a nevek ragozott alakjait is. - Dátumok
Az algoritmus felismeri a legkülönbözőbb formátumban írt dátumokat. - Címek
A rendszer felismeri a magyar írásmódnak megfelelően leírt címeket. - Telefonszámok
A rendszer biztosítja, hogy adott telefonszám nem keverhető össze más számokkal, szabvány és egyéb számozásokkal. - E-mail címek
A rendszer valamennyi szabványos formátumú e-mail címet felismer.
Az ábra a HungaroNer megjelenítő felületét mutatja be. Vevői igényeknek megfelelően tetszőleges GUI kialakítható.
A baloldali mezőben a feldolgozott dokumentumok láthatók. A középső mezőben megjelenik a feldolgozott dokumentum, a jobboldali mező ablakai a kivonatolt entitásokat tartalmazzák.
A különböző entitások a szöveg testben különféle szín jelölésekkel jelennek meg. Külön jelölhetők a kivonatolt ragozott, illetve rag nélküli adatok.
Az ábrán bejelöltük az intézmény névhez köthető személynevet, amit a rendszer nem név entitásként jelenít meg, valamint telefonszámként is értelmezhető számot, amit nem telefonszám entitásként jelenít meg.
A baloldali mezőben a feldolgozott dokumentumok láthatók. A középső mezőben megjelenik a feldolgozott dokumentum, a jobboldali mező ablakai a kivonatolt entitásokat tartalmazzák.
A különböző entitások a szöveg testben különféle szín jelölésekkel jelennek meg. Külön jelölhetők a kivonatolt ragozott, illetve rag nélküli adatok.
Az ábrán bejelöltük az intézmény névhez köthető személynevet, amit a rendszer nem név entitásként jelenít meg, valamint telefonszámként is értelmezhető számot, amit nem telefonszám entitásként jelenít meg.
Vegye fel velünk a kapcsolatot!
A dokumentumban az érzelmeket kifejező kifejezések súlyozott előfordulási középértékeit határozzuk meg a pozitív és negatív érzelmi polaritások szempontjából, majd korrigáljuk azzal, hogy figyelembe vesszük a pozitív és negatív polaritások előfordulási arányait.
Az érzelmi polaritás egy -1 és +1 tartományban mérhető érték, a nagyon negatívtól a közömbösön át a nagyon pozitívig megítélést fejez ki.
Az algoritmus kezeli és értékeli a negálásokat (pl. barátságos-nem barátságos), valamint a fokozásokat (pl. indulatos-borzasztóan indulatos) és a tagadott fokozásokat (pl. borzasztóan indulatos - nem olyan borzasztóan indulatos). További korrekcióra kerül sor az extrém negatív, trágár kifejezéseket tartalmazó szövegek esetén.
Az érzelmi polaritás meghatározást csak magyar nyelvű dokumentumokra alkalmaztuk.
A képernyőn látható a megjelenített szöveg, valamint az érzelmi polaritás megjelölése.
Ez a funkció jól használható, ha érzelmi polaritás alapján (pl. ügyfélszolgálatok) kívánjuk a dokumentum kezelését irányítani.
Az érzelmi polaritás egy -1 és +1 tartományban mérhető érték, a nagyon negatívtól a közömbösön át a nagyon pozitívig megítélést fejez ki.
Az algoritmus kezeli és értékeli a negálásokat (pl. barátságos-nem barátságos), valamint a fokozásokat (pl. indulatos-borzasztóan indulatos) és a tagadott fokozásokat (pl. borzasztóan indulatos - nem olyan borzasztóan indulatos). További korrekcióra kerül sor az extrém negatív, trágár kifejezéseket tartalmazó szövegek esetén.
Az érzelmi polaritás meghatározást csak magyar nyelvű dokumentumokra alkalmaztuk.
A képernyőn látható a megjelenített szöveg, valamint az érzelmi polaritás megjelölése.
Ez a funkció jól használható, ha érzelmi polaritás alapján (pl. ügyfélszolgálatok) kívánjuk a dokumentum kezelését irányítani.
Vegye fel velünk a kapcsolatot!
A kategorizálás dokumentumok tartalom szerinti csoportosítása, leválogatása, továbbítása. Tipikus felhasználási területek:
A kategorizálás tudásbázisok alapján történik, melyek megfelelő kulcsszavakat, kifejezéseket szóösszefüggéseket tartalmaznak. Egy adott kategória kapcsán különböző súlytényezővel rendelkező tudásbázisok alapján történik a vizsgálat. A súlyozott tudásbázisok alkalmazása lehetőséget ad finom hangolások, megközelítések elvégzésére. A kategóriák szabadon létrehozhatók, könnyen módosíthatók. Multikategorizálás is lehetséges, amikor adott dokumentum több kategóriában is szerepelhet.
A besorolás pontérték meghatározása alapján történik. A pontérték meghatározásánál figyelembe veszi a rendszer a bemenő dokumentum hosszúságát, valamint a tudástár hasznos méretét. Ezek szabadon állíthatók, meghatározott formula paraméterértékeivel, így az adott szöveg találati valószínűsége pontosítható és függetleníthető a dokumentum hosszúságától.
- dokumentumok megfelelő ügyintézőhöz irányítása tartalom alapján;
- cikkek, hírtartalmak tematikus leválogatása;
- problémás esetek azonosítása, melyek gyors reakciót, kiemelt figyelmet érdemelnek;
A kategorizálás tudásbázisok alapján történik, melyek megfelelő kulcsszavakat, kifejezéseket szóösszefüggéseket tartalmaznak. Egy adott kategória kapcsán különböző súlytényezővel rendelkező tudásbázisok alapján történik a vizsgálat. A súlyozott tudásbázisok alkalmazása lehetőséget ad finom hangolások, megközelítések elvégzésére. A kategóriák szabadon létrehozhatók, könnyen módosíthatók. Multikategorizálás is lehetséges, amikor adott dokumentum több kategóriában is szerepelhet.
A besorolás pontérték meghatározása alapján történik. A pontérték meghatározásánál figyelembe veszi a rendszer a bemenő dokumentum hosszúságát, valamint a tudástár hasznos méretét. Ezek szabadon állíthatók, meghatározott formula paraméterértékeivel, így az adott szöveg találati valószínűsége pontosítható és függetleníthető a dokumentum hosszúságától.
Vegye fel velünk a kapcsolatot!
A kapcsolati háló kiválasztott entitások közötti kapcsolatok felderítésére szolgál. A HungaroNer a feladatot beépített funkcióként végzi. Az ábrán egy szemléltető példát látunk a kapcsolati háló megszerkesztésére. A feladat a listán szereplő feldolgozandó dokumentumokban előforduló nevek és címek közötti kapcsolat felderítése. Első lépésben a dokumentumokból entitás kinyerést végzünk, jelen példában a név és cím entitásokat vonatoljuk ki.
A kapcsolati háló olyan csomópontokat és éleket tartalmazó gráf, amelyből egyértelműen kiderülnek az összefüggések. A megjelenő ablakban kiválasztjuk a csomópontokat, azokat az entitásokat, amelyeknek kapcsolatrendszerére kiváncsiak vagyunk, majd kiválasztjuk azokat az éleket (entitásokat), amelyek vonatkozásában a csomópontok közötti összefüggéseket keressük. A rendszer ezután meghatározza a kapcsolati rendszer gráfot, majd a Kapcsolati háló megtekintése menü pont kiválasztását követően megjelenik a kapcsolati háló.
A kapcsolati háló olyan csomópontokat és éleket tartalmazó gráf, amelyből egyértelműen kiderülnek az összefüggések. A megjelenő ablakban kiválasztjuk a csomópontokat, azokat az entitásokat, amelyeknek kapcsolatrendszerére kiváncsiak vagyunk, majd kiválasztjuk azokat az éleket (entitásokat), amelyek vonatkozásában a csomópontok közötti összefüggéseket keressük. A rendszer ezután meghatározza a kapcsolati rendszer gráfot, majd a Kapcsolati háló megtekintése menü pont kiválasztását követően megjelenik a kapcsolati háló.
Vegye fel velünk a kapcsolatot!