Komplex dokumentáció feldolgozás

A HungaroDoc rendszer ú.n. end-to-end dokumentáció feldolgozó rendszer, amely egységes rendszerbe integrálja a dokumentációk beolvasásának, megértésének, felhasználásának és szétosztásának folyamatait.

A cél: megkönnyíteni mindazok munkáját, akiknek mindezeket a folyamatokat manuálisan kell elvégezni.

Szervezetek, intézmények, vállalatok részére az elvégzendő feladat kettős:

  • Az évek során felhalmozódott értékes információkat tartalmazó dokumentumok mentése, feldolgozása archiválása. Ráadásul a régebbi dokumentációk nagy része strukturálatlan, papír alapú dokumentum. Nagy jelentőséggel bírhat továbbá a hangalapú dokumentációk feldolgozása is. A feladat nem csupán ezeknek a dokumentumoknak a digitalizálása, hanem valamely fontos jellemzők (entitások) szerinti csoportosítása, indexálása, hogy a későbbiekben egy adott dokumentum ezek alapján adatbázisból könnyen visszakereshető, feldolgozható legyen.
  • A folyamatosan képződő elektronikus dokumentációk integrált munkafolyamatban történő feldolgozása.


A HungaroDoc rendszer erre a speciális feladatkörre kialakított magyar nyelvű, saját fejlesztésű strukturált, strukturálatlan, valamint hangalapú dokumentációkat feldolgozó és archiváló rendszer, amely képes a teljes dokumentáció kezelési folyamat lebonyolítására nagy hatásfokú RPA (Robotic Process Automation) eszközökkel, minimális emberi közreműködéssel.

A dokumentumok részét képezik a hang alapú anyagok, amelyek speech-to-text eljárást követően válnak írott dokumentummá.

A HungaroDoc lehetővé teszi más intelligens platformokkal történő együttműködést, melyek könnyen beintegrálhatók. A rendszer használja a Kofax Capture és Kofax Transformation platformokat, valamint vevő specifikus magyar nyelvű Speech-to-text platformokat.

A teljes folyamat manuális elemeket akkor tartalmaz csak, ha szükséges, például a beolvasandó strukturálatlan dokumentumok valamilyen logikai rend szerinti összeállítása, csoportosítása, valamint az elvégzett feladat validálása, ellenőrzése érdekében.

A HungaroDoc rendszer szerves részét képezi a HungaroNer természetes nyelvfeldolgozást (NLP) végző rendszer.

komplex dokumentáció feldolgozás
×
komplex dokumentáció feldolgozás

Vegye fel velünk a kapcsolatot!

Természetes nyelvfeldolgozás

A HungaroNer a Hungarocom saját fejlesztésű magyar nyelvű természetes nyelvfeldolgozást végző rendszere. Négy alkalmazását mutatjuk be:

  • entitás kinyerés;
  • érzelmi polaritás meghatározás;
  • kategorizálás;
  • kapcsolati háló.
Az entitás kinyerés (NER= Named Entity Recognition) olyan természetes nyelvfeldolgozás (NLP) technika, melynek feladata strukturálatlan dokumentumokból meghatározott információ automatikus kinyerése. Ilyen információk (entitások) lehetnek név, földrajzi hely, cím stb.

Az érzelmi polaritás meghatározásánál egy dokumentum érzelmi polaritását, azaz a szöveg pozitív, negativ, vagy közömbös kicsengését állapítjuk meg.

A kategorizálásnál a bemeneti szöveget a rendszer feldolgozza, értelmezi, majd a szavakat szókapcsolatokat, szóhasználatot figyelembe véve az adott dokumentumokat előre meghatározott osztályokba sorolja be.

HungaroNer
×
HungaroNer
A kapcsolati háló meghatározása során a rendszer meghatározott entitásokból indul ki és azok kinyerése után összefüggéseiket mutatja be a bemeneti dokumentumok elemzése alapján. Az entitások kinyerését követően meghatározott keresési feltételeknek megfelelően (milyen entitások milyen más entitásokkal való összefüggéseit keressük) elvégzi a kapcsolati háló meghatározását.

A betöltött dokumentumokon a szövegfeldolgozást saját fejlesztésű szövegfeldolgozó robot végzi, amely kezeli a ragozott alakokat (lemmatizálás) is. A rendszer rendkívül hatékonyan és gyorsan tetszőleges vevőspecifikus entitás kinyerésére programozható. A HungaroNer a szoftver robotokkal (RPA) együtt is használható. Az ábrán látható a rendszer felépítése.

Vegye fel velünk a kapcsolatot!
  • Nevek
    Magyar nyelv szabályai szerint használt név leiratokat kezeli. A HungaroNer név felismerő algoritmusa kezeli az ábrán látható felépítésű személyneveket. Az alkalmazott módszer a névhez kötött intézményneveket (pl. Neumann János egyetem) nem tekinti névnek. Az algoritmus a személyneveket, földrajzi, intézmény, márka stb. nevekkel nem téveszti össze. A rendszer kezeli a nevek ragozott alakjait is.
  • Dátumok
    Az algoritmus felismeri a legkülönbözőbb formátumban írt dátumokat.
  • Címek
    A rendszer felismeri a magyar írásmódnak megfelelően leírt címeket.
  • Telefonszámok
    A rendszer biztosítja, hogy adott telefonszám nem keverhető össze más számokkal, szabvány és egyéb számozásokkal.
  • E-mail címek
    A rendszer valamennyi szabványos formátumú e-mail címet felismer.
név felismerő algoritmus
×
név felismerő algoritmus


Az ábra a HungaroNer megjelenítő felületét mutatja be. Vevői igényeknek megfelelően tetszőleges GUI kialakítható.

A baloldali mezőben a feldolgozott dokumentumok láthatók. A középső mezőben megjelenik a feldolgozott dokumentum, a jobboldali mező ablakai a kivonatolt entitásokat tartalmazzák.

A különböző entitások a szöveg testben különféle szín jelölésekkel jelennek meg. Külön jelölhetők a kivonatolt ragozott, illetve rag nélküli adatok.

Az ábrán bejelöltük az intézmény névhez köthető személynevet, amit a rendszer nem név entitásként jelenít meg, valamint telefonszámként is értelmezhető számot, amit nem telefonszám entitásként jelenít meg.
név felismerő algoritmus
×
név felismerő algoritmus

Vegye fel velünk a kapcsolatot!
A dokumentumban az érzelmeket kifejező kifejezések súlyozott előfordulási középértékeit határozzuk meg a pozitív és negatív érzelmi polaritások szempontjából, majd korrigáljuk azzal, hogy figyelembe vesszük a pozitív és negatív polaritások előfordulási arányait.
Az érzelmi polaritás egy -1 és +1 tartományban mérhető érték, a nagyon negatívtól a közömbösön át a nagyon pozitívig megítélést fejez ki.
Az algoritmus kezeli és értékeli a negálásokat (pl. barátságos-nem barátságos), valamint a fokozásokat (pl. indulatos-borzasztóan indulatos) és a tagadott fokozásokat (pl. borzasztóan indulatos - nem olyan borzasztóan indulatos). További korrekcióra kerül sor az extrém negatív, trágár kifejezéseket tartalmazó szövegek esetén.
Az érzelmi polaritás meghatározást csak magyar nyelvű dokumentumokra alkalmaztuk.
A képernyőn látható a megjelenített szöveg, valamint az érzelmi polaritás megjelölése.
Ez a funkció jól használható, ha érzelmi polaritás alapján (pl. ügyfélszolgálatok) kívánjuk a dokumentum kezelését irányítani.
érzelmi polaritás, sentiment analízis
×
érzelmi polaritás, sentiment analízis

Vegye fel velünk a kapcsolatot!
A kategorizálás dokumentumok tartalom szerinti csoportosítása, leválogatása, továbbítása. Tipikus felhasználási területek:

  • dokumentumok megfelelő ügyintézőhöz irányítása tartalom alapján;
  • cikkek, hírtartalmak tematikus leválogatása;
  • problémás esetek azonosítása, melyek gyors reakciót, kiemelt figyelmet érdemelnek;


A kategorizálás tudásbázisok alapján történik, melyek megfelelő kulcsszavakat, kifejezéseket szóösszefüggéseket tartalmaznak. Egy adott kategória kapcsán különböző súlytényezővel rendelkező tudásbázisok alapján történik a vizsgálat. A súlyozott tudásbázisok alkalmazása lehetőséget ad finom hangolások, megközelítések elvégzésére. A kategóriák szabadon létrehozhatók, könnyen módosíthatók. Multikategorizálás is lehetséges, amikor adott dokumentum több kategóriában is szerepelhet.

A besorolás pontérték meghatározása alapján történik. A pontérték meghatározásánál figyelembe veszi a rendszer a bemenő dokumentum hosszúságát, valamint a tudástár hasznos méretét. Ezek szabadon állíthatók, meghatározott formula paraméterértékeivel, így az adott szöveg találati valószínűsége pontosítható és függetleníthető a dokumentum hosszúságától.

Vegye fel velünk a kapcsolatot!
A kapcsolati háló kiválasztott entitások közötti kapcsolatok felderítésére szolgál. A HungaroNer a feladatot beépített funkcióként végzi. Az ábrán egy szemléltető példát látunk a kapcsolati háló megszerkesztésére. A feladat a listán szereplő feldolgozandó dokumentumokban előforduló nevek és címek közötti kapcsolat felderítése. Első lépésben a dokumentumokból entitás kinyerést végzünk, jelen példában a név és cím entitásokat vonatoljuk ki.

A kapcsolati háló olyan csomópontokat és éleket tartalmazó gráf, amelyből egyértelműen kiderülnek az összefüggések. A megjelenő ablakban kiválasztjuk a csomópontokat, azokat az entitásokat, amelyeknek kapcsolatrendszerére kiváncsiak vagyunk, majd kiválasztjuk azokat az éleket (entitásokat), amelyek vonatkozásában a csomópontok közötti összefüggéseket keressük. A rendszer ezután meghatározza a kapcsolati rendszer gráfot, majd a Kapcsolati háló megtekintése menü pont kiválasztását követően megjelenik a kapcsolati háló.
kapcsolati háló
×
kapcsolati háló

Vegye fel velünk a kapcsolatot!