Tőzsdei hírbányászat a magyar részvénypiacon
Abstract
A dolgozat a szöveges formában megjelent információknak a magyar tőzsdei részvényárfolyamokra
gyakorolt hatását vizsgálja szövegbányászati módszertan segítségével. A disszertáció
az empirikus művek közé sorolható, melynek hipotézisei a hírekből kinyerhető információk és
az árfolyamokban megnyilvánuló információk közötti kapcsolatra vonatkoznak. A dolgozat
hozzáadott értékét leginkább a kétnyelvű vizsgálatok, a saját eredmények robusztusságának
vizsgálata a különböző paraméterek és szövegreprezentációk megválasztására, valamint az
időbeliség vizsgálata jelentik. A hipotézisek teszteléséhez a tőzsdei hírbányászati modell hozamosztályozó
változatát használtam, melynek bemeneteit a BÉT prémium kategóriás részvényeihez
kapcsolódó, 2014.07.01 és 2015.06.31 közötti sajtóközlemények szövegei képezik,
outputját pedig egyperces lépésközökkel a közlemény publikálásának ideje és a hozzá képest
legfeljebb 120 perccel eltolt időpont közötti hozam nagysága alapján képzett hozamkategória
– negatív, semleges, pozitív. A hírek szövegének numerikus reprezentációi alapján nemlineáris
SVM-osztályozókat tanítottam a különböző méretű tanítómintákon, melynek pontosságát 10-
szeres keresztvalidációval ellenőriztem. A különböző eredmények összehasonlításához a 10-
szeres keresztvalidáció során kapott átlagos pontosságot használtam. A szöveges előrejelzés
pontosabbnak bizonyult a defaultnál, ugyanis az eredményeim szerint az összes paraméterkombináció
94,64%-a esetében szignifikáns volt az eltérés 1%-on. Az optimális becslési időtáv
a hírbányászati feladatra a publikálás előtt 27 perc, a publikálás után pedig 19–22 perces
tartományban van, tehát némi eltérést tapasztaltam Gidófalvi ±20 perces eredményéhez képest.
Ez alapján tehát az információ a publikálás előtti kb. fél órában kezd beépülni a vizsgált
részvények árfolyamába, majd ez a publikálást követő kb. 20 percig tart. Mivel a közzétételi
folyamat kb. egy óráig tart, ezért az ehhez kapcsolódó eredményekből az a következtetés is levonható,
hogy nem lehet jó modellt készíteni a folyamat kezdete elő visszanyúló időablakra.
Azt tapasztaltam továbbá, hogy az azonos sajtóközlemények angol és magyar nyelven közzétett
változataival készített modellek pontossága között nincs szignifikáns különbség. Nagyon
szigorúan véve a magyar nyelvű korpusz kissé pontosabb becslésre adhat lehetőséget. Az optimális
eredmények elég robusztusak az alkalmazott SVM osztályozási módszer C-gamma paraméterkombinációira
nézve, de kb. 1%-nyi eséllyel visszaeshet a default szintre a pontosság.
Az általam vizsgált egyik szövegreprezentáció sem mutatkozott sokkal jobbnak a probléma
megoldására, de szigorúbban véve megállapítható, hogy az egyszerűbb reprezentációt alkalmazó
modellek pontosabbak.