Helyes blog
Hírek, érdekességek, helyesírási kérdések

A Magyar Nemzeti Szövegtár

Hírek, ismertetők
2013. november 18. 11:00 | KR

Vajon mennyire tartják be az emberek a helyesírási szabályzat előírásait? Hogyan kaphatunk hű képet arról, hogy valójában hogyan is írunk? Többek között erre is szolgál a nagyméretű adatbázis, amelyet most röviden ismertetünk.

A Magyar Tudomány Ünnepén az egyik előadás témája a készülőben lévő, bővített és továbbfejlesztett Magyar Nemzeti Szövegtár (röviden MNSz.) volt. Az MNSz2 további tudományos kutatásokra ad lehetőséget, azonban az eddigi verzió pozitív tulajdonságairól és eredményeiről sem szabad megfeledkeznünk.

A Magyar Nemzeti Szövegtár egy 187,6 millió (szöveg)szót tartalmazó korpusz. A számítógépes nyelvészetben korpusznak meghatározott szempontok szerint összegyűjtött, rendezett és valamilyen elemzéssel ellátott szövegek összességét hívják.

Az 1998 és 2001 között készült MNSz. célja a magyar írott köznyelv reprezentálása volt. Ebből a célból a szövegek öt stílusrétegből (sajtó, szépirodalom, tudományos, hivatalos, személyes) és öt regionális nyelvváltozatból (magyarországi, szlovákiai, kárpátaljai, erdélyi, vajdasági) kerültek a korpuszba. Ezáltal egy olyan forrásanyag jött létre, amelyből statisztikák készülhetnek például arra vonatkozólag, hogy melyek a magyar nyelv leggyakrabban használt szavai, vagy egyes stílusok miben különböznek egymástól.

Az eredményeket számos helyen felhasználták, többek között a Magyar értelmező kéziszótár új kiadásához. Az Osiris Kiadó Helyesírás c. kézikönyv szótári részében a szerzők bizonyos újabb keletű szóalakok írásmódjának eldöntéséhez az MNSz.-beli gyakoriságot vették figyelembe. A korpusz anyagát mi is alkalmaztuk a helyesírás.mta.hu portál Elválasztás eszközének fejlesztéséhez és teszteléséhez (erről bővebben lásd Publikációinkban).

A hamarosan megjelenő új verzió mind mennyiségében (1000 millió szó), mind minőségében túlszárnyalja majd elődjét.

Az MNSz. regisztráció után mindenki számára hozzáférhető.

Címkék: adatbázis
Hozzászólások betöltése...