Szóból ért...? – Ember, gép, nyelvtechnológia

Kornai András

Génjeinkben az egészség? – Öröklődés és életmód a 21. században

Falus András - ME 2.0, 2011.02.04

2003-ban ünnepeltünk: úgy tűnt, hogy áttörés történt az emberi gyógyászatban. Elkészült az emberi genomszekvencia, és azt hittük, hogy hamarosan kezdődhet a személyre szabott orvoslás. Valójában ennek feltételei most, egy évtizeddel később alakultak ki az új tudományos felfedezéseknek és a technológia fejlődésének köszönhetően. Megismertük a környezeti hatásokat tükröző epigenetikai folyamatok jelentőségét is. A genomikai és epigenetikai alapkutatási eredmények hihetetlenül gyorsan és várhatóan egyre intenzívebben kerülnek be az orvosi gyakorlatba. A legtöbben szeretnék, ha személyre szabott orvosi kezelést kapnának a jövőben, de azt már nem, hogy a biztosítók vagy a munkaadók is hozzájussanak genetikai információikhoz, így a jogi szabályozás jelentősége is felértékelődött.

Health in our genes? – Inheritance and lifestyle in the 21st century

HUN

Falus, András - ME 2.0, 2011.02.04

In 2003 we had a celebration: it seemed that a breakthrough was achieved in human medicine. The sequence of the human genome was generated, and we had high hopes that personalised medical treatment was nigh. In fact, the conditions for this have only emerged now, a decade later, thanks to the new scientific inventions and the development of technology. We have also learned the significance of the epigenetic processes that reflect environmental factors. The results of genomic and epigenetic research translate incredibly quickly, and hopefully more and more intensively, into medical practice. Most people would like to get personalised medical treatment in the future, but they do not want the insurance company or their employer to learn their genetic information, so the significance of legal regulation has also increased.

Szóból ért...? – Ember, gép, nyelvtechnológia

ENG

Kornai András - ME 2.0, 2011.02.08

A beszélő és az embert megértő számítógép a sci-fi világából lassan átvonul a hétköznapi életbe. Ma már nehéz úgy információt szerezni, hogy első körben ne számítógéppel kerülnénk kapcsolatba. Miközben szöveges dokumentumokat írunk, automatikusan ellenőrizzük a helyesírást. Internetes keresőt használva több nyelv- és beszédtechnológiai alkalmazást is mozgósítunk, mint például a szótövezést vagy az információkinyerést. Ezek az alkalmazások láthatatlanul dolgoznak a háttérben, és jelentősen megkönnyítik a munkánkat. Az előadás az ilyen alkalmazások elméleti alapját, működési mechanizmusait mutatja be az információelmélettől a mai modern nyelvelméletekig.

Words make us understand…? Man, computer, language technology

HUN

Kornai, András - ME 2.0, 2011.02.08

Talking computers of science fiction that understand human beings will soon be part of our everyday life. It is already difficult to obtain any information without first contacting a computer. We use automatic spell-checking when typing text documents. Several language and speech technology applications (word stemming, information extraction) serve us when we use a search engine on the net. These applications work invisibly in the background and make our work much easier. The lecture presents the theoretical bases and operational mechanisms of such applications, from information theory to modern linguistic theories.

Talpunk alatt is folyik? – Felszín alatti áramlások a víz körforgalmában

ENG

Mádlné Szőnyi Judit - ME 2.0, 2011.02.11

A Föld felszínének több mint hetven százalékát víz borítja, de ebből a vízből a fogyasztható édesvíz alig három százalékot tesz ki. Ez az édesvíz az élet feltétele, de gyakran az élet- és vagyonbiztonságot fenyegető kockázati tényező is. Ennek a korlátozottan rendelkezésre álló, sérülékeny erőforrásnak a fenntartható használata századunk egyik legfontosabb és legnehezebb feladata. A vízkörforgalom révén a vizek folyamatos átalakulásban, mozgásban vannak. Néhány évtizede tudjuk, hogy a szemünk elől elzárt, felszín alatti régióban is jól leírható rendszerekbe szerveződve mozog a víz. Kiderült, hogy ez a földtani időskálán zajló vízmozgás szisztematikusan átalakítja a felszín alatti és a felszíni környezetet, beleértve az élőhelyeket. A vízkészletek fenntartható használatához nélkülözhetetlen a hidrológiai rendszerek működésének megértése. A felszín alatti vízáramlások ismerete ezen túl is az élet számos területén alkalmazható a mezőgazdaságtól a természetvédelmi feladatokon át a termálvizek feltárásáig.

Water running under our feet? – Underground flows in water circulation

HUN

Mádlné, Szőnyi Judit - ME 2.0, 2011.02.11

Water covers more than seventy percent of the Earth’s surface but less than three percent is potable sweet water . Sweet water is essential for life but in many cases it is also a risk factor endangering life and property. Sustainable use of this limited, vulnerable resource is one of the most important and difficult tasks of our century. As a result of water circulation, water is in continuous transformation and movement. We have known for some decades that water movements are organised in well-definable systems in non-visible underground regions, too. We have understood that such water movements taking place on a geological time-scale systematically transform both the underground and overground environment, including habitats. To facilitate the sustainable use of water resources, we need to understand the functioning of hydrological systems. In addition, information about underground water flows can be used in many areas, from agriculture, through environment protection to the mapping of thermal waters.

András Kornai: Mathematical Linguistics. Springer, 2008.
Németh Géza-Olaszy Gábor (szerk.): A magyar beszéd: Beszédkutatás, beszédtechnológia, beszédinformációs rendszerek. Akadémiai Kiadó, Budapest, 2010.
http://magyarbeszed.tmit.bme.hu/
Daniel Jurafsky-James H. Martin: Speech and Language Recognition: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 2nd Edition. Prentice Hall, 2008.
http://www.cs.colorado.edu/~martin/slp.html
Alberti Gábor: Matematika a természetes nyelvek leírásában. Tinta Könyvkiadó, Budapest, 2006.
Stuart Russell-Peter Norvig: Mesterséges intelligencia. Panem Könyvkiadó, Budapest, 2005.
Noam Chomsky: Mondattani szerkezetek: Nyelv és elme. Osiris Kiadó, Budapest, 1999.
Ruslan Mitkov (szerk.): The Oxford Handbook of Computational Linguistics. Oxford University Press, 2003.
Kiefer Ferenc (szerk.): Magyar nyelv. Akadémiai kézikönyvek. Akadémiai Kiadó, Budapest, 2006.
Információelmélet sorozat. Typotex Kiadó.
Kovács Ilona-Szamarasz Vera Zoé: Látás, nyelv, emlékezet. Typotex, Budapest, 2006.
Chris Manning-Hinrich Schütze: Foundations of Statistical Natural Language Processing. MIT Press, Cambridge, MA, 1999.
http://nlp.stanford.edu/fsnlp/
Tikk Domonkos (szerk.): Szövegbányászat. Typotex, Budapest, 2007.
http://szovegbanyaszat.typotex.hu/

Terminus	Leírás
beszédfelismerés (speech recognition)	A gépi beszédészlelés legalapvetőbb feladata; beszéd-szöveg átalakítás, vagyis a beszéd tartalmának felismerése és lejegyzése.
beszédszintézis (speech synthesis)	A beszéd gépi előállításának legfőbb alkalmazása, célja, hogy a leírt szöveget hangzó beszéddé alakítsák, azaz mintegy felolvassák a szöveget.
döntési fa	Olyan, a döntéshozatalban használt grafikus modell, amit az optimális tevékenység határoz meg olyan esetekben, amikor több alternatíva is rendelkezésre áll, és a kimeneteik bizonytalanok. A döntési fa egy tesztsorozat elvégzése során jut el a döntéshez. A fa minden egyes belső csomópontja valamely tulajdonság értékére vonatkozó tesztnek felel meg, a csomópontból kilépő ágakat pedig a teszt lehetséges kimeneteivel címkézzük. Minden egyes levélcsomópont megadja azt az értéket, amelyet vissza kell adnunk, ha ezt a levelet elértük.
entrópia	A kommunikációs csatorna információs kapacitásának mérőeszköze, általánosabban az információ mennyisége. Eredetileg Claude Shannon kölcsönözte a fogalmat a termodinamikából. Mértékegysége a bit.
grep (Global/Regular Expression/Print)	Parancssorból futtatható program, a Unix operációs rendszerhez írta eredetileg Ken Thompson. A paraméterként megadott fájl(ok) vagy a standard input szövegére illeszt reguláris kifejezéseket. A dokumentum azon sorával tér vissza, amelyre illeszkedik a megadott keresési minta.
információelmélet	Matematikai, illetve hírközlési tudományterület, amely az információ mérésével, feldolgozásával, elérésével, továbbításával, tárolásával foglalkozik. Megalapítása Claude Shannon nevéhez köthető.
lineáris algebra	A matematika egyik ága, tárgya a vektorok, vektorterek és lineáris leképezések vizsgálata. Jelentős geometriai, fizikai és mérnöki alkalmazásokkal rendelkezik.
mátrix	A matematikában gyűrűk (olyan struktúrák, melynek elemeit összeadni és szorozni lehet) elemeinek táblázata. Mátrixokat szoktak használni lineáris egyenletek leírására, lineáris transzformációk együtthatóinak és olyan adatoknak a tárolására, melyek két paramétertől függenek. A mátrixokat összeadni, szorozni és felbontani lehet különböző módokon, így a lineáris algebra és a mátrixelmélet központi fogalmát alkotják. A mátrix vízszintes vonalban elhelyezkedő elemei sorokat, függőleges vonalban elhelyezkedő elemei oszlopokat alkotnak. Egy n sorból és m oszlopból álló mátrixot n-szer m-es mátrixnak neveznek (n×m), az n és m pozitív egész számok a mátrix dimenziói. A mátrix dimenzióit mindig először a sorok számával majd azt követően az oszlopok számával adják meg. A mátrixnak az i-edik sorában és j-edik oszlopában lévő elemét a mátrix i,j-edik elemének nevezik, jelölése A_i,j.
nyelvtani transzformáció	A transzformációs generatív grammatika alapeleme. Noam Chomsky szavaival: "Egy nyelvtani transzformáció egy meghatározott összetevős szerkezettel bíró meghatározott láncon hajt végre műveletet, azt egy új lánccá alakítja át, amelynek új, származtatott összetevős szerkezete van." Egy mondat összetevős szerkezeti leírása megadja, hogy a mondat milyen kisebb szerkezetekből áll össze (főnévi csoport, igei csoport stb.). Ez a mondat ún. elsődleges szerkezete, amelyből a transzformációk segítségével előáll a mondat felszíni szerkezete, ahogy az a valóságban megjelenik.
optikai karakterfelismerés (optical character recognition, OCR)	Géppel vagy kézzel írott karakterek automatikus felismerése. Az átalakított szöveg ezután a számítógép számára értelmezhetővé, felhasználhatóvá válik.
rejtett Markov-modell	Átmeneti és megfigyelési valószínűségekkel súlyozott automata.
Turing-gép	A legáltalánosabb absztrakt számítógép. Bár eszköztára roppant egyszerű, elemi műveletekből áll, segítségével minden kiszámítható, ami egyáltalán kiszámítható. Egy Turing-gép nemcsak olvasni tud, hanem írni is, és nemcsak egy irányban képes a bemeneti füzéren végigmenni, hanem balra és jobbra egyaránt mozoghat az író-olvasó feje. Tartozik még hozzá egy kockákra osztott végtelennek tekintett szalag, melynek minden kockáján egy-egy szimbólum áll. Az olvasó-író fejnek különböző állapotai vannak, amelyek megszabják, hogy az éppen leolvasott szimbólumot átírja-e, vagy pedig lépjen át valamelyik szomszédos kockára.
véges (vagy véges állapotú) automata	Egy olyan absztrakt gép, amely szimbólumfüzéreket fogad, amelyekre egy program által egyértelműen meghatározott módon reagál. Az automata részei: állapotok halmaza (kezdő- és végállapotokkal), ábécé, átmenetek halmaza. Az átmenetek relációk, melyek meghatározzák, hogy az ábécé mely elemével melyik állapotból melyik állapotba léphetünk tovább. Az automata az ábécé fölötti füzérhalmazok elfogadásával tulajdonképpen egy nyelv helyes elemeit fogadja el.
Viterbi-algoritmus	Olyan dinamikus programozási algoritmus, amely lehetővé teszi az összes feldolgozandó egység szimultán számításba vételét, és kiválasztja a legvalószínűbb utat, vagyis a megfigyelt jelenségek egy adott sorrendjével tér vissza.
“zajos csatorna”-modell	Claude Shannon 1949-ben felállított modellje a kommunikációról mint általános hírközlési rendszerről. Bizonyos természetesnyelv-feldolgozási problémák megfeleltethetők dekódolási problémáknak egy zajos kommunikációs csatornában. A modellt a beszédfelismerésben először Fred Jelinek használta az 1970-es években az IBM laboratóriumában. Eszerint a gép által hallott akusztikai egység az eredeti, korrektül ejtett szó átnyomva a zajos csatornán. A zajforrások lehetnek a kiejtésbeli változatok vagy a csatorna fizikai változatai (mikrofon, telefonhálózat stb.). A cél, hogy az eredeti szót dekódoljuk.

I. Bevezetés: a sci-fitől a hétköznapok technológiájáig

A nyelvtechnológia ma már nem a tudományos fantasztikum birodalmába tartozik, a leghétköznapibb tevékenységeink némelyikét is segíti. A webes keresés, a fordító programok, a helyesírás-ellenőrzés vagy éppen a parkolóházak fizetőrendszere mind az utóbbi 2-3 évtizedben lezajlott kutatások és fejlesztések eredménye.

II. Jobb számítógépek

A nyelvtechnológiai kutatások egyik fontos alapja a számítógépek viharos fejlődése volt. Ha az autók olyan ütemben fejlődtek volna, mint a komputerek, akkor ma egy személyautó 300 forintba kerülne, a motorja gyűszűnyi volna, és egy deci benzinnel 10 perc alatt elvinne minket Párizsba.

III. Jobb hozzáállás

Az elmúlt évtizedekben nemcsak a számítógépek, de a kutatásszervezés is alapvető változásokon ment keresztül. A korábban jellemző központosított, hierarchikus szervezeteket felváltották a dinamikus, elosztott rendszerek, amelyekben a jó egyéni ölteteknek több esélyük van rá, hogy megvalósuljanak. A nyelvtechnológia fejlődését elősegítő legfontosabb figurák a lehető legkülönbözőbb háttérrel rendelkeztek.

III.1. A nyelvtechnológiai forradalom közkatonái

IV. Jobb elméletek

A téma szempontjából fontos elméleteket, legyenek akár az informatika, akár a matematika eredményei, egy valami biztosan összeköti: mind a „Te marha, ne bonyolítsd!” elvének jegyében fogantak, azaz a lehető legegyszerűbb megoldásokra törekszenek. Az egyszerű elméletek jobb eséllyel indulnak a teóriák evolúciós küzdelmében.

IV.1. Véges automata: a buta gép legyőzi az okosat

IV.2. A kommunikáció „zajos csatorna”- modellje

IV.3. Lineáris algebra

V. Az elosztott rendszerek előnyei

Ha meg akarjuk érteni, miért van az, hogy a központ nélküli, elosztott rendszerek legyőzik a központosított, hierarchikus szervezeteket, érdemes belegondolnunk abba, hogy hogyan viszonyul egymáshoz, az egyetlen fejben tárolódó memória a világhálón összegyűlő adatmennyiséggel. A kulcs az együttműködésben van, ami a tudás létrehozását és kezelését is új alapokra helyezi.