C
 
e
 
P
 
I
 
T
 
 
 
Broj 10, 2005.
|
|
BOŠ 
|
|
 

 

SADRŽAJ

Tema broja
JEZIK I INFORMACIONO-KOMUNIKACIONE TEHNOLOGIJE

Jezik i IKT - uvodnik urednika broja,
Tanja Milovanović

Uticaj informacionih tehnologija na srpski jezik,
Vlado Đukanović

Strukturisanje konverzacije u elektronskim ćaskaonicama,
Biljana Radić-Bojanić

Jezik u službi informacionih tehnologija i obratno,
Aleksandar Kavgić

Od rukopisa do interneta: kako su mediji uticali na engleski jezik,
Saskija Baumgardner, Kerolajn Kofman, Stefani Merer, Ketrin Pavic, Sara Stihelin

Prikaz knjige:
Jezik i internet, Dejvid Kristal

Katalog linkova

_______impresum________

e-volucija

Centar za proučavanje informacionih tehnologija
Beogradske otvorene škole
Masarikova 5/XII, Beograd

Odgovorni urednik
Nenad Golčevski

Uredništvo:
Tanja Milovanović
Iva Nenić
Nataša Radović
Milina Petrović

ISSN 1451-8112


Izdavanje ovog časopisa pomogli su fondacija
"Ulof Palme"

i
Ministarstvo kulture
Republike Srbije

 

 

JEZIK U SLUŽBI INFORMACIONIH TEHNOLOGIJA I OBRATNO
Aleksandar Kavgić

 

Naizgled nepovezani pojmovi

Na prvi pogled, može se učiniti da savremene pre svega informacione tehnologije i jezik ne predstavljaju povezane pojmove. Neki bi možda čak i rekli da savremene tehnologije u mnogo čemu, a pre svega po kompleksnosti, daleko nadmašuju jezik. Međutim, stvarnost je upravo suprotna. Savremene tehnologije u velikoj meri koriste jezik i saznanja nauke o jeziku, a kompleksnost jezika još uvek daleko nadmašuje savremene tehnologije. Evo i primera.

Svaki računar bez softvera u suštini predstavlja samo beskorisnu veliku limenu kutiju ispunjenu gomilom elektronskih kola. Ukoliko uključimo računar a da pre toga na njega nismo instalirali vindous, dos, linuks ili neki drugi operativni sistem, teško da ćemo s njim moći da uradimo bilo šta, a kamoli nešto korisno. To zna svako ko se do sada susreo sa crnim ekranom i kratkom porukom koju pokazuje računar bez instaliranog operativnog sistema: "Non-system disk or disk error. Press any key to continue... ". Upotrebna vrednost računarske tehnologije počiva na softveru i na lakoći upotrebe softvera, a izrada softvera gotovo je nemoguća bez upotrebe programskih jezika. Programski jezici, s druge strane, ne predstavljaju ništa drugo do pojednostavljene modele ljudskog jezika. Svaki programski jezik, kao i ljudski jezik, poseduje svoje reči (tj. komande) i svoju sintaksu (tj. pravila koja definišu način da se reči, tj. komande, mogu kombinovati). Prvi računari, osim što su bili veoma glomazni, programirali su se pomoću kartončića sa rupicama, koji su predstavljali naredbe računaru zapisane u binarnom brojnom sistemu. Izrada čak i najjednostavnijih programa na takav način veoma je spora, komplikovana i neintuitivna. Napredak informacionih tehnologija u velikoj meri je povezan sa razvojem programskih jezika visokog nivoa, tj. programskih jezika koji oponašaju ljudski jezik i liče na njega, te na taj način omogućavaju lakšu, bržu i intuitivniju izradu računarskih programa. Izrada ovakvih programskih jezika (kao što su npr. bejzik, C++, džava, itd.) osim što je u mnogim aspektima oponašala jezik, takođe se oslanjala na različita saznanja nauke o jeziku, tj. lingvistike, o načinu funkcionisanja jezika.

Međutim, uprkos neprestanom napretku koji je doveo do toga da danas čak i najobičniji kućni računar može da obavi milione računskih operacija u sekundi, savremena informaciona tehnologija nemoćna je pred jezikom i njegovom kompleksnošću. Na primer, svi dosadašnji pokušaji da se naprave programi za prevođenje tekstova sa jednog (npr. engleskog) na neki drugi (npr. srpski) jezik, pokazali su se neuspešnim, budući da kao rezultat daju prevod koji je ili komično nerazumljiv ili potpuno besmislen. Čak i takav naizgled lak zadatak kao što je provera gramatičnosti tekstova predstavlja pretežak zadatak za savremene računare - trenutno najbolji program za proveru gramatičnosti teksta koji predstavlja deo programa za obradu teksta MS vord često savršeno gramatične rečenice obeležava kao negramatične i obrnuto. Štaviše, čak i programi za proveru pravopisa ne uspevaju uvek tačno da pogode koju je reč korisnik pogrešno ukucao.

No, bilo bi pogrešno pomisliti da savremene tehnologije ne mogu korisno da se upotrebe u jezičkoj sferi ili da se uticaj jezika na savremene tehnologije svodi na ulogu modela u razvoju programskih jezika. Interakcija je daleko kompleksnija i dublja.

 

Jezik u službi savremenih tehnologija

Glavni motiv za razvoj savremenih informacionih tehnologija jeste sve veća potreba savremenog čoveka za informacijama, ali i potreba da se tražena informacija pronađe što brže. Sve informacije u suštini predstavljaju jezičke podatke zabeležene na nekom medijumu, bilo da je u pitanju kamena ploča, list papirusa ili DVD. Razlika između ovih medijuma je samo u gustini zapisa; dok na kamenu ploču u najboljem slučaju stane par rečenica, na DVD može da se pohrani preko 2 000 knjiga u elektronskom formatu. Pod pretpostavkom da prosečna knjiga sadrži oko 60 000 reči u približno 3 500 rečenica, prostom operacijom množenja dolazimo do zaključka da na DVD stane oko 120 000 000 reči ili 7 000 000 rečenica. Ove brojke se samo okvirne vrednosti i mogu prilično da variraju u zavisnosti od tipa zapisa, budući da nije svejedno da li se tekst čuva u npr. TXT ili PDF fajlu.

S obzirom na to da je ovolika količina informacija dostupna na samo jednom disku, a imajući u vidu da niko nema ni okvirnu ideju koliko je informacija dostupno na 8 168 684 336 veb stranica, koliko ih trenutno ima na internetu, nije iznenađujuće da glavni problem savremenih informacionih tehnologija predstavlja pronalaženje tražene informacije. Upravo u ovom domenu, jezik funkcioniše u službi savremenih informacionih tehnologija. U stvari, pravilnije bi bilo reći da u ovom domenu savremene informacione tehnologije koriste saznanja različitih nauka o jeziku.

Na primer, već pomenut broj od 8 168 684 336 veb stranica preuzeta je sa internet stranice www.google.com , koja predstavlja bez ikakve sumnje trenutno najbolji pretraživač sadržaja na internetu. Na prvi pogled, moglo bi se pomisliti da je verovatnoća za pronalaženje željenje informacije u ovakvom moru informacija jednaka verovatnoći da se u plastu sena veličine dvadesetospratnog solitera pronađe igla. No, danas svaka osoba koja ima pristup internetu uzima zdravo za gotovo da će za određene zadate ključne reči Gugl pronaći najbolje veb stranice (npr. za zadate ključne reči "vesti", "najnovije", "politika", Gugl će pronaći stranice poput www.b92.net, www.danas.co.yu , www.politika.co.yu itd). Pouzdanje u Gugl je toliko da se u engleskom govornom području danas koristi poseban frazni glagol "google something up" u značenju "pronaći željeni podatak na internetu koristeći Gugl ", koji bi se mogao prevesti kao "izguglati nešto". Međutim, ne tako davno, krajem devedesetih godina prošlog veka, situacija je bila sasvim drugačija. Postojalo je više pretraživača interneta (od kojih većina, poput www.yahoo.com , www.altavista.com , www.alltheweb.com, postoje i danas), no nijedan nije imao prevlast, budući da nijedan nije za zadate ključne reči davao najrelevantnije stranice. Šta je to novo doneo Gugl? Gugl detalje koji se tiču njegove tehnologije pretraživanja interneta čuva kao najstrožu poslovnu tajnu, no o toj tehnologiji dovoljno se zna da se na prethodno pitanje da jasan odogovor: "napredniju analizu jezika". Gugl je razvio poseban program koji "luta" internetom, tj. krene od jedne internet stranice, analizira tekst te stranice i veze te stranice prema drugim stranicama, posećuje te druge stranice sa kojima je povezana početna stranice, zatim analizira tekst i veze te druge stranice i tako u nedogled - Gugl je u stanju da analizira oko 3 150 stranica u sekundi, tj. oko 280 000 000 stranica na dan. Ovakav tip programa bio je poznat i ranije pod nazivom "veb kroler" ili "veb spajder" (ili, u prevodu, "veb pauk"), no novost koju je Gugl doneo je prepoznavanje jezika na kojem je napisana stranica i bolje prepoznavanje ključnih reči. Naime, nije svejedno da li se ključna reč javlja u naslovu stranice, da li se javlja jednom ili dvadeset puta na stranici, da li se reč javlja na početku ili na kraju rečenice, da li se javlja samo u fusnoti, itd. Gugl obraća pažnju na sve ovo i, kao rezultat toga, uvek nudi najrelevantniju stranicu za zadatu ključnu reč ili zadate ključne reči. Sve ovo ne bi bilo moguće da Gugl u izradi svog veb pauka nije iskoristio saznanja nauke o jeziku, pre svega saznanja koja se tiču načina ogranizacije informacija u rečenici. Ovo je samo jedan od primera kako se saznanja o funkcionisanju jezika koriste u domenu informacionih tehnologija.

Nova verzija operativnog sistema vindous takođe će koristiti napredne tehnologije pretraživanja teksta u cilju lakšeg pronalaženja traženog dokumenata na računaru. No, upotreba saznanja o jeziku ne završava se na pretraživanju tekstova.

Na primer, zahvaljujući programima za sintezu govora (na engleskom speech synthesis), danas i slepe i slabovide osobe mogu da koriste računare, budući da je računar u stanju da im čita sadržaj ekrana. Osobe sa invaliditetom mogu da glasovno izdaju komande računaru i da tekstove u računar unose glasovno umesto putem tastature, sve zahvaljujući programima za prepoznavanje govora (na engleskom voice recognition software). I programi za sintezu i za prepoznavanje govora počivaju na saznanjima fonetike i fonologije (naučnih disciplina koje se bave glasovima u jeziku). U ovom pogledu, savremene informacione tehnologije su dostigle veoma visok nivo preciznosti. Svako ko je nekada pokušao da rečenicu koju je čuo na nepoznatom jeziku raščlani na pojedinačne reči zna koliko je to teško ili čak nemoguće - no, preciznost savremenih programa dostiže i uspeh od 99%.

Uopšteno posmatrajući, zbog značaja analize jezika u oba njegova oblika - govornom i pisanom - došlo je do razvoja interdisciplinarnih naučnih disciplina koje kombinuju saznanja i tehnike informatike, matematike i lingvistike. Dve takve discipline su računska lingvistika (na engleskom computational linguistics) i obrada prirodnih jezika (na engleskom natural language processing). U današnje vreme u naučnim krugovima ponekad se može čuti izraz računarska lingvistika, u značenju računske lingvistike, no ovaj izraz je pogrešan. Jedini pravilan izraz je računska lingvistika, budući da se ova grana lingvistike bavi primenom naprednih matematičkih i statističkih tehnika na obradu tekstova. Izraz računarska lingvistika, navodi na pomisao da se ova grana bavi upotrebom računara u sferi jezika, što je samo delimično tačno.

Ovo su samo neki, po mišljenju autora ovog teksta, najzanimljiviji i najreprezentativniji primeri upotrebe saznanja o jeziku u oblasti savremenih informacionih tehnologija. No, razmena, naravno, postoji i u drugom smeru.

 

Savremene tehnologije u službi jezika

Savremene informacione tehnologije danas sve više nalaze primenu u oblasti izučavanja jezika i obrade tekstova.

Svi savremeni jednojezični i dvojezični rečnici danas se prave uz pomoć računara koji obrađuju ogromne kolekcije tekstova (koje sadrže sto miliona ili čak jednu milijardu reči), koje se nazivaju elektronski korpusi (na engleskom electronic corpora). Kada su u pitanju jednojezični rečnici, postupak je prilično jednostavan. Računar je u stanju da na osnovu elektronskog korpusa za svega nekoliko minuta napravi listu svih reči koje se javljaju u korpusu (na engleskom se ovakva lista naziva word list). Računar je takođe u stanju da pokaže rečenice u kojima se pojedine reči javljaju tako da osobe koje sastavljaju rečnik mogu da prouče sve upotrebe neke reči. Treća prednost ovakvog načina rada je što računari mogu da prikažu i reči sa kojima se neka reč najčešće javlja (kolokacije), što je izuzetno važno za izradu rečnika koji su namenjeni osobama koje uče neki jezik. Svako ko je učio engleski zna koliki je problem naučiti da se u engleskom "zavisiti od" ne kaže "depend of", što je bukvalan prevod izraza, već "depend on".

No, sve prednosti upotrebe računarskih tehnologija u sferi jezika vide se kada su u pitanju dvojezični rečnici (npr. englesko-srpski). Naime, pod pretpostavkom da sastavljači rečnika na raspolaganju imaju tekst na npr. engleskom i prevod tog teksta na npr. srpskom (što se naziva paralelni korpus, ili na engleskom parellel corpus), računari mogu da utvrde koja rečenica u srpskom tekstu predstavlja prevod koje rečenice u engleskom tekstu, pa čak i koja reč na srpskom u toj rečenici predstavlja prevod koje reči na engleskom. Na taj način, sastavljači rečnika mogu izuzetno brzo da naprave rečnik i da prouče kako se pojedine reči prevode u različitim kontekstima. Sve ovo moguće je zahvaljujući primeni naprednih statističkih metoda u obradi tekstova, što se naziva statističkom obradom jezika (na engleskom statistical language processing).

Žalosna je ali nepobitna činjenica da trenutno ne postoji nijedan elektronski korpus srpskog jezika, a kamoli neki paralelni korpus srpskog i npr. engleskog jezika. Zbog toga ne treba da čudi da su svi rečnici srpskog, kako jednojezični tako i dvojezični, veoma zastareli i ne odslikavaju trenutno stanje u razvoju srpskog jezika. Značaj izrade elektronskog korpusa srpskog jezika je ogroman, budući da je samo pomoću jednog takvog korpusa moguće doći do pouzdanih saznanja o vokabularu savremenog srpskog jezika. Na primer, skoro nijedan rečnik, sa izuzetkom nedavno izdatog specijalizovanog Du yu speak anglosrpski Rečnika novijih anglicizama, ne sadrži reči koje su u poslednjih dvadesetak godina preuzete iz engleskog u srpski jezik, kao što su printer, skener, modem, internet, folder, disketa, kamkorder, kul, foto sešn, fensi, itd. Kao što je vidljivo, ove reči uglavnom su iz domena računarske tehnologije, mode ili savremenog načina života. Takve reči, između ostalog i zbog nedostatka savremenih dvojezičnih rečnika koji bi standardizovali prevode pojedinih termina, preuzimaju se iz engleskog na, najblaže rečeno, haotičan način. Zašto se bine na muzičkom festivalu Exit (i usput, od kada je slovo "x" deo srpskog latiničnog alfabeta?) nazivaju "stejdževi". Zašto se "modno snimanje" naziva "foto sešn", zašto se "mobilni telefon" nekada naziva "foun", zašto se (filmska, muzička, itd.) zvezda naziva "star", zašto...???

Preuzimanje reči iz drugog jezika opravdano je jedino kada standardni načini stvaranja reči omanu: kada u maternjem jeziku ne postoji nijedna reč ili izraz koji može da prenese značenje neke strane reči ili kada se procesom tvorbe reči ne može stvoriti nova reč u srpskom koja će adekvatno da objasni neki (novi) koncept koji je do tada bio nepoznat (npr. DVD, kamkorder). Čak i ako je situacija takva da se reč mora preuzeti iz stranog jezika, preuzimanje treba da se obavi na standardizovan način, tako da se reč prilagodi glasovnom sistemu i pravopisu srpskoga jezika. Na primer, neprihvatljivo je pisanje "web-sajt", "kompakt disc" ili "e-majl", budući da ovi izrazi, u obliku u kome su napisani, nisu prilagođeni osobinama srpskoga jezika. Pravilno bi trebalo pisati "veb-sajt", "kompakt disk" i "imejl".

 

Budućnost savremenih tehnologija i jezika

Po mnogo čemu, interakcija jezika i savremenih tehnologija je tek u začetku. U mnogim laboratorijama i razvojnim centrima širom sveta brojni naučnici rade na različitim istraživanjima koja treba da nas postepeno približe krajnjem cilju ove interakcije: mogućnosti normalne govorne komunikacije sa mašinom. U suštini, sva istraživanja imaju za cilj da omoguće mašinama da "razumeju" ljudski jezik, kako bi se čoveku olakšao rad sa mašinama, što će takođe ostaviti prevodioce bez posla, jer razumevanje jezika znači i mogućnost prevođenja.

Ko zna, ali možda ćemo za dvadesetak-tridesetak godina ispred računara držati mikrofon umesto tastature, a upravljanje računarom će se svoditi na rečenice tipa: "Uključi se i prevedi mi ono poslovno pismo koje sam primio juče, ja ću ti onda izdiktirati odgovor, a ti ga posle prevedi i pošalji."

 

 
 
 
e-volucija ISSN 1451-8112
Centar za proučavanje informacionih tehnologija
www.bos.rs/cepit/, tel. 381 11 30 65 830