Uzi Interreton kiel tekstaron por lingvaj esploroj

 

Belartaj Konkursoj 2005, premio ”Luigi Minnaja” de la branĉo uigi Minnaja"eseo.

 

En la lastaj jardekoj oni ekuzis grandajn lingvajn tekstarojnkorpusojn por lingvaj esploroj diversspecaj. Tio signifas, ke oni serĉas en grandaj tekstaroj por ekscii, kiuj vortoj estas uzataj, kiel ili estas uzataj, kiuj kombinoj oftas, kiuj gramatikaj formoj aperas ktp. Se en la tekstaroj troviĝas partoj el malsamaj tempoperiodoj, eblas ankaŭ tiel esplori la lingvan evoluon farante la saman serĉon en tekstaroj el diversaj epokoj.

Nacilingvaj tekstaroj de kelkdek aŭ cent milionoj da vortoj estas uzataj ekzemple kiel fontoj de vortaroj. Se en tia materialo iu vorto aperas dudekfoje aŭ kvindekfoje, eblas konsideri ĝin ”ekzistanta”, se ĝi aperas ducentfoje aŭ kvincentfoje eblas nomi ĝin komunuza ktp. Kompreneble, pri maloftaj fakvortoj ne eblas apliki tian simplan regulon.

Esperanto kaj aliaj neŝtataj lingvoj estas en alia situacio. Neniu prestiĝa kaj monhava institucio esploras ĝian lingvuzon kaj evoluon. Lastatempe, pli precize ekde la jaro 2002, tamen kreiĝas science uzebla tekstaro Esperanta dank’ al Esperantic Studies Foundation. Ĝi nomiĝas simple Tekstaro de Esperanto kaj estas prizorgata de la akademiano Bertilo Wennergren. En septembro 2004 ĝi entenis 3,7 milionojn da vortoj, el kiuj granda parto estas ĉerpita el kelkaj klasikaj fontoj, kiel la Biblio, La Faraono, Marta kaj Pro Iŝtar, tamen alia granda parto konsistas el artikoloj el Monato kaj La Ondo de Esperanto.

Kvar milionoj da vortoj estas bona bazo por kelkaj specoj de esploroj. Tamen, por serĉi la aperon de relative maloftaj vortoj, aŭ por kompari la lingvon el diversaj epokoj, tio ne sufiĉas. Krome, la materialo konsistas preskaŭ nur el zorge redaktitaj kaj poluritaj tekstoj. Do, pli spontana lingvaĵo pli-malpli mankas. Tio povas esti avantaĝo, ĉar tio limigas la kvanton de lingvaj eraroj, tamen tio limigas ankaŭ la eblon esplori la vivantan, ĉiutage uzatan lingvon.

Dum la lasta jardeko eksplodis la fenomeno Interreto. Kiel konate, ĝi ofertis novan niĉon por la uzado de Esperanto, kaj ne estas tro aŭdace supozi, ke efektive la uzado de Esperanto en la lastaj jaroj ege kreskis, kvankam la nombro de uzantoj eble ne kreskis. Laŭ mia takso (legu sube pri la metodo) troviĝis en septembro 2004 pli ol 200 000 esperantlingvaj paĝoj en Interreto. Estas relative malfacile taksi la suman amplekson de tiuj paĝoj, sed mi supozas ke temas pri io inter kvardek kaj okdek milionoj da vortoj.

Por kompari: Ĝis hodiaŭ aperis en Esperanto proksimume 170 originalaj verkoj kiujn eblus nomi romanoj. Ili enhavas sume 30 000 paĝojn, kaj mi taksas ilian suman amplekson je pli-malpli dek milionoj da vortoj. Do, kredeble Interreto hodiaŭ ampleksas kelkoble tiom da Esperanta teksto, kiom la originala romanarto.

 

Ĉu eblas uzi Interreton kiel tekstaron por lingvaj studoj? Antaŭ ol respondi, oni povas tre facile konstati, ke tio jam okazas, kvankam nesisteme. Kiel konate, esperantistoj tre ŝatas diskuti kaj disputi pri lingvaj aferoj, kaj en tiaj diskutoj en retaj forumoj oni jen kaj jen trovas rezultojn de faritaj serĉoj.

Kompreneble tamen troviĝas problemoj. Mi klopodos jene listi kelkajn aferojn, kiujn necesas pripensi kiam oni uzas Interreton kiel tekstaron.

Unue, necesas distingi, kiuj tekstoj estas efektive esperantlingvaj.

Due, serĉante vorton, oni ne ricevas respondon pri kiomfoje aperas la vorto, sed pri kiom da ttt-paĝoj entenas la vorton. Oftaj vortoj ja povas aperi multfoje en unu paĝo.

Trie, la menciitaj ttt-paĝoj povas ege varii laŭ amplekso. Unu retuzanto eble enmetis tutan romanon en unu dosieron, alia dividis sian materialon en centon da dosieroj. Se iu vorto aperas dudekfoje, povas temi pri dudek uzantoj, aŭ pri unu uzanto kiu enretigis ĝin en dudek dosierojn.

Kvare, la uzantoj de Interreto estas aparta homgrupo, kies lingvaĵo eble ne spegulas la kutimojn de ĉiuj lingvuzantoj.

Kvine, Interreto estas aparta medio kun apartaj kutimoj, moroj kaj kondiĉoj. Se oni serĉas informojn, oni devas esti preparita trovi miskomprenojn, antaŭjuĝojn, onidirojn, blagojn kaj misojn inter la seriozaj tekstoj. Same, se oni serĉas ian lingvan aferon, oni devas scii ke aperas tekstoj de komencantoj, reformemuloj, mistajpantoj, ŝercantoj kaj eble eĉ trompantoj.

Sese, la plej oftaj serĉiloj ebligas serĉi nur tutajn vortojn, ne partojn de vortoj. Do, ekzemple ne eblas serĉi kiomfoje aperas iu specifa prefikso.

Sepe, trovante vorton, oni ne scias en kiu senco ĝi estis uzata.

Oke, vorto povas aperi en flua teksto, sed ankaŭ en vortlisto. Temas pri du specoj de uzado. Vorto povas esti eĉ ne uzata, sed menciata, eble kiel ”neuzenda”. La Interretaj serĉiloj traktas ĉiajn aperojn egale.

Naŭe, kelkaj malsamaj kodigoj de supersignitaj literoj estas uzataj.

Deke, eĉ se la paĝo estas Esperantlingva, povas aperi en ĝi nomoj aŭ tekstoj el aliaj lingvoj, kiuj fojfoje ĝenas la serĉadon.

 

Laŭ mia sperto, la fakto ke troviĝas multe da fuŝa kaj stranga lingvaĵo en Interreto tamen ne multe ĝenas, se oni serĉas aperon de apartaj vortoj. Krom en esceptaj kazoj, la eraroj kaj senintencaj fuŝoj ”dronas” en la normala lingvaĵo. Kaj se temas pri novaj formoj, proponoj, dialektaĵoj, neologismoj k.s., ili estas unu el pluraj interesaj kampoj de esplorado. Jen kelkaj ekzemploj pri fuŝoj: ”havas bonan” donas 601 trafojn, ”havas bona” 6 trafojn. ”Ekzemple” aperas en 17 700 paĝoj, ”eksemple” en 8, ”egzemple” en 13, ”exemple” en 42. Tamen escepte la fuŝoj relative pli oftas: ”kapitulaco” 79 trafoj, ”kapitulacio” 22.

Se oni volas eviti vortlistojn, oni povas uzi la trukon serĉi ne la bazan formon de vorto, (-o, -a, ‑i ktp) sed derivitan formon (-on aŭ -oj, -an, -is ktp).

Por trovi nur Esperantajn paĝojn, mi ĉiam serĉas kune kun la vortoj ”kaj” kaj ”estas”. Laŭsperte, tio donas nur esperantlingvajn trafojn. Per tiu limigo oni perdas eble dek ĝis dek kvin procentojn el la eblaj trafoj, sed tio ne tre gravas, se oni ĉiam aplikas la saman limigon.

Nuntempe kelkaj serĉiloj subtenas Unikodon. Mi serĉis per kelkaj oftaj vortoj kaj trovis, ke 66 % el ĉiuj Esperantaj ttt-paĝoj uzas tiun kodigon (septembro 2004). 16 % uzas X-sistemon, 9 % H-sistemon, 3 % Latin-3 kaj 6 % aliajn sistemojn.

 

 

Vortara slalomo

La plej gravaj kaj prestiĝaj vortaroj de Esperanto formas serion: Plena Vortaro (PV) el 1930, Plena Ilustrita Vortaro (PIV1) el 1970 kaj Nova Plena Ilustrita Vortaro (NPIV) el 2002. Oni povas diskuti, ĉu vortaroj devas speguli la lingvan praktikon aŭ decidi ĝin. Ĉiuokaze estas klare, ke la redaktantoj de tiuj tri vortaroj kelkloke strebis influi la evoluon de Esperanto, kaj eble efektive sukcesis fari tion.

Tamen tiu serio el tri prestiĝaj pli-malpli normigaj vortaroj ne akordas inter si pri ĉiuj detaloj. Troviĝas kelkaj vortoj, kie la vortaristoj plenumis lingvan slalomon. Kion unu el ili proponas, tion en kelkaj okazoj alia deklaras evitinda aŭ konsideras neekzistanta. Sed ĉu la esperantistoj obeas tiujn sezonajn modojn de la vortaristoj? Ni vidu...

Ĉe unu grupo de vortoj la tri vortaroj plenumas kompletan slaloman ĝiron. En PV aperas la vorto navedo – ilo por pasigi vefton inter la varperoj dum teksado. En PIV1 ĝi ŝanĝis formon al naveto, sed en NPIV ĝi kameleone refariĝis navedo. Tute same estas pri la elektra unuo vato (W) el PV, kiu en PIV1 iĝis vatto (kun alternativa formo ŭato), kaj en NPIV denove vato. Simila kazo en PV estas venera, vorto kiu karakterizas malsanojn transdonatajn per seksaj kontaktoj. En PIV1 ĝi iĝis venerea, dum NPIV revenas al la origina venera kaj deklaras la formon venerea evitinda.

Preskaŭ tutan ĝiron plenumis la vortparo strando – plaĝo. Ambaŭ vortoj aperas en ĉiuj tri vortaroj, tamen ne egale. En PV strando estas la baza vorto, al kiu oni plusendas sub la kapvorto plaĝo. En PIV1 male plaĝo estas la ĉefa formo, sed en NPIV ili aperas pli-malpli egalrajtaj.

Bedaŭrinde ne facilas kontroli, ĉu tiu vortara slalomo iel influis (aŭ spegulas) la praktikan lingvuzadon. En la suba tabelo aperas la trafoj en la hodiaŭa Interreto kaj en tekstoj el du periodoj  de la Tekstaro de Esperanto – antaŭ kaj post 1940. Kiel konstateblas, la vortokvantoj de la Tekstaro ne sufiĉas por skani la uzon de relative maloftaj vortoj.

La Interretaj serĉadoj ĉi tie kaj ĉie sube estas faritaj per la serĉilo Google kaj kun aldono de la serĉvortoj ”kaj” kaj ”estas” por ricevi nur Esperantlingvajn ttt-paĝojn. Kiam la vortoj enhavas supersignitajn literojn, la serĉo el 2004 entenas kodigojn laŭ Unikodo, X- kaj H-sistemojn, tiu el 2002 nur X-kodigon kaj Latin-3.

 

Vorto

Tekstaro

 

Interreto

 

 

--1940

1940--

2002

2004

Navedo

0

0

 

13

Naveto

0

0

 

20

Vato*

1

2

 

30

Vatto

0

0

 

3

Ŭato

0

1

 

2

Venera

0

2

15

61

Venerea

0

11

12

24

Strando

0

25

87

295

Plaĝo

0

50

62

411

* en ligo kun elektro
Malplena ĉelo en la tabelo signifas, ke tiu serĉo ne estis farita

 

Dua grupo de vortoj ne faras plenan ĝiron en la vortaroj. La vortoparo aprezi–apreci (taksi ion valora) ne aperas en PV. En PIV1 apreci estas la preferata formo, dum NPIV preferas la formon aprezi. El la duopo jahurto–jogurto PV kaj PIV1 preferas la unuan, sed NPIV traktas la duan kiel ĉefan formon. PV kaj PIV1 distingas arbuston (pli eta) de arbedo (pli granda), sed NPIV deklaras la duan evitinda, kaj kolektas ĉion de empetro ĝis sambuko sub arbusto.

En kelkaj kazoj la tri vortaroj grupiĝas alie. La vorto vando (interna dividmuro) aperas en PV, sed en PIV1 kaj NPIV oni sub vando nur plusendas al du aliaj, preferataj vortoj: septo kaj parieto. Simile estas pri razeno (herbotapiŝo), kiu aperas en PV, sed PIV1 kaj NPIV favoras la variaĵon gazono, kaj eĉ stampas razenon kiel ”evitindan”. Kaj en PV oni trovas la vorton poŭpo (la malantaŭa fino de ŝipo), unika pro sia diftongo, dum en PIV1 kaj NPIV oni plusendas de poŭpo al la formo pobo. Iom surprize estas, ke tiu poŭpo tamen ne estas klasita kiel evitinda, malgraŭ sia neklasika ”oŭ”. Kaj PV enhavas rodi (mordeti), dum PIV1 kaj NPIV preferas ronĝi.

Al ĉi tiu grupo eblas kalkuli ankaŭ la klasikan paron vipero–vipuro. En PV aperas nur la fundamenta vipuro, en PIV1 troviĝas ambaŭ, sed vipuro tie ŝajnas ankoraŭ la preferata formo. En NPIV tamen la vipero iom surprize aperas kiel baza formo, dum sub vipuro oni nur plusendas al vipero.

Sube do la sama tabelo kiel pri la tutslalomaj vortoj:

 

Vorto

Tekstaro

 

Interreto

 

 

--1940

1940--

2002

2004

Aprezi

0

53

50

174

Apreci

0

20

44

130

Jahurto

0

1

10

35

Jogurto

0

2

11

26

Arbusto

22

30

 

233

Arbedo

0

13

 

84

Vando

9

12

40

153

Parieto

0

2

4

18

Septo*

0

3

0

13

Razeno

0

7

18

53

Gazono

0

10

42

114

Poŭpo

0

3

16

60

Pobo

0

1

35

79

Rodi

0

0

 

23

Ronĝi

0

3

 

28

Vipuro

21

4

 

84

Vipero

8

1

 

17

* temas pri tiuj trafoj, kiuj havas la sencon ”vando”, ne pri la tonintervalo septo

 

En la plej multaj kazoj supre traktitaj malfacilas trovi rilaton inter la vortaraj ŝanĝoj kaj la praktike uzata lingvo. En pluraj okazoj la esperantistoj ŝajne havas aliajn normojn ol la plej prestiĝajn vortarojn. Relative multaj ŝajne neglektas aŭ ignoras indikojn pri ”evitindeco”. En vivanta lingvo tio ne estas tre stranga, eble oni tamen povas esperi, ke estontaj vortaroj iomete atentos la realan lingvuzon. Almenaŭ pri la vortoj aprezi, vando, vipuro, plaĝo kaj gazono oni kuraĝas diri, ke la lingvuzo ŝajnas relative stabila, kvankam ja ankaŭ konkuraj formoj estas uzataj. Ne facilas kompreni, kial la daŭre viva razeno aŭ la oportune preciziga arbedo estus ”evitindaj”. Kaj la persista PIVa malŝato al vando jam komencas simili malsanetan fobion!

 

La eternaj neologismoj

Pli konata kategorio de vortparoj estas la tielnomataj neologismoj, kiuj sence duobligas mal-vortojn. Jam Zamenhof, Grabowski kaj aliaj pioniroj ekuzis tiaspecajn neologismojn, kiuj tamen poste  oficialiĝis kaj en kelkaj okazoj estas uzataj pli ofte ol la koncerna mal-vorto. Poste, en la 1930aj jaroj, Kalocsay estis grava kontribuanto al tiu speco de vortoj.

Sube mi prezentas tabelojn kun kelkaj konataj vortparoj kaj la nombro de Interretaj trafoj en marto 2002 kaj septembro 2004 plus la nombro de aperoj en Tekstaro de Esperanto. Mi grupigis la vortojn laŭ sukceso de la koncerna neologismo. Unue sekvas ”la neologismoj kiuj venkis”.

 

Vorto

Tekstaro

 

Interreto

 

 

--1940

1940--

2002

2004

Humida

0

19

 

292

Malseketa

0

5

 

74

Stulta

6

157

440

1 690

Malsaĝa

193

21

76

685

Malsprita

4

5

20

75

Kvereli

8

31

50

156

Malpaci

26

2

21

52

Strikta

7

54

170

703

Malvasta

54

29

185

569

 

Due sekvas kelkaj, kiuj estas uzataj preskaŭ same ofte kiel siaj mal-vortoj:

 

Vorto

Tekstaro

 

Interreto

 

 

--1940

1940--

2002

2004

Obstaklo

2

53

83

261

Malhelpo

47

33

100

337

Magra

0

29

94

280

Malgrasa

60

9

103

291

Pigra

0

23

52

141

Maldiligenta

14

8

43

106

Mallaborema

8

9

42

134

Trista

1

29

132

538

Malgaja

127

35

269

676

Malĝoja

141

26

69

641

 

Tria grupo enhavas kelkajn vortojn, kiuj iom uzatas, precipe ĉar ili akiris propran nuancon, kvankam ili tute ne povas kvante konkuri kun sia respektiva mal-vorto:

 

Vorto

Tekstaro

 

Interreto

 

 

--1940

1940--

2002

2004

Povra

0

33

162

660

Malriĉa

234

139

166

1 830

Kompatinda

113

73

260

979

Leĝera

0

37

22

272

Malpeza

40

19

231

602

Frida

0

16

102

482

Malvarma

161

133

595

2 700

Olda

0

44

128

514

Maljuna

673

233

1 172

4 470

Malnova

447

487

2 850

9 560

Ĉipa

0

3

 

199

Malmultekosta

0

60

 

589

 

 

En la tri supraj vortgrupoj konstateblas, ke la plej granda diferenco estas inter la du periodoj de la Tekstaro. Ĝiaj tekstoj el post 1940 (fakte plejparte post 1980) pli akordiĝas kun la nunaj rezultoj el Interreto, ol kun la pli fruaj tekstoj. Do, almenaŭ en ĉi tiuj kazoj, Interreto ŝajnas funkcii kiel bona tekstaro por lingvaj studoj pri la moderna vivanta Esperanto.

 

En kvaran grupon ni povas kolekti la plej multajn proponojn, kiuj restas tre malmulte aŭ tute ne uzataj. Jen nur kelkaj ekzemploj, kun Interretaj trafoj. Ĉe tiel maloftaj vortoj apenaŭ indas serĉi en Tekstaro de Esperanto:

 

Vorto

Interreto

 

 

2002

2004

Minca

13

38

Maldika

410

974

Tarda

23

134

Malfrua

303

2 090

Dista

18

94

Lontana

25

53

Malproksima

678

2 640

Fora

451

2 540

Hati

8

35

Malami

100

261

Pokaj

18

20

Malmultaj

1 090

4 890

Infre

6

26

Malsupre

608

2 950

 

Ĝenerale direblas, ke la Interreta uzado de neologismoj el la supraj kvar grupoj ne draste ŝanĝiĝis en tri jaroj, dum la nombro de Interretaj paĝoj ĝenerale kelkobliĝis. La ”neologisma kvociento” averaĝe iomete kreskis, tamen neniel grave. Se oni memoras, ke temas pri la lingvaĵo de aparta, eble ne averaĝa grupo, kaj se oni evitas kelkajn falilojn, ŝajnas al mi ke Interreto prezentas tre bonan materialon por studi la lingvan evoluon de la vivanta Esperanto. Ĝi ebligas demonstri interalie la grandegan diferencon inter vortoj relative ofte uzataj, kiel magra kaj trista, kaj aliflanke proponoj plene abortaj, trovataj nur kelkope.

 

 

Ĉu -ujo arkaikiĝas?

La ĉefa landnoma malkonsento jam de multaj jardekoj temas pri -ujo-io. En la Interreta esploro de marto 2002 la ujo-fomoj havis 15 % kaj la io-formoj 85 % el tiuj kazoj, kie uziĝas ambaŭ formoj. Sed ŝajne la evoluo ĉi-kampe okazis sufiĉe rapide, ĉar en septembro 2004 -ujo falis al nur 7 %. Ĉu do tiu origina formo arkaikiĝas? Supozeble tamen ĝi longe restos uzata de obstina malplimulto, kiu eble pli fortas en aliaj medioj ol Interreto.

Pri diversaj landoj oftege parolas esperantistoj, ankaŭ en Interreto, do la landnomoj donas multajn trafojn je serĉado. Jen sube nur kelkaj ekzemploj por tion ilustri:

 

Vorto

2002

 

 

2004

 

 

 

-io

-ujo

-lando

-io

-ujo

-lando

Franc-

3 387

309

15

11 600

621

385

German-

3 161

363

5

10 200

706

22

Brit-

824

224

11

7 790

470

35

Rus-

1 125

267

226

6 760

549

1 970

Pol-

150

54

1 050

354

181

7 200

Japan-

1 190

140

10

8 180

374

17

Ĉin-

328

26

1

15 200

295

4

 

 

Serĉo pri kvar landoj en la Tekstaro de Esperanto tamen donas surprizan rezulton: Antaŭ 1940 ‑ujo havas du trionojn el la tre malmultaj trafoj, sed post 1940 -ujo falis al nur 2 %! La konkludo devas esti, ke la speco de tekstoj en Tekstaro ege malsamas inter la du epokoj. Inter la tekstoj el post 1940 dominas artikoloj el Monato kaj La Ondo de Esperanto.

 

 

Vorto

Tekstaro

--1940

Tekstaro

1940--

 

-io

-ujo

-io

-ujo

Franc-

2

20

596

12

German-

24

30

691

10

Brit-

0

2

398

22

Ĉin-

3

0

389

5

 

 

Troviĝas tamen apartaj landnomaj demandoj, kie la Interreta medio montras tre interesan bildon. Plej frapa eble estas la rapida ŝanĝo okazinta pri Barato. En 2002 ankoraŭ superregis Hindio, sed jam en septembro 2004 Barato ŝajnis venki:

 

Vorto

Interreto

 

 

2002

2004

Hindio

195

966

Hindujo

126

428

Barato

66

1 250

Bharato

35

114

 

 

 

Pri Koreio la afero ŝajne stabiliĝis pli frue, kaj hodiaŭ tute superregas la formo ”koreoj en Koreio”, kun ”koreoj en Koreujo” en la dua vico. La formo ”koreanoj en Koreo” apenaŭ plu estas uzata en Interreto. Sube mi prezentas serĉrezultojn el marto 2002, septembro 2003 kaj septembro 2004.

 

Vorto

Interreto

 

 

 

2002

2003

2004

Koreo*

100

325

361

Koreoj

96

281

353

Koreio

370

2 260

2 880

Koreujo

66

163

147

Koreanoj

8

61

41

* el kiuj plej multaj en la signifo ”loĝanto”, kelkaj en la signifo ”lando”

 

 

 

Se ni turnas la okulojn al Ukrainio, la situacio ŝajnas pli kaosa. Pri la lando evidente tute dominas tiu formo, sed pri la loĝantoj oni ŝajne malmulte parolas. Logike devus esti ”ukrainoj en Ukrainio”. La kombino ukrainoj + Ukrainio tamen ricevas nur 21 trafojn, sed aliaj ebloj eĉ malpli: ukrainianoj + Ukrainio – sep trafoj, ukrainanoj + Ukraino – du; aliaj eblaj kombinoj neniu trafo.

 

Vorto

2004

 

 

 

 

 

 

 

 

-io

-ujo

-o

-oj

-ano

-anoj

-iano

-ianoj

Ukrain-

2 210

83

134

44

16

42

7

12

Ukrajn-

52

6

117

7

8

5

0

0

 

 

Pri Egiptio superregas ”egiptoj en Egiptujo”, kun ”egiptoj en Egiptio” duavice kaj ”egiptanoj en Egipto” triavice. Interesa observo pri Egiptio estas, ke pri la nuna lando dominas en Interreto la io-formo, sed pri la antikva lando la ujo-formo. Tion mi povis konstati serĉante en kombino kun aliaj vortoj. Simila tendenco, kvankam ne tiel forta, validas pri pluraj aliaj regnoj: kiam oni traktas antikvan tempon, pli oftas la ujo-formo ol kiam temas pri la nuna lando.

 

Vortoj

2004

 

 

-io

-ujo

Egipt- + faraono

32

197

Egipt- + araba

131

62

 

Krom en la antikva egipta regno, la ujo-formo tamen restas plimulta en ankoraŭ unu kazo: Esperantio en 2004 havis 4 470 Interretajn trafojn, Esperantujo 5 040. Tamen eĉ pri tiu kerna kaj kora nocio do la ujo-formo ŝajnas minacata!

 

 

Arĥaja litero?

De pli ol okdek jaroj kelkaj esperantistoj pli-malpli sisteme anstataŭigas la literon ĥ per k, kie tio eblas. Aliaj, kompreneble, flegas la literon ĥ. Do, ĉe multaj vortoj ni havas delonge du paralelajn formojn. Sed kiel ili kvante rilatas unu al la alia?

Simpla serĉo montras, ke almenaŭ en Interreto la emo elekti ĥ- aŭ k-formon ege varias de vorto al vorto. La k-formo superregas en vortoj, kiuj enhavas la literkombinon ”ark”, sed ankaŭ en kelkaj aliaj vortoj. La plej altan procenton de k-formo mi trovis ĉe arkitekturo. Ĉe kelkaj vortoj tamen superregas la ĥ-formo, kvankam eblus elekti k-formon. En la suba tabelo mi aranĝis la esploritajn vortojn laŭ kreskanta procento de k-formo.

 

Vorto

2004

 

 

 

ĥ

k

 k %

Ĥarkovo

78

0

0 %

Monaĥejo

422

37

8 %

Ĥimero

62

17

22 %

Jaĥto

138

47

25 %

Ĥaoso

448

367

45 %

Alĥemio

25

21

46 %

Paroko

144

150

51 %

Arkimedo

21

30

59 %

Kirurgo

65

104

62 %

Kameleono

44

91

67 %

Mekanika

78

275

78 %

Kemio

202

851

81 %

Arkaika

53

229

81 %

Anarkio

41

180

81 %

Tekniko

765

3 440

82 %

Arkitekturo

76

722

90 %

 

 

En la Tekstaro de Esperanto mi serĉis tri el la plej oftaj ĥ-vortoj, kaj la rezulto konfirmas la suprajn konkludojn, kvankam la nombro de trafoj el antaŭ 1940 estas tre malgranda.

 

Vorto

Tekstaro

--1940

 

Tekstaro

1940--

 

 

ĥ

k

 k %

ĥ

k

 k %

Monaĥejo

17

0

0 %

155

2

1 %

Ĥaoso

9

1

10 %

19

11

37 %

Tekniko

0

8

100 %

4

150

97 %

 

En la Tekstaro mi krome konstatis, ke la procenta apero de la litero ĥ en la Biblio estas 0,117 %, dum en la artikoloj en Monato ĝi estas nur 0,024 %, alivorte nur kvinone tiel ofta. Estus interese ekscii, ĉu aliaj lingvoj havas tiel malofte aperantan fonemon.

 

 


 

Tiomismo – ĉu malsano?

La korelativa tabelo de Esperanto enhavas -iel-vortojn por maniero kaj -iom-vortojn por kvanto. Por esprimi gradon ĝi ne havas apartan serion. Klasike kaj Zamenhofe oni uzas la -iel-serion – ”tiel bela”, ”kiel granda” ktp. Tamen jam frue aperis tiucele ankaŭ la -iom-serio. Kelkaj gramatikistoj kritikas tion, kaj en 1954 H. A. de Hoog eĉ nomis tion ”malsano” kun la nomo tiom-kiom-ismo. Aliaj opinias, ke la -iom-serio uzeblas por aparta emfazo. (Cetere, oni ja vaste uzas la vortojn iom kaj iomete por esprimi gradon.) Do, estas interese esplori, kiel aŭ kiom la Interretaj lingvuzantoj infektiĝis de tiu eventuala malsano. Mi serĉis aron da esprimoj de la tipo ”tiel bona” – ”tiom bona” kaj similaj:

 

 

 

2004

 

 

 

tiel

tiom

tiom %

blanka

26

0

0%

bela

478

51

10%

aminda

17

2

11%

bele

234

30

11%

feliĉa

56

13

19%

bona

375

117

24%

bone

622

216

26%

forta

262

92

26%

frue

141

55

28%

granda

579

286

33%

grava

179

93

34%

alta

116

64

36%

kara

26

15

37%

longe

728

483

40%

ofte

256

214

46%

longa

115

98

46%

multaj

207

185

47%

multe

463

834

64%

malmulte

72

198

73%

 

 

La rezulto estas sufiĉe interesa. Kvankam ĝenerale tiel superregas, tamen montriĝas, ke la elekton de tieltiom por esprimi gradon ege influas la speco de vorto, kies gradon oni volas esprimi. Ĉe adjektivoj kaj adverboj mezureblaj oni pli ofte uzas tiom. Ĉe la vortoj multe kaj malmulte oni eĉ preferas tiom. Ĉe nemezureblaj ecoj kiel bela, bona kaj feliĉa oni plej ofte preferas esprimi gradon per tiel.

 


Ali-specaj korelativoj

Kelkaj homoj jam delonge hereze vastigis la korelativan tabelon per vortoj komenciĝantaj per ali-, kiel alies, aliel ktp. Ĉi tie ne estas la ĝusta loko por montri, ke tio povus havi tre ĝenajn kromefikojn. Estas nediskuteble, ke la problemo kaŝiĝas en la dubo, kiun tia uzado alportus al la vortoj alio, alia kaj alie. Ĉu ili restus normalaj substantivo, adjektivo kaj adverbo, kun ties normalaj signifoj kaj uzo, aŭ ĉu subite ankaŭ ili iĝus korelativoj kun aliaj signifoj kaj uzo?

Jen la rezultoj de la Interreta serĉilo. Por komparo, mi montras dekstre la nombrojn trovitajn de normalaj ti-korelativoj :

 

Vorto

2002

 

2004

 

 

ali-

ti-

ali-

ti-

-al

19

4 990

27

20 100

-am

25

4 785

68

25 400

-el

112

5 257

454

37 500

-es

206

2 505

740

12 500

-om

19

3 809

22

15 100

-u

47

13 595

105

74 500

-e

1 403

9 226

5 710

39 300

-en

 

 

40

21 000

 

Evidente, la vorto alies estas la plej uzata el la ”herezaj” formoj. Dualoke troviĝas aliel, kiu kvazaŭ precizigas unu el la signifoj de la adverbo alie. La ceteraj, aliu, alial, aliam kaj aliom malmulte penetris en Interreton. Inter 2002 kaj 2004 la uzado de ”ali-korelativoj” en Interreto relative malkreskis (t.e. ĝi kreskis malpli ol la ĝenerala Interreta kresko).

Ĉar la vorto aliu aperas en cento da ttt-paĝoj, mi serĉis tre oftan esprimon – ”unu la alian” – kaj ricevis 3 700 trafojn. Se ali- iĝus parto de la korelativa tabelo, tiu esprimo devus iĝi ”unu aliun”, sed tiu formo donis nul trafon en Interreto! Mi tamen trovis kvin ”unu la aliun” – ĉu tajperaroj, ĉu nelogikaj formoj, ĉar oni ja ne uzas artikolon kun la korelativoj.

Kiel videblas en la supra tabelo, mi trovis ankaŭ kvardekon da ttt-paĝoj, kiuj uzas la vorton alien en la signifo aliloken (necesis elsarki multajn anglajn alimondanojn = ”alien” el la serĉado). Ĉar la rilato inter tie kaj tien estas preskaŭ 2:1, oni eble povas suspekti, ke proksimume cento el la 5 710 alie estas uzataj en la signifo aliloke. Do, kredeble relative malmultaj el tiuj, kiuj uzas alies, aliel, aliu, konsideras alio, alia, alie kiel korelativojn.

 

Diversaĵoj

Pri multaj diversaj diskutobjektoj aŭ nestabilaj aferoj en Esperanto la Interreta uzado estas esplorebla. Jen sekvos kelkaj disaj ekzemploj. La prefikso ge- klasike estas uzata nur en pluralo por paroli pri paro – edzo + edzino = geedzoj, pri aro el ambaŭ seksoj – amikoj + amikinoj = geamikoj. Tamen de kelka tempo aperas fojfoje alia uzo de ge-, ĉu en singulara substantivo, kun la signifo ”unu el paro/aro, sendepende de sekso”, ĉu en alispeca vorto, por signi ion kio koncernas du aŭ pliajn personojn el ambaŭ seksoj. Jen eta esploro en Interreto:

 

Vorto

2004

Gepatro

73

Gefrato

7

Geamiko

6

Gedormi

6

Gesolaj

3

Gelernejo

5

 

Facilas konstati, ke ĉi tiu uzo ankoraŭ preskaŭ ne konatas en Interreto. Nur la formo ”gepatro” kun la signifo ”unu el la gepatroj” aperas en notinda grado, kvankam malmulte kompare kun 2 130 ”gepatroj”. Eble tamen estas pli ĝuste kompari kun la esprimoj ”patro aŭ patrino” kaj ”patrino aŭ patro”, kiuj aperas en 55 kazoj, do eĉ malpli ofte ol gepatro, kaj ”unu el la gepatroj”, kiu aperas en 26 kazoj.

 

Alia temo, kiun facilas esplori per Interreta serĉilo, estas la uzado de longaj aŭ koncizaj formoj ĉe kelkaj radikoj. Temas pri latinaj finaĵoj, kiuj ofte estas redundaj en Esperanto, ekz. -acio kaj -ika. La suba tabelo pri kelkaj vortparoj montras grandan diferencon de vorto al vorto, kaj en kelkaj okazoj la du formoj ja akiris malsamajn nuancojn.

 

Vorto

2004

 

 

-a

-ika

Aŭtent-

223

225

Ekzot-

78

170

Erot-

25

382

Hermet-

8

40

Mekan-

1

277

 

-o

-acio

Inaŭgur-

761

5

Civiliz-

598

764

Dekor-

50

160

Konjug-

16

106

Konvers-

14

856

 

-o

-ario

Koment-

2 220

754

 

Oni vidas, ke la Zamenhofa aŭtenta kvante egalas al la oficiala aŭtentika, kiun preferas NPIV. Male ĉe ekzota, kie NPIV preferas la mallongan formon, ankoraŭ dominas la pli longa ekzotika, kaj eĉ pli klare tio validas pri erota/erotika, kie NPIV ŝajne havas signifonuancon, kiu tamen spitas mian komprenpovon. Dank’ al la Solenaj Inaŭguroj la formo inaŭguracio preskaŭ mortis. Kaj komentario ŝajne cedas al la pli mallonga komento.

 

Du terminoj, kie konkuras eĉ po tri formoj, estas la vortoj por inkluzivi kaj ekskluzivi. Sube mi montras la Interretajn trafojn el septembro 2004:

 

Vorto

2004

 

 

-i

-e

Inkluziv-

214

6 450

Inklud-

195

273

Enklud-

12

22

Ekskluziv-

28

1 540

Eksklud-

105

36

Elklud-

6

9

 

En la supra tabelo estas interese konstati, ke la praktika lingvuzo ne estas simetria. Ĉe adverba uzado, ege dominas la ”-kluziv-formoj”, dum ĉe verba uzado, la ”-klud-formoj” pli forte konkuras, kaj ĉe ekskludi eĉ klare superregas. La Piĉ-aj retroderivaĵoj enkludi kaj elkludi tute nature ne tre oftas en Interreto. Alia frapa trajto estas, ke la Interretaj esperantistoj ŝajnas ege pli inkluzivaj ol ekskluzivaj!

 

Alispeca vortgrupo estas la triopo spontanea–spontana–sponta, ĉiuj kun egala signifo. Tra la vortarserio PV–PIV1–NPIV la ĉefa formo restas spontanea, al kiu oni plusendas sub spontana kaj – en NPIV – sub la ”familiara” sponta. Laŭ la Interreta uzo en septembro 2004 tamen ege superregas la ”meza” formo spontana:

 

Vorto

2004

Spontanea

193

Spontana

912

Sponta

9

 

 


Modernaĵoj

Granda parto de la lingva evoluo simple spegulas la socian, kulturan kaj teknikan evoluon. Senĉese dum la homa vivo ni renkontas novajn aferojn, kiujn necesas iel nomi. Niaj geavoj devis trovi vorton por aŭto, niaj gepatroj por bikino kaj ni mem por aidoso. Estas tute natura afero, ke ĉe la plej freŝaj novaĵoj la lingvo malplej stabilas. Tio validas en ĉiu lingvo kaj estas ĉefe demando de tempo. Eble tamen la stabiliĝo bezonas pli da tempo kaj disputoj en Esperanto ol en nacia lingvo, pro la manko de komunaj institucioj, televido, tagaj ĵurnaloj kaj ĝenerale pro malpli intensaj interrilatoj. Al tio sendube aldonendas iom da nacilingva influo. Eĉ se ni ne volas tion agnoski, ni subkonscie estas influataj de niaj denaskaj lingvoj.

Mi serĉis Interrete pri kelkaj modernaĵoj, kie laŭ mia sperto troviĝas konkuraj formoj. Nu, modernaĵoj...  Eble oni ne nomu ĝinzon modernaĵo, sed en la Esperanta mondo la evoluo ja iomete prokrastiĝas...

 

Vorto

2004

Komputilo

6 900

Komputoro

204

Komputero

203

Aidoso

838

AIDS

547

Aideso

84

Faksi

59

Telekopii

15

Telefaksi

8

Retpoŝto

3 330

E-poŝto

422

Poŝtelefono

209

Portebla telefono

64

Mobiltelefono

7

Telefoneto

4

Hamburgero

21

Burgero

11

Hamburgaĵo

7

Hamburgoro

1

Fritoj

29

Terpomfingroj

12

Pomfritoj

4

Terpomfritoj

2

Kolao

43

Kokakolao

8

Ĝinzo

20

Ĵinzo

7

Ĵinso

7

Ĝinso

2

Dreliko

13

Bluĝino

5

 

 

Do, finfine, en ĝinzo el blua dreliko, maĉante hamburgeron kun fritoj kaj trinkante kolaon, ni interrilatu nur fakse, poŝtelefone aŭ retpoŝte per niaj komputiloj, por ne riski aidoson! Jen bela estonteco...  Nu, ni tamen ĝoju, ke eblos tion fari per la internacia Interreta lingvo!