Korporu definīcija un piemēri valodniecībā
Gramatikas un retorikas terminu vārdnīca

Saskaņā ar Tonija Makenerija u.c. teikto, arvien vairāk valda vienprātība, ka korpuss ir (1) mašīnlasāms (divi) autentisks teksti (tostarp runāto datu atšifrējumi), kas ir (3) paraugi būt (4) pārstāvis noteiktai valodai vai valodu šķirnei” ( Korpusā balstītas valodu studijas , 2006). (Monty Rakusen/Getty Images)
In valodniecība , a korpuss ir lingvistisko datu kolekcija (parasti ietverta datora datubāzē), ko izmanto pētniecībai, stipendijām un mācībām. To sauc arī par a teksta korpuss . Daudzskaitlis: korpusi .
Pirmais sistemātiski organizētais datoru korpuss bija Brown University Standard Corpus of Present-Day Amerikāņu angļu valoda (plašāk pazīstams kā Brown Corpus), ko 1960. gados sastādīja autors valodnieki Henrijs Kučera un V. Nelsons Frensiss.
Ievērojami angļu valodas korpusi ir šādi:
- Amerikas Nacionālais korpuss (ANC)
- Lielbritānijas nacionālais korpuss (BNC)
- Mūsdienu amerikāņu angļu valodas korpuss (COCA)
- Starptautiskais angļu valodas korpuss (ICE)
Etimoloģija
No latīņu valodas 'ķermenis'
Piemēri un novērojumi
- “Autentisku materiālu” kustība valodu mācībā, kas radās 20. gadsimta 80. gados, [atbalstīja] plašāku reālu vai “autentisku” materiālu izmantošanu — materiālus, kas nav īpaši paredzēti izmantošanai klasē, jo tika apgalvots, ka šāds materiāls atklās izglītojamie piemēriem dabiskā valoda lietojums ņemts no reālās pasaules kontekstiem. Pavisam nesen korpuslingvistikas rašanās un liela mēroga datu bāzu izveide vai korpusi dažādu autentiskās valodas žanru pārstāvji ir piedāvājuši turpmāku pieeju, lai nodrošinātu audzēkņus ar mācību materiāliem, kas atspoguļo autentisku valodas lietojumu.
(Džeks K. Ričardss, sērijas redaktora priekšvārds. Korpusa izmantošana valodu klasē , autors Rendijs Reppens. Cambridge University Press, 2010)
' Korpuss var kodēt valodu, kas radīta jebkurā režīmā, piemēram, ir runātās valodas korpusi un ir rakstītās valodas korpusi. Turklāt daži video korpusi ieraksta paralingvistisks tādas funkcijas kā Žests ..., un ir uzbūvēti zīmju valodas korpusi . . ..
“Korpusi, kas pārstāv valodas rakstīto formu, parasti ir mazākais tehniskais izaicinājums, ko konstruēt. . . . Unicode ļauj datoriem droši glabāt, apmainīt un parādīt teksta materiālu gandrīz visās pasaules rakstīšanas sistēmās, gan pašreizējās, gan izmirušajās. . . .
“Tomēr runas korpusa materiālu apkopošana un pārrakstīšana ir laikietilpīga. Dažus materiālus var iegūt no tādiem avotiem kā globālais tīmeklis. . .. Tomēr tādi atšifrējumi kā šie nav izstrādāti kā uzticami materiāli runātās valodas lingvistiskajai izpētei. . . . [S]izrunātie korpusa dati biežāk tiek iegūti, reģistrējot mijiedarbības un pēc tam tos pārrakstot. Ortogrāfisks un/vai fonēmisks runāto materiālu transkripcijas var apkopot runas korpusā, kurā var meklēt ar datoru.
(Tonijs Makenerijs un Endrjū Hārdijs, Korpuslingvistika: metode, teorija un prakse . Cambridge University Press, 2012)
' Saskaņošana ir korpusa lingvistikas galvenais rīks, un tas vienkārši nozīmē korpusa programmatūras izmantošanu, lai atrastu katru konkrēta vārda vai frāzes gadījumu. . . . Izmantojot datoru, mēs tagad varam meklēt miljoniem vārdu dažu sekunžu laikā. Meklējamais vārds vai frāze bieži tiek saukta par “mezglu”, un atbilstības līnijas parasti tiek parādītas ar mezgla vārdu/frāzi līnijas centrā, un abās pusēs ir septiņi vai astoņi vārdi. Tos sauc par atslēgas vārdu kontekstā displejiem (vai KWIC konkordancēm).
(Anne O'Kīfe, Maikls Makartijs un Ronalds Kārters, Ievads. No korpusa līdz klasei: valodas lietošana un valodu mācīšana . Cambridge University Press, 2007)
“1992. gadā [Jans Svartviks] ietekmīga rakstu krājuma priekšvārdā iepazīstināja ar korpuslingvistikas priekšrocībām. Viņa argumenti šeit ir sniegti saīsinātā formā:
- Korpusa dati ir objektīvāki nekā dati, kas balstīti uz pašsajūtu.
- Korpusa datus var viegli pārbaudīt citi pētnieki, un pētnieki var koplietot tos pašus datus, nevis vienmēr apkopot savus.
- Korpusa dati ir nepieciešami, lai pētītu atšķirības starp dialekti , reģistros un stilus .
- Korpusa dati sniedz lingvistisko vienību sastopamības biežumu.
- Korpusa dati ne tikai sniedz ilustratīvus piemērus, bet ir teorētisks resurss.
- Korpusa dati sniedz būtisku informāciju par vairākām lietišķām jomām, piemēram, valodu mācīšanu un valodu tehnoloģijām (mašīntulkošana, runas sintēze utt.).
- Korpusi nodrošina iespēju pilnībā atbildēt par lingvistiskajām iezīmēm — analītiķim ir jāņem vērā viss datos, nevis tikai atlasītās funkcijas.
- Datorizēti korpusi sniedz pētniekiem visā pasaulē piekļuvi datiem.
- Korpusa dati ir ideāli piemēroti tiem, kam šī valoda nav dzimtā.
(Svarvik 1992:8-10) Tomēr Svartviks arī norāda, ka ir ļoti svarīgi, lai korpusa lingvists arī rūpīgi veiktu manuālu analīzi: reti pietiek ar skaitļiem. Viņš arī uzsver, ka korpusa kvalitāte ir svarīga.
(Hanss Lindkvists, Korpuslingvistika un angļu valodas apraksts . Edinburgh University Press, 2009)
'Izņemot lietojumus valodniecības pētījumos pats par sevi , var minēt šādus praktiskus pielietojumus.
Leksikogrāfija
Korpusa atvasinātie frekvenču saraksti un, jo īpaši, konkordances kļūst par pamata instrumentiem leksikogrāfs . . . .
Valoda Mācīt
. . . Konkordanču kā valodu apguves rīku izmantošana pašlaik ir liela interese par valodu apguvi datorizētā valodā (CALL; sk. Johns 1986). . . .
Runa Apstrāde
Mašīna tulkojums ir viens piemērs korpusu pielietošanai tam, ko sauc datorzinātnieki dabiskās valodas apstrāde . Papildus mašīntulkošanai NLP galvenais pētniecības mērķis ir runas apstrāde , tas ir, tādu datorsistēmu izstrāde, kas spēj izvadīt automātiski radītu runu no rakstiskas ievades ( runas sintēze ), vai runas ievades pārvēršana rakstiskā formā ( runas atpazīšana ).' (Džofrijs N. Lēčs, “Korpora”. Valodniecības enciklopēdija , red. autors: Kirstena Malmkjēre. Routledge, 1995)