Corpus Design and Construction in Minoritised Language Contexts - Cynllunio a Chreu Corpws Mewn Cyd-Destunau Ieithoedd Lleiafri 2021
DOI: 10.1007/978-3-030-72484-9_2
|View full text |Cite
|
Sign up to set email alerts
|

1.2 A National Corpus of Contemporary Welsh: Context and Vision

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
2

Citation Types

0
0
0
2

Year Published

2021
2021
2021
2021

Publication Types

Select...
1

Relationship

0
1

Authors

Journals

citations
Cited by 1 publication
(2 citation statements)
references
References 4 publications
0
0
0
2
Order By: Relevance
“…2 Is léir ó thionscadail chorpais a reáchtáladh i gcás teangacha Eorpacha eile gur cur chuige rathúil é corpas a thiomsú trí ábhar a bailíodh cheana a thabhairt le chéile agus ábhar nuabhailithe a chur leis. Go deimhin, feictear in Knight et al (2020aKnight et al ( , 2020b agus tionscadal corpais náisiúnta na Breatnaise (CorCenCC) idir chamáin acu gur nós i gcónaí é corpais agus bailiúcháin éagsúla a thabhairt le chéile nuair atá corpas náisiúnta á thiomsú agus go bhfuil na 2 San áireamh sa líon mór focal seo bhí an 100 milliún focal a bhí sa British National Corpus (BNC), 100 milliún focal eile a tógadh ón Gigaword Corpus leis an Linguistic Data Consortium le toirt a chur leis na sonraí Béarla agus 25 milliún focal a tiomsaíodh as an nua ó fhoinsí digiteacha le hionadaíocht a dhéanamh ar Bhéarla na hÉireann. teicneolaíochtaí teanga atá ar fáil don teanga an-tábhachtach sa phróiseas seo.…”
Section: Comhthéacs An Taighdeunclassified
See 1 more Smart Citation
“…2 Is léir ó thionscadail chorpais a reáchtáladh i gcás teangacha Eorpacha eile gur cur chuige rathúil é corpas a thiomsú trí ábhar a bailíodh cheana a thabhairt le chéile agus ábhar nuabhailithe a chur leis. Go deimhin, feictear in Knight et al (2020aKnight et al ( , 2020b agus tionscadal corpais náisiúnta na Breatnaise (CorCenCC) idir chamáin acu gur nós i gcónaí é corpais agus bailiúcháin éagsúla a thabhairt le chéile nuair atá corpas náisiúnta á thiomsú agus go bhfuil na 2 San áireamh sa líon mór focal seo bhí an 100 milliún focal a bhí sa British National Corpus (BNC), 100 milliún focal eile a tógadh ón Gigaword Corpus leis an Linguistic Data Consortium le toirt a chur leis na sonraí Béarla agus 25 milliún focal a tiomsaíodh as an nua ó fhoinsí digiteacha le hionadaíocht a dhéanamh ar Bhéarla na hÉireann. teicneolaíochtaí teanga atá ar fáil don teanga an-tábhachtach sa phróiseas seo.…”
Section: Comhthéacs An Taighdeunclassified
“…teicneolaíochtaí teanga atá ar fáil don teanga an-tábhachtach sa phróiseas seo. Is corpas cothromaithe é CorCenCC (Knight et al 2020a(Knight et al , 2020b ar tiomsaíodh é don taighde ginearálta teangeolaíochta agus mar bhunús le ríomhuirlisí a fhorbairt. Sa chaoi go bhféadfaí CorCenCC a úsáid chuige seo ba ghá go bhfágfaí ábhar áirithe eile ar lár.…”
Section: Comhthéacs An Taighdeunclassified