Barrachd mun Mhion-sgrùdaiche

Dè as ciall dha na tagaichean?

Bheir iad seachad fiosrachadh gramataigeach nam faclan: m.e. ’s e gnìomhair san tràth làthaireach a th’ ann an ‘V-p’; ainmear-gnìomhach a th’ ann an ‘Nv’; ainmear iolra cumanta san tuiseal ainmneach a th’ ann an ‘Ncpfn’. Gheibhear iomradh air na tagaichean anns an fhaidhle, Scottish_Gaelic_Part-of-Speech_Annotatio.pdf, a tha mar phàirt de chorpas ARCOSG.

Fhuair mi an tag ‘Ncsmn’ airson eile; dè fon t-saoghal?

Chaidh an tagair a thrèanadh air corpas ARCOSG ’s e a’ cleachdadh mhodhan ionnsachaidh coimpiutaireach (le Conditional Random Fields). Tha an cur-a-mach, no toradh (‘output’) stèidhichte air cruth an fhacail, ach cuideachd air na faclan air gach taobh dhe. Tha mu 90.7% dhe na faclan air an tagadh gu ceart. Tha cuid eile dhiubh leth-cheart (m.e. nuair a bhios an tràth agus pearsa ceart, ach an gnè ceàrr) agus cuid eile buileach ceàrr. Glè thric, bidh mearachdan tagadh POS ceangailte ri rangan gràmair a tha doirbh ri ro-innse, m.e. gnè agus tuisealan. Tha am freumhachadh (lemmatisation) ga leasachadh fhathast. Uaireannan, feumaidh tu pàirt dhen obair a dhèanamh le làimh ma tha thu airson ’s gum bith e gun smal.

Dè th' anns an tagair shimplidh?

Chaidh an tagair bunaideach (‘default’) a thrèanadh air dreachd de ARCOSG a chleachd 246 tagaichean. Chaidh an tagair simplidh a thrèanadh air dreachd a chleachd 41 tagaichean a-mhàin. Ged nach toir an tagair simplidh an aon uiread a dh’fhiosrachadh seachad, tha a chruinneas (mu thuairme 95%) gu math tarraingeachd airson iomadh seòrsa obrach. Gheibhear tuairisgeul air na tagaichean a chleachdas e anns an ‘Annotation Guidelines Manual’ an seo: https://github.com/Gaelic-Algorithmic-Research-Group/ARCOSG-S.

Dè as ciall dha na tagaichean co-chàraidheil?

Bheir iad seachad fiosrachadh air faclan ann an seantans, m.e. tha nsubj a’ ciallachadh ‘noun-like subject’ agus amod a’ ciallachadh ‘adjective-like modifier’. Tha na tagaichean mar phàirt dhen Universal Dependencies Syntactic Tagset.

Dè as ciall dha na h-àireamhan an dèidh nan tagaichean?

Bheir iad seachad an uiread de dh’faclan ann an seantans air a bheil facal sònraichte an eisimeil. Ma gheibh thu ‘0’, chan eil am facal an eisimeil air dad: ’s e a th’ agad ach prìomh fhacal an t-seantans (.i. freumh na craoibhe eisimeilich). Tha am parsair stèidhichte air co-chàradh eisimeileach. Sin agad modail co-chàraidh anns a bheil faclan ann an seantans gan ceangail tro dhàimhean eisimeileach.

An leasaich sibh an tagair san àm ri teachd?

Tha dùil againn gun leasaich; tha adhartas ri dhèanamh fhathast. Na dhèidh sin, ’s ann a tha ag obair san ùine shaoir againn; chan fhaicear leasachadh seachdain mu seach idir. Ùrachaidh sinn duilleag nan atharraichean gu cunbhalach ge-tà, agus bheir sinn iomradh air leasaichean a thachras an sin.

A bheil e gu diofar ciamar a litricheas mi a’ Ghàidhlig? An fheumar litreachadh sònraichte a chleachdadh?

Ged a làimhsicheas Am Mion-sgrùdaiche sràcan de gach seòrsa, gabhar ris gu bheil teacsaichean gan litreachadh a-rèir GOC 2009, agus gu bheil an litreachadh ceart. Tha caochladh ghoireasan rim faighinn an asgaidh air an eadar-lìon. Seo a dhà dhiubh:

Ciamar a chuireas mi faidhle chun a’ mhion-sgrùdaiche?

An toiseach, stàllaich cURL.

Nuair a bhios cURL a’ ruith, cuir a-staigh an t-iarrtas a leanas anns an loidhne iarrtais (‘command line’) – NB: tha seo a’ gabhail ris bheil thu ag iarraidh sgrùdadh a dhèanamh air text.txt (meud cuingichte aig 100 kb) agus gu bheil thu iarraidh an t-ainm text.ann.txt air an toradh (‘output’):

curl -X POST -H "Content-Type: text/plain" --data-binary "@text.txt" https://klc.vdu.lt/gaelic_tagger/tagger -o "text.ann.txt"

Bidh faiceallach: feumaidh an faidhle tùsail (text.txt, no ainm sam bith eile) a bhith sa phasgan (‘folder’) a tha a’ cleachdadh le cURL, air neo bidh agad ri na slighean a shònrachadh. Nochdaidh na toraidhean (e.g. text.ann.txt) san aon phasgan.

Agus mas fheàrr leat na toraidhean simplidh, dìreach cuir thugainn an teachdaireachd cURL a leanas:

curl -X POST -H "Content-Type: text/plain" --data-binary "@text.txt" https://klc.vdu.lt/gaelic_tagger/simple_tagger -o "text.ann.txt"

A bheil an t-seirbhis lìn a’ ruith?

Feuch an t-iarrtas a leanas:

curl https://klc.vdu.lt/gaelic_tagger/hello

Ma fhuair thu freagairt, tha an t-seirbhis a’ ruith.

Dè na roghainnean anailis eadar-dhealaichte le cURL?

Tagair le às-chur aotrom inghearach: curl -X POST -H "Content-Type: text/plain" --data-binary "@text.txt" https://klc.vdu.lt/gaelic_tagger/tagger -o "text-ann.txt"

Tagair le às-chur CoNLL-U: curl -X POST -H "Content-Type: text/plain" --data-binary "@text.txt" https://klc.vdu.lt/gaelic_tagger/tagger_conllu -o "text-ann.conllu"

Tagair le tagset simplidh, às-chur aotrom inghearach a-mhàin: curl -X POST -H "Content-Type: text/plain" --data-binary "@text.txt" https://klc.vdu.lt/gaelic_tagger/simple_tagger -o "text-ann.txt"

Tagair agus parsair le às-chur aotrom inghearach: curl -X POST -H "Content-Type: text/plain" --data-binary "@text.txt" https://klc.vdu.lt/gaelic_tagger/parser -o "text-ann.txt"

Tagair agus parsair le às-chur CoNLL-U: curl -X POST -H "Content-Type: text/plain" --data-binary "@text.txt" https://klc.vdu.lt/gaelic_tagger/parser -o "text-ann.conllu"

Dè th’ ann an CoNLL-U?

’S e th’ ann an CoNLL-U ach fòrmat taba (.i. ‘tabbed format’) a chleachdar gu cumanta airson nòtachadh cànanachais.