Diweddariadau ar ein gwaith ar dechnoleg ac AI Cymraeg.
Cynnwys
Trosolwg
Rŷn ni wedi treulio’r blynyddoedd diwethaf yn creu llawer o bethau i’w gwneud hi’n haws i ddefnyddio technoleg yn Gymraeg.Dyma ein blaenoriaethau ar gyfer technoleg Cymraeg:
- technoleg fel ffordd o gynyddu’r defnydd dyddiol o’r Gymraeg
- sicrhau bod pawb yn gallu cael at dechnoleg Cymraeg
- gwella deallusrwydd artiffisial (AI) Cymraeg a thechnolegau lleferydd (drwy rannu data a ffyrdd eraill)
Dyma’r datganiad gyhoeddodd Ysgrifennydd y Cabinet dros Gyllid a’r Gymraeg ar 7 Ionawr 2025 ar ein blaenoriaethau ar gyfer technoleg Cymraeg.
Byddwn ni’n parhau i gyhoeddi diweddariadau ar y dudalen hon.
Diweddariadau technoleg Cymraeg
Prifysgol Bangor
- Casglu dros 440,000 segment o dudalennau gwe agored Cymraeg a Saesneg cyfatebol a'u halinio. Dyma ddata hyfforddi gwerthfawr a chofion TMX defnyddiol i gyfieithwyr.
- Hyfforddi model AI agored, ar sail Llama 3 gan Meta.
- Defnyddio cofau cyfieithu i wella ei berfformiad yn Gymraeg, mewn tasgau cyffredinol a thasgau cyfieithu.
- Gwella eu model lleferydd i destun Trawsgrifiwr.
- Creu lleisiau artiffisial Cymraeg newydd gyda meddalwedd PiperTTS. Mae'r lleisiau nawr yn perfformio'n well gyda geiriau byr a brawddegau hir.
- Er mwyn hybu hygyrchedd, creu gwefan newydd Trosleisio. Gelli di ddefnyddio lleisiau synthetig i drosleisio fideos Cymraeg.
- Diweddaru eu peiriant deallusrwydd artiffisial Macsen i gynnwys sgiliau chwilio'r we gan ddefnyddio dy lais. Gelli di hefyd ei ddefnyddio i sillafu geiriau Cymraeg fel 'llaeth' yn gywir. Mae yna fideo ar sianel YouTube Techiaith.
- Creu ap bysellfwrdd llais arbrofol ar Android fel y gelli di ddefnyddio'r Adnabod Lleferydd yn ogystal â theipio. Dyma fideo iti lawrlwytho.
- Creu lleisiau newydd Microsoft SpeechT5 lle gelli di eu defnyddio i glonio dy lais.
- Cyhoeddi diweddariad i’r Brawddegau Hyfforddi Tagiedig, gan barhau i ganolbwyntio ar frawddegau mwy llafar neu anffurfiol o’r gwaith trawsgrifio. Maen nhw wedi tagio rhannau ymadrodd dros 200 o frawddegau ychwanegol a’u hychwanegu i’r data.
- Parhau i ‘gorynnu’ ar draws y we yn chwilio am ddata Cymraeg. Dyma restr o’r cyfeiriadau gwe sydd gyda chynnwys o dan drwydded agored.
- Ychwanegu data testun newydd at eu corpws "CC0" ac ehangu ei gwmpas i gynnwys data dan drwyddedau caniataol eraill .
- Anodi enwau endidau 400 brawddeg. Gelli di eu defnyddio gyda Chysylltu Gwybodaeth (Knowledge Linking).
- Gwella adnabod iaith model testun-i-leferydd Whisper.
Data llais Cymraeg
Cafodd cwmni Cymen grant Arfor i gynhyrchu a chyhoeddi data llais Cymraeg newydd dan drwydded ganiataol. Maen nhw wedi trawsgrifio a gwirio tua 40 awr.
Mae Prifysgol Bangor wedi trawsgrifio rhagor o ddata sain yn y flwyddyn ddiwethaf. Erbyn Awst 2025, mae yna 52 awr o ddata yn y casgliad yna.
Bellach (Awst 2025) mae yna 249 awr o sain Cymraeg wedi ei drawsgrifio, gwirio ac ar gael fel data hyfforddi, gan gynnwys:
- 124 awr Common Voice
- 45 awr Banc Trawsgrifiadau Bangor
- 40 awr Cymen Arfor
- 40 awr Paldaruo (ers 2018)
Prifysgol Caerdydd
- Wedi cyhoeddi SENTimental: offeryn i gasglu anodiadau i greu data hyfforddi a phrofi dadansoddi sentiment Cymraeg. Adeiladwyd gyda Phrifysgol Caerhirfryn.
Llywodraeth Cymru
- Cyhoeddodd tîm Cymraeg 2050 erthygl Technoleg i helpu pobl i ddefnyddio mwy o Gymraeg.
- Ymddangosodd yr Ysgrifennydd Cabinet dros Gyllid a’r Gymraeg gerbron Pwyllgor Diwylliant, Cyfathrebu, y Gymraeg, Chwaraeon, a Chysylltiadau Rhyngwladol y Senedd ar 16 Gorffennaf 2025. Cymerodd ran yn Ymchwiliad “Cymraeg i bawb?” y Pwyllgor. Roedd technoleg a’r Gymraeg yn rhan o’r drafodaeth. Dyma’r papur tystiolaeth y gwnaethon ni ei gyflwyno i’r Pwyllgor, a dyma fideo o’r sesiwn.
- Mae tîm Seilwaith y Gymraeg Llywodraeth Cymru wedi cyhoeddi gwefan sy’n ateb y cwestiwn Beth yw’r gair Cymraeg am...?
- Fe wnaethon ni ddiweddaru ac ehangu ein rhestr offer ac adnoddau Helo Blod i gynnwys adran benodol ar gyfer rhieni a gofalwyr.
Enwau lleoedd a mapio
Llyfrgell Genedlaethol Cymru
- Wedi defnyddio offer adnabod endidau enwol Cymraeg Prifysgol Bangor ac offer AI eraill i ddatblygu piblinell brototeip. Mae'n adnabod a thynnu enwau lleoedd Cymraeg o destun OCR a’u halinio ag endidau Wikidata af fas-ddata SNARC (Semantic Name Authority Repository Cymru).
- Wedi cyhoeddi erthygl yn crynhoi sut mae eu gwaith gydag enwau lleoedd wedi helpu i lunio gwefan enwau lleoedd newydd Comisiynydd y Gymraeg.
- Cefnogi’r gwaith o ddatblygu gwefan newydd Enwau Lleoedd Safonol Comisiynydd y Gymraeg.
- Rhannu rhestr o dros 10mil o enwau Cymraeg sydd ar Wikidata er mwyn i Mapio Cymru allu eu hychwanegu nhw at y map Cymraeg.
- Cynnal digwyddiad efo Comisiynydd y Gymraeg a Pharc Eryri ym Mai 2025 i gasglu clipiau sain a delweddau o leoedd yn y parc.
- Alinio data newydd am Enwau safonol o Barc Eryri i Wikidata a rhannu efo Comisiynydd y Gymraeg.
- O ran metadata, ym myd Wikidata, mae’r Llyfrgell wedi creu’r labeli Cymraeg newydd am 11,264 o enwau adeiladau. Mae’r data ar gael yn gyhoeddus trwy Wikidata a SNARC.
- Cynnal digwyddiadau ar themâu Wicipedia a data agored. Y gyntaf oedd digwyddiad golygu efo Prifysgol Aberystwyth ar 16 Hydref 2024. Ac wedyn aethon nhw ymlaen i gynnal Hacathon Hanes. Dyma erthygl am rai o'r uchafbwyntiau.
Mapio Cymru
Mae Mapio Cymru wedi cyhoeddi canllaw ar sut i roi enwau strydoedd Cymraeg ar fap Cymraeg Open Streetmap.
