Latento Dirihlē sadalījumu modeļa izmantojums laikraksta Latvijas Kareivis tematu analīzē: Oskara Kalpaka gadījuma izpēte

2022, Letonica

150 10.35539/LTNC.2022.0047.A.B.V.S.150.167 Latento Dirihlē sadalījumu modeļa izmantojums laikraksta Latvijas Kareivis tematu analīzē: Oskara Kalpaka gadījuma izpēte Anda Baklāne, Valdis Saulespurēns Publikācija tapusi Valsts pētījuma programmas "Humanitāro zinātņu digitālie resursi" projektā "Humanitāro zinātņu digitālie resursi: integrācija un attīstība" (Nr. VPP-IZM-DH-2020/1-0001). Letonica 47 2022 Atslēgvārdi: tematu modelēšana, digitalizētie laikraksti, digitālā vēsture, tematu koherence, Latvijas Nacionālā bibliotēka 151 Ievads Jau kopš 1999. gada Latvijas Nacionālā bibliotēka (LNB) veic vēsturisko laikrakstu, grāmatu, attēlu, audio un video kolekciju digitalizāciju (Krūmiņa 2012; Zariņš 2014). Teksta kolekcijām tikusi pievērsta vislielākā vērība; tiek lēsts, ka digitalizēto laikrakstu kolekcijas ietver vairāk nekā 80 % periodikas materiālu, kas publicēti līdz 20. gadsimta 90. gadu vidum1. Materiāli tikuši segmentēti un optiski atpazīti, tādējādi to lietotāji var izmantot iespējas, kuras sniedz iespēja meklēt vārdus pilnajā tekstā. Tomēr, sekojot valodas tehnoloģiju attīstībai un pašreizējām tendencēm digitālo humanitāro zinātņu izpētē, pastāv pieprasījums pēc jaunu pakalpojumu izveides, kas sniegtu vēl vairāk iespēju padziļinātai teksta dokumentu izpētei (Ehrmann et al. 2020; Ūdre et al. 2019). Šajā rakstā gadījuma izpēte veikta ar mērķi pētīt un pārbaudīt, kā automātiskas tematu noteikšanas metodes varētu tikt izmantotas LNB digitalizēto periodisko izdevumu kolekciju pārlūkošanā un izpētē. Tematu noteikšana (topic detection) jeb tematu modelēšana (topic modelling) bijusi viena no biežāk izmantotajām teksta digitālas analīzes tehnikām sociālajās un humanitārajās zinātnēs 21. gadsimta pirmajās desmitgadēs, savukārt latento Dirihlē sadalījumu (latent Dirichlet allocation, LDA) metodoloģija – viena no biežāk izmantotajām tematu noteikšanas metodēm; tātad LDA jau ir labi izprasta un pārbaudīta dažādos lietojumgadījumos. LDA izmantojums vēsturisko laikrakstu kolekciju pētniecībai latviešu valodā tomēr uzskatāms par novatorisku. Dabīgās valodas apstrādes tehnoloģijas visstraujāk attīstījušās lielajās valodās, savukārt mazās valodās ar sliktu valodas tehnoloģiju un resursu nodrošinājumu jauninājumi tiek ieviesti novēloti (Abney 2010). Saskaņā ar META-NET aplēsi 2012. gadā latviešu valodas atbalsts teksta un valodas apstrādes uzdevumu veikšanai tika vērtēts kā nepilnīgs vai neesošs (Skadiņa et al. 2012). Laikā, kad top šī publikācija, ir pieejami daudzi no dabīgās valodas apstrādes resursiem un rīkiem, kas 2012. gadā vēl nebija izstrādāti, to vidū apjomīgi anotēti korpusi2, latviešu valodas teksta automātiskas morfoloģiskas un sintaktiskas marķēšanas rīki3, tiek veidota latviešu valodas leksēmu semantisko Letonica 47 1 Latvijas Nacionālās digitālās bibliotēkas Periodikas portāls. Pieejams: http://www.periodika.lv/ [skatīts 18.06.2022.]. 2 Latviešu valodas teksta un runas korpusi. Pieejams: korpuss.lv [skatīts 18.06.2022.]. 3 NLP-PIPE: Latvian NLP Pipeline as a Service. Pieejams: http://nlp.ailab.lv/ [skatīts 18.06.2022.]. Latento Dirihlē sadalījumu modelis tematu analīzē 2022 152 attiecību datubāze WordNet4. Tomēr, attīstoties jaunām tehnoloģijām, piemēram, vārdlietojumu kartēšanai (word embeddings) un īpaši lielu valodas modeļu veidošanai, valodas, kurām vēsturiski bijis zems tehnoloģiju un valodas resursu nodrošinājums, joprojām atpaliek (Alabi et al. 2020). 24 oficiālo Eiropas Savienības valodu vidū 15 valodas (t. sk. latviešu valoda) var tikt uzskatītas par valodām ar nepietiekamu resursu nodrošinājumu (Alves et al. 2020). Šajā publikācijā aplūkotais pētījums ir pirmais LDA metodoloģijas izmantojums latviešu vēsturisko laikrakstu analīzē5 un kopumā viens no pirmajiem LDA izmantojumiem, analizējot tekstu latviešu valodā6. Dabīgās valodas apstrādes tehnoloģiju ieviešana vēsturisko dokumentu kolekcijās saistīta ar dažādiem šķēršļiem, ar kuriem nenākas saskarties, analizējot digitāli radītas, liela apjoma, stilistiski viendabīgas un standartizētas teksta datu kopas. Digitalizētu senu tekstu kopas nereti ietver relatīvi mazus korpusus, kas nav viendabīgi un līdzsvaroti, tādējādi ierobežojot mašīnmācīšanās metožu izmantošanas iespējas (McGillivray 2021). Laika posms no 19. gs. otrās puses līdz 20. gs. sākumam jau piedāvā salīdzinoši bagātīgu teksta dokumentu klāstu, taču digitālo analīzi apgrūtina dažādi vārdu pieraksta varianti, ar ortogrāfijas reformām saistītās rakstības izmaiņas un optiskās atpazīšanas kļūdas (Bollmann 2019). Oskara Kalpaka gadījuma izpēte apliecina, ka šī problemātika aktuāla, arī analizējot digitalizēto laikrakstu kolekcijas latviešu valodā. Rakstā sadaļā “LDA metodoloģija humanitāro zinātņu pētniecībā” skaidrots LDA jēdziens, aplūkotas atšķirīgas pieejas LDA rezultātu interpretācijā un iezīmēti vairāki scenāriji, kā tematu modeļus varētu integrēt digitalizēto laikrakstu kolekciju saskarnēs. Sadaļā “Datu kopa” atrodama informācija par izmēģinājumā izmantotās datu kopas parametriem un datu atlases pamatojums. Sadaļā “Gadījuma izpētes rezultāti” izklāstīti un interpretēti datu modeļa apmācības rezultāti. Secinājumu daļā apkopotas pētījuma gaitā gūtās atziņas un norādīti iespējamie turpmākie soļi. LDA metodoloģija humanitāro zinātņu pētniecībā Tematu modelēšanas metodoloģijas ietver dažādas dabīgās valodas apstrādes un mašīnmācīšanās tehnikas, kas tiek izmantotas, lai atrastu liela apjoma dokumentu kolekcijās ietvertas satura struktūras jeb tematus. Tematu modelis ir matemātiskas varbūtības sadalījums no kādas dokumentu kolekcijas izgūtā vārdu kopā, kas paredz, kādiem tematiem pieder šie vārdi un kuri temati ir klātesoši katrā dokumentā. 4 Latvian WordNet. Pieejams: https://wordnet.ailab.lv/ [skatīts 18.06.2022.]. 5 Provizoriskie Oskara Kalpaka gadījuma izpētes rezultāti aplūkoti rakstā: Baklāne, Saulespurēns 2022. 6 R. Vīksna, M. Kirikova un D. Kiopa veikuši Latvijas tiesību aktu tematu analīzi (kopumā vairāk nekā 50 000 dokumentu). Pētījumā salīdzinātas trīs tematu analīzes metodes, t.sk. LDA (Vīksna et al. 2020). Letonica 47 Latento Dirihlē sadalījumu modelis tematu analīzē 2022 153 Tematu modeli lietotājs parasti var aplūkot kā vārdu sarakstus, kuros katram vārdam piešķirta atbilstošā varbūtības vērtība. Tiek sagaidīts, ka šiem vārdu sarakstiem jābūt semantiski saskanīgiem, taču ne visi tekstu žanri un ne visas dokumentu kolekcijas var kalpot par pamatu tematiski vienotu vārdu sarakstu radīšanai. Piemēram, mākslinieciski teksti vai neviendabīgas kolekcijas, kurās sajaukti dažāda garuma un dažādu žanru teksti, var nenodrošināt pamatu saskanīgu un viegli interpretējamu atslēgvārdu sarakstu veidošanai. Tomēr arī neviennozīmīgi interpretējami vārdu saraksti var tikt izmantoti korpusu izpētes vajadzībām, t. i., tematu modelēšanas algoritmu darba rezultāti var tikt izmantoti, ne vien lai lakoniski un nepārprotami atspoguļotu saturu, bet arī plašāk – lai vizualizētu, pētītu, izvirzītu hipotēzes par korpusu (Blei 2012). Latento Dirihlē sadalījumu metode tematu atrašanai pirmo reizi aplūkota publikācijā 2003. gadā (Blei et at. 2003) un pašlaik tiek uzskatīta par vienu no biežāk izmantotajām tematu modelēšanas tehnikām (Marjanen et al. 2020; Pääkkönen, Ylikoski 2020). LDA ir varbūtības modelis, kas balstīts divos pieņēmumos: (1) pastāv noteikts skaits dotajos dokumentos bieži kopā lietotu vārdu kopumu (tematu); (2) katrs dokuments korpusā var saturēt vairākus tematus dažādās nozīmīguma pakāpēs (Blei 2012). Formāli LDA var definēt kā varbūtības P(θ1:M,z1:M,β1:k | D;α1:M,η1:k) atrašanu. Tas nozīmē kopīgas varbūtības atrašanu M dokumentiem ar šādiem nezināmajiem: θ – tematu sadalījums pa vienam uz katru dokumentu; z – temati katrā dokumentā; β – vārdu sadalījums katrā tematā, k – kopējais tematu skaits visos dokumentos. Kā kopēja dotā varbūtība ir dots korpuss D un parametri: α – parametru vektors katram dokumentam, η – parametru vektors katram tematam. Šādu varbūtību nevar atrisināt ar standarta aritmētiskām metodēm (Blei et al. 2003). LDA atrisina šo varbūtību ar iteratīvu algoritmu, kas turpina modeļa apmācību, līdz tiek sasniegts zināms konverģences līmenis. Varbūtiskās tematu modelēšanas lietojums var atšķirties atkarībā no pētniecības jomas un pētnieka mērķiem. Kopš 2003. gada tikuši veikti daudzi pētījumi, kuros LDA metodoloģija un tās atvasinājumi izmantoti, lai veidotu tematu modeļus zinātnisku publikāciju kolekcijām (Blei, Lafferty 2007; Newman et al. 2006; Hall et al. 2008), kā arī lai pētītu vēsturiskos laikrakstus un žurnālus (Block 2006; Nelson 2011; Templeton et al. 2011; Hengchen 2017). Spriežot pēc piemēriem, kurus piedāvā varbūtisko tematu modelēšanas metožu izstrādātāji, metode primāri tikusi veidota lietišķu teksta žanru, nevis daiļliteratūras izpētei, taču laika gaitā tikusi analizēta arī mākslinieciskā proza un dzeja (Rhody 2012). Koherentu, uzticamu tematu izveide, lai tos varētu izmantot lielu akadēmisku publikāciju repozitoriju vai ziņu avotu digitālo kolekciju izpētē, ir viens no virzieniem, kas mērķtiecīgi tiek attīstīts tematu modelēšanas jomā (Chang 2009). Akadēmisko repozitoriju kontekstā neiederīgo vārdu (intrusion words) klātbūtne un tematu sajaukšanās (mixing of topics) ir nevēlama, jo mazina lietotāju paļāvību, ka modelis darbojas pareizi. Turpretī, pētot literāru darbu datus, temati nereti nav viegli interpretējami, semantiski saistītu atslēgvārdu saraksti, tomēr tie netiek noraidīti, jo var sniegt cita veida informāciju par darbu leksiku un stilistiku. Literatūras pētnieku vidū sastopams viedoklis, ka literāru tekstu izpētē ambivalenti temati var sniegt pat vairāk informācijas nekā viennozīmīgie tematu saraksti, kuriem priekšroku dotu vēsturnieki: Letonica 47 Latento Dirihlē sadalījumu modelis tematu analīzē 2022 154 gadījumos, kad vārdu saraksti neveido tematiskas satura vienības, kas apraksta konkrētu referentu, tie var reprezentēt diskursu, sociolektu vai noteiktu poētiskās retorikas veidu (Underwood 2012). Citiem vārdiem sakot, tematu modelis var tikt izmantots, ne vien lai noskaidrotu, par ko cilvēki raksta, bet arī to – kā viņi raksta (Goldstone 2012). Pieeja, kurā uz tematu saprotamību un semantisko saskanīgumu tiek likts mazāks uzsvars, pazīstama ne vien daiļliteratūras, bet arī vēstures avotu pētniecībā. Daudzos gadījumos modelēšanas rezultāti ir neviennozīmīgi un grūti interpretējami, un daži pētnieki uzsver, ka, lai arī tematu modelēšanas rezultāti ne vienmēr izmantojami kā lietošanai gatavi pierādījumi par kāda tekstu kopuma tematisko aptvērumu, tie tomēr ir lietderīgs palīglīdzeklis teksta izpētes procesā (Brett 2012). Tematu modelis var vērst uzmanību uz tēmām, kas varējušas palikt nepamanītas kvalitatīvas analīzes procesā, jo nav iespējams izlasīt visus tekstus vai izlasīt tos vienlīdz uzmanīgi (Kurvinen 2020). Tādējādi, īpaši vēsturisko un literāro avotu analīzē, tematu modeļi var papildināt hermeneitikas un tuvlasījuma pētniecības metodes, savukārt, veicot digitālu kvantitatīvu pētījumu, būtiska var būt iespēja atgriezties pie pirmavota, lai novērtētu modeļa atbilstību vai labāk izprastu, kā interpretēt rezultātus (Rhody 2012; Kurvinen 2020; Viola, Verheul 2019). Minētās pieejas tematu analīzei var klasificēt kā tematu reālismu (topic realism) un tematu instrumentālismu (topic instrumentalism). Tematu reālisms ir skatījums, kurā tiek atzīts, ka modelēšanas process var tvert reprezentācijas vai teorētiskus konstruktus (rāmējumus, diskursus, naratīvus), kas reāli eksistē tekstos. Savukārt tematu instrumentālisms ir skatījums, kurā tiek atzīts, ka modeļi vienkārši sniedz informāciju par sakarībām, kas var būt noderīgas tekstu interpretācijā, neizvirzot prasību nonākt pie precīza un patiesa teksta satura realitātes atspoguļotāja modeļa (Pääkkönen, Ylikoski 2020). Tātad ne visu veidu teksti vienlīdz labi pakļaujas mēģinājumiem formalizēt to saturu, lakoniski iekodēt jēgu dažos nozīmīgos vārdos. Tomēr neapšaubāmi tematu kvalitāte ir atkarīga arī no pārdomātas datu atlases, no teksta priekšapstrādes kvalitātes un apmācības parametriem, kas uzstādīti modelim (Wallach et al. 2009). Proti, ne katrs modelis ir uzskatāms par metodoloģiski korekti izveidotu pat tādā gadījumā, ja sniedz iedvesmojošas idejas pētniekam. Šajā rakstā skatītā piemēra izstrādes procesā tika apsvērti vairāki scenāriji, kā LDA metodoloģija var tikt izmantota vēsturisko laikrakstu digitālās bibliotēkas izpētē. Pirmkārt, tematu modeļa apmācībai un pielāgošanai varētu tikt izmantots viss LNB digitalizētās periodikas krājums, izveidojot tematiskus blokus, kas papildinātu periodikas portāla pārlūkošanas funkcionalitāti un piedāvātu ieteikumus lietotājiem. Otrkārt, varētu tikt apmācīti un pielāgoti vairāki modeļi dažādiem LNB periodisko izdevumu segmentiem – atsevišķiem izdevumiem, izdevumu veidiem vai laika periodiem, integrējot šo informāciju kā periodikas portāla papildu funkcionalitāti. Treškārt, papildus tradicionālajiem digitālās bibliotēkas pakalpojumiem varētu tikt izveidota atsevišķa saskarne, kas ļautu lietotājam pašam atlasīt datus korpusa izveidei un veidot tematu modeli šim korpusam. Šāda pieeja sniegtu iespēju analizēt arī tikai, piemēram, kādai konkrētai tēmai vai personai veltītus materiālus. Oskara Kalpaka gadījuma izpētē lielā mērā izmantoti trešā scenārija elementi, taču piemērs sniedz noderīgas atziņas arī pārējo scenāriju īstenošanai. Letonica 47 Latento Dirihlē sadalījumu modelis tematu analīzē 2022 155 Tematiska korpusa izveidei ir gan priekšrocības, gan trūkumi. No vienas puses, iepriekšēja atlase ļauj daudz detalizētāk izpētīt konkrētu interesējošo tematu. Tā, piemēram, izveidojot tematu modeli visam Latvijas Kareivja korpusam, tikai viens no 50 tematiem saturēja vārdu “kalpaks”, savukārt Oskara Kalpaka apakškorpusā modelis ar augstāko koherences rādītāju ietver sešus tematus. No otras puses, jāpatur prātā, ka tematiska apakškorpusa izmantojums ir ierobežots, ļauj secināt tikai sākotnēji izvēlētā temata ietvaros. Izpēte, kas veikta, analizējot visu laikraksta numuru komplektu vai varbūtīgu izlasi, uzskatāma par lielākā mērā datu virzītu (data driven), savukārt iepriekšēja tematu atlase var palielināt pētnieka subjektivitātes (t. sk. iepriekš pieņemtu spriedumu un aizspriedumu) ietekmi modeļu veidošanā. Oskara Kalpaka gadījuma izpētē netika ņemta vērā tematu modelēšanas laika dimensija. LDA pamata metode neņem vērā laika aspektu, t. i., laiks nav iekļauts modelī kā mainīgais, taču humanitāro zinātņu pētniecībā bieži ir nepieciešamība pētīt arhīvus un bibliotēkas, kuru materiāli publicēti vairāku gadu desmitu vai pat simtu gaitā (Marjanen 2020). Lai mazinātu šī ierobežojošā faktora ietekmi, datu kopa var tikt sadalīta secīgos segmentos, apmācot atsevišķu modeli katram segmentam. Papildinot LDA, ir tikušas izstrādātas arī citas tehnikas, kas ņem vērā laika dimensiju, piemēram, dinamisko tematu modeļu metode (dynamic topic models) (Blei, Lafferty 2006). Datu kopa Gadījuma izpētei izmantots laikraksta Latvijas Kareivis korpuss un no tā atvasināts Oskara Kalpaka apakškorpuss. Latvijas Kareivis ir oficiālais Latvijas Bruņoto spēku štāba dienas laikraksts, kas tika izdots no 1920. līdz 1940. gadam (Pētersone 1999). Līdz 1925. gadam tas tika iespiests vecajā drukā, vēlāk pāriets uz jauno ortogrāfiju. Ortogrāfijas nekonsekvence, pakāpeniskas izmaiņas un rakstības reformas ir grūtības, ar kurām bieži jāsastopas vēsturisko laikrakstu pētniekiem. Lai neradītu papildu nenoteiktību izmēģinājumu korpusā, pētījumā tika izmantota tikai Latvijas Kareivja modernajā ortogrāfijā iespiestā daļa. No kopējās datu kopas tika atlasīts apakškorpuss – raksti, kas satur vārdu “kalpaks”. Pulkvedis Oskars Kalpaks (1882–1919) bija Latvijas Pagaidu valdības bruņoto spēku komandieris, Landesvēra latviešu vienību un Pirmā atsevišķā latviešu bataljona komandieris (Jēkabsons 2022), kurš tiek uzskatīts par vienu no Latvijas armijas pamatlicējiem. Veicot gadījuma izpēti, hipotētiski tika pieņemts, ka ar Kalpaka vārdu varētu būt saistīti vairāki temati un tiem varētu būt mainīga aktualitāte analizētajā laika periodā. Atslēgas vārds “kalpaks” ļauj pārbaudīt arī vārdu daudznozīmības problēmas ietekmi: korpusā pieminēts Kalpaka bulvāris, Kalpaka iela, Kalpaka tilts, kas vairumā kontekstu nav tieši saistīti ar Oskara Kalpaka tematiku. Tajā pašā laikā uzvārds “Kalpaks” ir salīdzinoši rets, tādējādi nerada papildu sarežģījumus izmēģinājuma modeļa veidošanas procesā. Darba gaitā, pirmkārt, tika izveidots tematu modelis visam Latvijas Kareivja korpusam, otrkārt, atsevišķs tematu modelis Oskara Kalpaka apakškorpusam – pēdējais tika analizēts sīkāk. Letonica 47 Latento Dirihlē sadalījumu modelis tematu analīzē 2022 156 Latvijas Kareivja korpuss satur 55,9 milj. vārdformu; Oskara Kalpaka apakškorpuss satur 1,3 milj. vārdformu. Korpusa dati ir segmentēti rakstu līmenī, tomēr rubrikas, kas satur īsas ziņas un paziņojumus, segmentēšanas procesā tikušas konsolidētas, veidojot sadaļas, kas ietver vairākas tēmas. Teksta segmentēšanas īpatnības vai kļūdas teorētiski var kļūt par šķērsli koherenta tematu modeļa izveidei, taču, šķiet, šajā gadījumā īso ziņu savienošana nav radījusi nevēlamu ietekmi. Konsolidētās rubrikas satur daudz vienādu vārdu, saīsinājumu un skaitļu, tādējādi algoritms šos tekstus grupēja vienkopus kā atsevišķu tematu – šādi automātiski tika nošķirts materiāls, kas nesatur izvērstus pārspriedumus par tēmām, kas saistītas ar Oskara Kalpaka dzīves gaitu vai piemiņas pasākumiem. Tas vedina domāt, ka tematu modelis var būt noderīgs instruments arī pētāmā materiāla atlases un filtrēšanas procesā – lai atbrīvotos no liekajiem datiem. Vienlaikus bija novērojams, ka dažkārt atsevišķi garāki raksti savienoti kopā kļūdas dēļ: šiem tekstiem raksturīgi augsti vairāku tematu procentuālie rādītāji (tā vietā, lai izteikti dominētu viens temats). Korpuss tika lemmatizēts, izmantojot dabīgās valodas apstrādes rīku ķēdi NLP-PIPE (Znotiņš, Cīrule 2018). Sākotnējā korpusa vārdnīca tika samazināta, atmetot vārdlietojumus, kas satur tikai vienu simbolu, – šis solis ļāva samazināt arī optiskās atpazīšanas kļūdu ietekmi. Var argumentēt, ka vārdlietojumi, kas satur tikai divus simbolus, arī var tikt atmesti, jo to vidū nav semantiski nozīmīgu vārdu, tomēr Kalpaka gadījuma izpēte parādīja, ka vismaz atsevišķos gadījumos divciparu skaitļiem bija sava loma jēgpilnas dokumentu grupēšanas procesā. Gadījuma izpētes rezultāti Gadījuma izpēte tikai veikta, izmantojot Python atvērtā koda bibliotēku Gensim7. Uzstādot modeļa apmācības parametrus, izmantoti sistēmas noklusējuma parametri un ņemti vērā Gensim izstrādātāju ieteikumi (Řehůřek, Sojka 2010). Tematu veidošanai izmantotais vārdu krājums (vārdnīca) tikai veidots, ņemot vērā atsevišķus vārdus, bigramas un trigramas; izmantots bag-of-words modelis (t. i., nav ņemta vērā vārdu secība); izveidotā vārdnīca sastāv no 5030 tekstvienībām. Sekojot Gensim izstrādātāju ieteikumiem, vārdnīcā tika iekļautas tekstvienības, kas lietotas vismaz 20 reižu, un netika iekļautas tekstvienības, kas sastopamas vairāk nekā 50 % dokumentu (attiecīgi vārdnīcā iekļūst maz bieži lietoto vārdu bez patstāvīgas nozīmes). Katrs LDA modelis tika apmācīts 400 iterāciju (iterations), 20 epohu (epochs) gaitā. Optimāla tematu skaita kalkulācijas balstītas (CV) koherences mērījumā. Koherences mērījumi (coherence measurements) tiek izmantoti, lai novērtētu izvēlēto tematu modeļu precizitāti – piemēram, lai noteiktu, kāds tematu skaits jāizvēlas, lai 7 Gensim: Topic Modelling for Humans. Pieejams: https://radimrehurek.com/gensim/ Letonica 47 Latento Dirihlē sadalījumu modelis tematu analīzē 2022 157 veidotos koherents modelis. Šie mērījumi raksturo modeļa izvēlēto tematu saturošo vienību saskaņotību jeb vienota veseluma veidošanu starp šīm vienībām (t. i., cik lielā mērā kādā tematā ietilpstošie vārdi ir savstarpēji saistīti). Modeļu novērtēšanai tika izmantoti vairāki iepriekš zināmi un dotajā darba vidē (Gensim bibliotēkā) pieejami koherences mērījumi; šajā rakstā izmantoti (CV) koherences rādītāji. (CV) mērījums ir balstīts slīdošā loga (moving window) principā – apstrādājot kādu tematu pa segmentiem un virzoties uz priekšu pa vienam vārdam. Tiek segmentēti visbiežāk sastopamie vārdi, aprēķināta konkrētā termina atrašanas varbūtība, un izveidots mērījuma apstiprinājums; visbeidzot tiek izveidots apstrādāto segmentu (logu) rezultātu kopsavilkums. Kā parādīts pētījumos, augstākie (CV) koherences rādītāji lielā mērā sakrīt ar cilvēku subjektīvo tematu kvalitātes novērtējumu (Röder et al. 2015). Oskara Kalpaka tematu modelī augstākais (CV) rādītājs – 0,61 – tika sasniegts Oskara Kalpaka apakškorpusa modelim, kas sastāv no sešiem tematiem. Šī raksta autori subjektīvi izvērtēja četru, piecu un sešu tematu modeļu kvalitāti. 0,61 nav uzskatāms par īpaši augstu modeļa koherences rādītāju, un arī subjektīvā vērtējumā nevarēja apgalvot, ka visi apakškorpusa raksti pārliecinoši tika sagrupēti pa tematiem. Piemēra izstrāde bija balstīta hipotētiskos pētnieciskos jautājumos: kādi temati ir saistīti ar Oskara Kalpaka vārdu laikrakstā Latvijas Kareivis laika posmā no 1925. līdz 1940. gadam? Kādos kontekstos tiek minēts Kalpaka vārds? Cik daudz dažādu tematu ir saistīti ar Kalpaku? Kā šo tematu popularitāte mainās laika gaitā? Pārlūkojot Latvijas Kareivja korpusa 50 tematu modeli (tematu izlasi skat. 1. tabulā), varam secināt, ka tajā spilgti iezīmējas temati, kas saistīti, piemēram, ar sportu, izglītību, transporta pārvadājumiem. Lielā skaitā atrodami temati, kas satur valstu un tautību nosaukumus, turklāt nereti vairākas valstis tiek grupētas viena temata ietvaros. Šķiet, šāds tematisks dalījums varētu būt noderīgs, lai virzītu lasītāju pie viņam aktuāliem rakstiem, tomēr būtu nepieciešams padziļināts pētījums, lai secinātu, piemēram, cik lielā mērā tematos, kuros minētas vairākas valstis, vērojama tematu sajaukšanās, kā arī vai sastopami neiederīgie vārdi. Rūpīgāka modeļa kvalitatīva izpēte varētu sniegt atbildi uz jautājumu, vai šie tematiskie ietvari (tematu atslēgvārdu saraksti paši par sevi) var kalpot par informācijas avotu, pētot, kādā kontekstā tiek runāts par dažādām valstīm: vai būtu pamatoti sacīt, ka Igaunija un Somija galvenokārt tiek saistītas ar ciešām diplomātiskām attiecībām un vizītēm, savukārt Holande un Anglija – ar finanšu jautājumiem utt. Vārds “Kalpaks” 50 tematu modelī parādās vienā no tematiem. Jāņem vērā, ka pēc nozīmīguma Kalpaks šeit nav viens no galvenajiem temata vārdiem – tā, piemēram, ja lietotājam, strādājot ar tekstiem digitālā kolekcijā, būtu redzami tikai pieci vai septiņi temata nozīmīgākie vārdi, Kalpaka to vidū nebūtu vispār. Pastāvošajā rāmējumā varam spriest drīzāk par to, ka tādi jēdzieni kā Rīga, latvietis, vēsture, ordenis un novembris saistās arī ar Kalpaka vārdu, nevis pretēji. Kāpinot tematu skaitu, Kalpaka vārds varētu parādīties vairākos tematos, taču, izvēloties lielāku tematu skaitu šim korpusam, samazinās modeļa (CV) koherences rādītājs. Letonica 47 Latento Dirihlē sadalījumu modelis tematu analīzē 2022 158 2. temats armija, aizsardzība, vienība, kars, apmācība, zirgs, militārs, valsts_aizsardzība, laiks, organizācija, darbība, uzdevums, dienests, karaspēks, ierocis, pulkst_19, grupa, jātnieks, tikt, vadība, kā, sastāvs, daļa, sagatavošana, kauja, manevrs, viss, rezerve, sakars, kurš 3. temats savienība, padome, tauta, kongress, Rumānija, tauta_savienība, Turcija, turks, Austrija, ungārs, Dienvidslāvija, antante, Danciga, Bulgārija, starptautisks, Grieķija, loceklis, tēvzeme_mīlestība, Vīne, Kronvalds, mazs, delegāts, Bukaresta, grieķis, bulgārs, pārstāvis, ukrainis, sanākt, Eiropa, ārlietas 4. temats Latvija, Igaunija, Somija, ārlietas, Baltija, mēs, igaunis, vakar, sūtnis, valsts, pārstāvis, ministrija, ārlietas_ministrs, Tallina, Rīga, Baltija_valsts, ierasties, prese, izbraukt, direktors, vadītājs, delegācija, iepazīties, ārlietas_ministrija, piedalīties, konference, sūtniecība, apmeklēt, iepazīties_ar, notikt 6. temats tanks, varēt, mašīna, ātrums, ceļš, mm, izmantot, vai, automobilis, degviela, čemberlens, gāze, smags, šāds, līdzeklis, ierocis, viegls, lietot, auto, svars, iespēt, šis, veids, transports, nafta, aparāts, cm, kustība, katrs, dienvidaustrumi 9. temats zviedrs, Holande, Beļģija, Zviedrija, soms, Šveice, beļģis, soma, dānis, Vācija, marka, Francija, vicepriekšsēdētājs, lēdija, angļu_frančs, birža, vāci, Anglija, Itālija, anglis_vēstnieks, franks, Rīga_ birža, ražība, darbs_ražība, tīrs_peļņa, kurss, Amsterdama, padome_sesija, viceadmirālis, beigas 12. temats Rīga, satiksme, vilciens, stacija, līnija, pasts, pasažieris, vagons, akc, akc_sab, autobuss, 13_05, sab, ceļš, līdz, virsvalde, biļete, pa, telegrāfs, pienākt, prece, brauciens, braukt, starp, tarifs, jūrmala, Jelgava, aiziet, Lielupe, pārvadāt 16. temats sports, vienība, sacīkste, sacensība, spēle, sek, Latvija, uzvarēt, notikt, pirmais, labs, cīņa, mēs, min, vieta, uzvara, Rīga, svars, laukums, punkts, bet, futbols, savienība, balva, vārti, US, gūt, valsts, LSB, sportists 17. temats skola, pamatskola, izglītība, skolotājs, kurss, mācība, jaunatne, skolēns, ģimnāzija, audzēknis, direktors, valsts, beigt, izglītība_ministrs, institūts, ministrija, izglītība_ministrija, lauksaimniecība, vidusskola, akadēmija, klase, jauns, audzināšana, pārbaudījums, skola_jaunatne, skolnieks, bērns, darbs, arodskola, praktisks 32. temats gads, dzimt, Latvija, Rīga, latvietis, vēsture, ordenis, novembris, mirt, viņš, kars, pirmais, cīņa, 1919, gaidīt_laiks, atbrīvošana, janvāris, maijs, pēc, kā, krievs, līdz, pie, marts, laiks, oktobris, strēlnieks, februāris, Kalpaks 1. tabula. Tematu izlase no Latvijas Kareivja korpusa 50 tematu modeļa; norādītas katra temata 30 raksturīgākās tekstvienības. Oskara Kalpaka apakškorpusa sešu tematu modelī 1., 3. un 4. temata vārdu saraksti apstiprināja gaidas, ka temati būs saistīti ar militāriem terminiem, proti, tiek pieminēta armija, pulks, cīņa, ģenerālis, pulkvedis u. c. (skat. 2. tabulu). Savukārt 2., 5. un 6. temats rāda jēdzienus, kas mazākā mērā saistās ar kara lietām: iela, pilsēta, pulkst, skola u. c. Novērtējot subjektīvi, katrs no tematiem šķiet veidojam kādu konkrētu tematisku identitāti, tomēr īpaši 2., 5. un 6. temata gadījumā nav skaidrības, kā šie jēdzieni saistīti ar pulkvedi Kalpaku, un ir nepieciešams vērsties pie rakstu pilnajiem tekstiem, lai saprastu, kā šos tematus interpretēt. Letonica 47 Latento Dirihlē sadalījumu modelis tematu analīzē 2022 159 1. temats tauta, arī, šī, savs, cīņa, varēt, armija, vēl, tad, kad, jūs, tikai, zeme, jo, jau, karavīrs, spēks, daudz, latvietis, visa, Iatvis, vai, es, labs, pats, Aris8, viņa, ja, dzīve, viens 2. temats iela, pilsēta, Aris, valde, vakar, vieta, pa, ministrija, biedrība, 10, paredzēt, ls, ministrs, jau, nodaļa, notikt, daļa, galva, pīkstēt9, kāds, vēl, telpa, varēt, nolemt, vai, nams, 000, atrast, vakars, policija 3. temats ministrs, ģenerālis, svētki, pilsēta, aizsargs, prezidents, pulks, armija, karavīrs, priekšnieks, piemiņa, kaps, komandieris, piemineklis, pulkv, pulkvedis, arī, notikt, valsts_prezidents, krist, garnizons, vieta, baznīca, biedrība, svinība, Liepāja, svinīgs, bataljons, organizācija, dievkalpojums 4. temats rota, pulks, bataljons, kauja, armija, pulkvedis, marts, 1919, lielinieks, komandieris, janvāris, uzbrukums, pulka, Cēsis, jātnieks, virsnieks, karavīrs, vāci, tikt, daļa, kājnieks, karaspēks, ienaidnieks, ieņemt, vienība, atsevišķs, cīņa, eskadrons, jau, muiža 5. temats pulkst, 30, pīkstēt, 20, koncerts, 19, ziņa, 15, 18, 12, 10, 17, 00, šodien, skaņa, 22, 16, plate, rīts, vakars, 13, iela, mūzika, dziesma, pl, pilsēta, 21, piedalīties, opera, koris 6. temats ls, pag, 10, skola, pamatskola, 10_ls, 50, kl, 25, 20, 100, 50_ls, pagasts, ba, valde, grāmata, darbinieks, skolotājs, 000, mazpulks, skolēns, 20_ls, 15, 100_ls, sab, 25_ls, 30, pils, pilsēta, biedrība 2. tabula. Oskara Kalpaka apakškorpusa sešu tematu modelis; norādītas katra temata 30 raksturīgākās tekstvienības. Subjektīvi pārskatot atbilstošos rakstus10, ir novērojams, ka 1., 3. un 4. temats dominē rakstos, kas veltīti pulkvedim Oskaram Kalpakam un ar viņa personību saistītām norisēm. Šie temati nošķir vairākus atšķirīgus kontekstus: Oskara Kalpaka atceres dienām tapuši raksti, kuros paustas pārdomas par Kalpaka nozīmi Latvijas vēsturē (1. temats); Oskara Kalpaka atceres dienu notikumu pārskati, kuros aprakstītas dažādas svinības un ceremonijas (3. temats); raksti, kuros tiek pārspriesti 1919. gada notikumi – Latvijas Bruņoto spēku izveide un kaujas pret lieliniekiem (4. temats). 5. temats dominē paziņojumos un reklāmās par koncertiem un citiem kultūras pasākumiem. Atsevišķos gadījumos šeit var būt pieminēti Kalpakam veltīti pasākumi, taču vairumā gadījumu tiek minēts Kalpaka bulvāris un Kalpaka iela kā norises vietas. Šajā tematā sastopamie 8 Vārds “Aris” tematu vārdnīcā ieviesies sistemātiskās optiskās atpazīšanas kļūdas dēļ. Vārds “arī” nereti atpazīts kā “ari”, turklāt “Ari” bieži sastopams teikuma sākumā, rakstīts ar lielo sākumburtu. Morfoloģiskās marķēšanas rīka interpretācijā tas kļuvis par īpašvārdu – “Aris”. 9 Vārds “pīkstēt” tematu vārdnīcā ieviesies sistemātiskas optiskās atpazīšanas kļūdas dēļ. Saīsinājums “plkst.” neprecīzi atpazīts kā “pīkst”, savukārt morfoloģiskās marķēšanas rīks to pārveidojis pamatformā – “pīkstēt”. 10 Oskara Kalpaka apakškorpusa rakstu pilnie teksti pieejami šeit: https://doi.org/10.5281/zenodo.6569249. Raksti sagrupēti pa tematiem, ņemot vērā tematu ar visaugstāko rādītāju. Letonica 47 Latento Dirihlē sadalījumu modelis tematu analīzē 2022 160 skaitļi ir norises datumi un laiki; vairākās variācijās sastopams vārds “pulksten” (skat. arī 9. beigu piezīmi). 6. temats dominē galvenokārt paziņojumos, kas saistīti ar skolām, kuras nosauktas Oskara Kalpaka vārdā. Parasti šīs ziņas saistītas ar ziedojumu vākšanu un dāvinājumiem skolām. Kopš 1939. gada šis temats sastopams arī paziņojumos par ziedojumiem Latvijas aizsardzības spēkiem – skaitļi ir ziedotās summas. 2. temats satur vislielāko atšķirīgas tematikas atslēgvārdu sajaukumu. Šis temats dominē rakstos, kas dažkārt atsaucas uz Oskaru Kalpaku, bet lielā daļā gadījumu tiek pieminēts tvaikonis “Kalpaks”. Vienā no rakstiem minēta persona ar uzvārdu “Kalpaks”, kura nav Oskars Kalpaks. 1. attēlā redzamā vizualizācija apstiprina novērojumus, kas gūti tekstu un tematu subjektīvā analīzē – raksti, kuros dominē 1., 3. un 4. temats, saturiski ir vairāk saistīti, un tie kā līdzīgi tuvāk sagrupēti arī daudzdimensiju kartējumā, savukārt 5. un 6. temats saturiski nav saistīti ar Oskaru Kalpaku, un arī kartējumā tie atrodas perifērijā. LDA modelī katrs raksts var ietvert vairākus tematus dažādās nozīmīguma pakāpēs. Raksti, kuru tematiskajā kompozīcijā sajaukti vairāki temati ar lielu nozīmīguma pakāpi, biežāk izrādās vai nu Kalpaka tēmai nepiederīgi, vai tādi, kuros garāki raksti savienoti kopā segmentēšanas kļūdas dēļ. Daudzos gadījumos tomēr viena temata īpatsvars ir izteikti dominējošs – virs 80 %. Tā, piemēram, Kalpaka piemiņai veltīta publikācija ar 83 % 1. temata īpatsvaru vēsta: Svinot ik gadus Kalpaka bataljona gada svētkus mēs pieminam to laikmetu, kurš mūsu armijas un līdz ar to mūsu tautas vēsture ierakstīts neizdzēšamiem nacionālo varoņu asinīm slacītiem burtiem. Katras tautas vēsture ir šāds laikmets, atmiņa par kuru iet no paaudzes uz paaudzi, paužot par to spēku, kurš atsvabināja tautu no svešas varas važām11. Raksti ar lielu 1., 3. vai 4. temata īpatsvaru drīzāk izvērsti vēsta par jautājumiem, kas saistīti ar Oskaru Kalpaku vai viņam veltītiem pasākumiem, tomēr tā nav vienmēr. Tā, piemēram, kāda publikācija ar 85 % 1. temata īpatsvaru veltīta Zigfrīda Meierovica (1887–1925) atcerei, un Kalpaks tajā ir tikai pieminēts (tajā pašā laikā tematiski šis raksts tuvs patriotiskajiem Kalpakam veltītajiem rakstiem): Īstā brīdī laime mums sūtīja Kalpaku kara frontē un Meierovicu vēl grūtāka ārējās politikas frontē. Tos abus ņēma tad, kad viņu darbs vēl ārkārtīgi vajadzīgs. Mums atliek tikai ticēt Latvijas zvaigznēm kā to darīja šie divi Latvijas krietnākie dēli12. Šie novērojumi vedina domāt, ka, veidojot kādai tēmai veltītu korpusu, varētu būt lietderīgi atlasīt rakstus, kuros interesējošais vārds minēts vairāk nekā vienu reizi – lai atsijātu maznozīmīgākus pieminējumus. 11 E.G. Kalpaku pieminot. Latvijas Kareivis, 03.03.1925., 1. lpp. Rakstus, kuros dominē pirmais temats, datu kopā sk. pie “Topic 0”: https://doi.org/10.5281/zenodo.6569249 12 Gailītis, M. Valsts vīri par pirmā diplomāta nāvi. Latvijas kareivis, 26.08.1925., 3. lpp. Letonica 47 Latento Dirihlē sadalījumu modelis tematu analīzē 2022 161 1. attēls. Kreisajā pusē: sešu Kalpaka apakškorpusa tematu daudzdimensiju kartējums. Labajā pusē: 30 nozīmīgākie ceturtā temata jēdzieni. 2. attēls. Sešu tematu sadalījums Oskara Kalpaka apakškorpusa rakstos no 1925. līdz 1940. g. Vizualizācija veidota, izmantojot pyLDAvis Python bibliotēku (Sievert, Shirley 2014). Letonica 47 Latento Dirihlē sadalījumu modelis tematu analīzē 2022 162 2. attēlā aplūkojams katram tematam veltīto rakstu skaits laikposmā no 1925. līdz 1940. gadam13. Kopumā Kalpaka pieminējumu skaits izteikti palielinās, sākot ar 1934. gadu, īpaši liels pieaugums vērojams 1. un 3. tematam, savukārt 2. tematam vērojams samazinājums; 6. temats īpaši aktuāls 1939. gadā. Šīs izmaiņas, iespējams, ir interpretējamas 1934. gada valsts apvērsuma kontekstā – lai to noskaidrotu, būtu jāveic kvalitatīva rakstu izpēte. Jāpatur prātā, ka gadījuma izpētēs netika nošķirti un saskaitīti īstie un neīstie Kalpaka pieminējumi, tādējādi, lai nonāktu pie precīzākiem datiem par Kalpaka tematu popularitāti, būtu jāturpina pieminējumu analīzes un filtrēšanas darbs. Secinājumi Gadījuma izpēte liecina, ka LDA tematu modelēšanas metodoloģija ir noderīga vēsturiskās periodikas pētniecībai un varētu būt piemērota, lai to integrētu kā jaunu funkcionalitāti vai papildu saskarni LNB digitālajās kolekcijās. LDA metodoloģija ir daudzkārt pārbaudīta lietojumiem citās valodās, un tā tiek uzskatīta par īpaši piemērotu akadēmisku publikāciju, žurnālu un laikrakstu tematu modelēšanai. Papildus šajā rakstā skatītajam LDA variantam pasaulē tikuši izstrādāti risinājumi, kas ļauj precīzāk tvert tematu izmaiņas ilgstošā laika periodā. Gadījuma izpētes gaitā tika definēta darbplūsma, kas nepieciešama, lai izveidotu uzticamu tematu modeli: datu priekšapstrāde (korpusa kompilēšana, tīrīšana, morfoloģiskā marķēšana), modeļa iteratīva apmācība, provizoriski izveidojot modeļus ar dažādu tematu skaitu, tematu modeļa koherences mērīšana, tematu sadalījuma subjektīva izvērtēšana, optimālā modeļa izvēle, vizualizāciju un citu modeļa reprezentāciju veidošana. No lietotāja viedokļa, izstrādājot atbilstoša pētniecības pakalpojuma risinājumu, vēlams nodrošināt, lai lietotājs var piekļūt modeļa avottekstiem. Oskara Kalpaka apakškorpusa tematu modelis apliecināja, ka LDA ļauj veidot semantiski saskanīgus, noderīgus tematus, tomēr, lai pilnībā interpretētu rezultātus, nepieciešams vērsties pie pašiem rakstiem. Rakstu turpmāka subjektīva pārbaude atklāja, ka tematu dalījums ļāvis jēgpilni nošķirt rakstus, tomēr sastopama arī neatbilstoša attiecināšana. Secināms, ka Oskara Kalpaka gadījuma izpētē lietotā metode veiksmīgi izmantojama tematu instrumentālisma pieejā, savienojot gan kvalitatīvās, gan kvantitatīvās metodes avotu izpētē. Turpmāka modeļa uzstādījumu pielāgošana un izpēte būtu nepieciešama, lai LDA metodoloģiju varētu izmantot tematu reālisma pieejā vai situācijās, kurās pētniekiem ir ierobežotas iespējas pārlūkot rakstus un mazāk informācijas par to, kā modelis veidots un kādi ir tā ierobežojumi. Izvēloties modeļa apmācības uzstādījumus, tikai atmesti vārdi, kas lietoti vairāk nekā 50 % tekstu, tādējādi tikai izslēgta lielākā daļa palīgvārdu, vietniekvārdu, bieži lietotu apstākļa vārdu. Lietojumu scenārijos, kuros digitālas kolekcijas lietotājam būtisks tieši raksta priekšmets 13 Raksti tika skaitīti, par pamatu ņemot to tematu, kuram rakstā ir augstākā procentu vērtība. Letonica 47 Latento Dirihlē sadalījumu modelis tematu analīzē 2022 163 (referents) un redzami nevis 30, bet tikai daži temata atslēgvārdi, iespējams, būtu ieteicams pielāgot uzstādījumus tādējādi, lai modelī būtu vēl mazāk vārdu bez patstāvīgas nozīmes vai tiktu iekļauti tikai lietvārdi. Savukārt lietojumu scenārijos, kuros pētnieciskie mērķi ir saistīti arī ar tekstu stilistikas un retorikas pētniecību, vārdšķiru daudzveidība paturama. Kā parādīja Oskara Kalpaka modeļa piemērs, skaitļu iekļaušana modelī ne vien nodrošina, ka saglabājas tematam nozīmīgi gadskaitļi (kā 1919. gads), bet ļauj arī identificēt materiālus, kurus pētnieks, iespējams, vēlētos izņemt no pētāmo datu kopas. Turpinot metodes izstrādi, būtu nepieciešams turpināt pielāgot LDA tematu modeļa uzstādījumus, analizējot arī citas datu kopas, kā arī ieteicams LDA rezultātus salīdzināt ar citu algoritmu veiktspēju. Letonica 47 Latento Dirihlē sadalījumu modelis tematu analīzē 2022 164 Bibliogrāfija Abney, Steven, Bird, Steven (2010). The Human Language Project: building a universal corpus of the world’s languages. Proceedings of the 48th Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, pp. 88–97. Blei, David (2012). Topic modeling and digital humanities. Journal of Digital Humanities, Vol. 2, No. 1, pp. 8–12. Available: http://journalofdigitalhumanities.org/2-1/ topic-modeling-and-digital-humanities-by-david-m-blei/ [accessed 18.06.2022.]. Alabi, Jesujoba, Amponsah-Kaakyire, Kwabena, Adelani, David, et al. (2020). Massive vs. Curated Embeddings for Low-Resourced Languages: the Case of Yorub` a and Twi. Proceedings of the 12th Language Resources and Evaluation Conference. European Language Resources Association, pp. 2754–2762. Block, Sharon (2006). Doing More with Digitization: An introduction to topic modeling of early American sources. Common-place: The Interactive Journal of Early American Life, 6.2. Available: http://commonplace.online/article/ doing-more-with-digitization/ [accessed 18.06.2022.]. Alves, Diego, Thakkar, Gaurish, Tadić, Marko (2020). Evaluating Language Tools for Fifteen EU-official Under-resourced Languages. Proceedings of the 12th Language Resources and Evaluation Conference. European Language Resources Association, pp. 1866–1873. Bollmann, Marcel (2019). A LargeScale Comparison of Historical Text Normalization Systems. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Vol. 1. Association for Computational Linguistics, pp. 3885–3898. Baklāne, Anda, Saulespurēns, Valdis (2022). The application of latent Dirichlet allocation for the analysis of Latvian historical newspapers: Oskars Kalpaks’ case study. Nauka. tehnologii, innovacii, No. 1(21), s. 29–37. Blei David M., Lafferty, John D. (2007). A correlated topic model of Science. Annals of Applied Statistics, Vol. 1(1), pp. 17–35. Blei, David M., Lafferty, John D. (2006). Dynamic topic models. Proceedings of the 23rd international conference on Machine Learning, pp. 113–120. Blei, David M., Ng, Andrew Y., Jordan, Michael I. (2003). Latent Dirichlet allocation. Journal of Machine Learning Research, 3 (January), pp. 993–1022. Letonica 47 Brett, Megan R. (2012). Topic Modeling: A Basic Introduction. Journal of Digital Humanities, Vol. 2, No. 1, pp. 1–2. Available: http:// journalofdigitalhumanities.org/2-1/ topic-modeling-a-basic-introduction-by-megan-r-brett/ [accessed 18.06.2022.]. Language Resources for Historical Newspapers: The Impresso Collection. LREC 2020 Proceedings, pp. 958–968. Goldstone, Andrew, Underwood, Ted. (2012). What Can Topic Models of PMLA Teach Us About the History of Literary Scholarship? Journal of Digital Humanities, Vol. 2, No. 1, pp. 39–48. Available: http://journalofdigitalhumanities. org/2-1/what-can-topic-models-ofpmla-teach-us-by-ted-underwoodand-andrew-goldstone/ [accessed 18.06.2022.]. Hall, David, Jurafsky, Daniel, Manning, Christopher D. (2008). Studying the history of ideas using topic models. Proceedings of the 2008 conference on empirical methods in natural language processing, pp. 363–371. Hengchen, Simon (2017). When Does it Mean? Detecting Semantic Change in Historical Texts. Ph.D. thesis. Université libre de Bruxelles. Jēkabsons, Ēriks (2022). Oskars Kalpaks. Nacionālā enciklopēdija. Pieejams: https://enciklopedija. lv/skirklis/26024-Oskars-Kalpaks [skatīts 18.06.2022.]. Krūmiņa, Līga (2012). Digitalizācija Latvijā pasaules pieredzes kontekstā. Bibliotēku pasaule, Vol. 57, 39.–45. lpp. Chang, Jonathan, Boyd-Graber, Jordan, Gerrish, Sean, et al. (2009). Reading Tea Leaves: How Humans Interpret Topic Models. Advances in Neural Information Processing Systems 22. Available: https://proceedings.neurips.cc/paper/2009/ file/f92586a25bb3145facd64ab20fd554ff-Paper.pdf [accessed 18.06.2022.]. Kurvinen, Heidi (2020). Towards Digital Histories of Women’s Suffrage Movements. Fridlund, Matts, Oiva, Mila, Paju, Petri (eds.) Digital Histories: Emergent Approaches within the New Digital History. Helsinki University Press, pp. 149–163. Ehrmann, Maud, Romanello, Matteo, Clematide, Simon, et al. (2020). Marjanen, Jani, Zosa, Elaine, Hengchen, Simon, et al. (2020). Topic Latento Dirihlē sadalījumu modelis tematu analīzē 2022 165 Modelling Discourse Dynamics in Historical Newspapers. Post-Proceedings of the 5th Conference Digital Humanities in the Nordic Countries (DHN 2020), pp. 63–77. Vol. 2, No. 1. Available: http:// journalofdigitalhumanities.org/2-1/ topic-model-data-for-topic-modeling-and-figurative-language-by-lisa-m-rhody/ [accessed 18.06.2022.]. McGillivray, Barbara (2021). Computational methods for semantic analysis of historical texts. Kristen Schuster, Stuart Dunn. Routledge International Handbook of Research Methods in Digital Humanities. London; New York: Routledge, Taylor & Francis Group, pp. 261–274. Röder, Michael, Both, Andreas, Hinneburg, Alexander (2015). Exploring the Space of Topic Coherence Measures. Proceedings of the Eighth ACM International Conference on Web Search and Data Mining WSDM ‘15, pp. 399–340. Nelson, Robert K. (2011). Mining the Dispatch. Available: https://dsl. richmond.edu/dispatch/introduction [accessed 18.06.2022.]. Newman, David, Chemudugunta, Chaitanya, Smyth Padhraic, et al. (2006). Analyzing entities and topics in news articles using statistical topic models. Intelligence and Security Informatics, IEEE International Conference on Intelligence and Security Informatics, pp. 93–103. Pääkkönen, Juho, Ylikoski, Petri (2020). Humanistic interpretation and machine learning. Synthese, 199 (Sept.), pp. 1461–1497. Pētersone, Inta (1999) (red.). Latvijas Kareivis. Latvijas Brīvības cīņas 1918–1920: enciklopēdija. Preses Nams, 187. lpp. Řehůřek, Radim, Sojka, Petr (2010). Software Framework for Topic Modelling with Large Corpora. Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks. Available: http:// is.muni.cz/publication/884893/en [accessed 18.06.2022.]. Rhody Lisa M. (2012). Topic Modeling and Figurative Language. Journal of Digital Humanities, Letonica 47 topic-modeling-made-just-simpleenough/ [accessed 18.06.2022.]. Vīksna, Rinalds, Kirikova, Marite, and Kiopa, Daiga (2020). Exploring the Use of Topic Analysis in Latvian Legal Documents. COUrT - CAiSE for Legal Documents, Virtual Workshop. Available: http://ceurws.org/Vol-2690/COUrT-paper4. pdf [accessed 18.06.2022.]. Sievert, Carson, Shirley, Kenneth (2014). LDAvis: A method for visualizing and interpreting topics. Proceedings of the workshop on interactive language learning, visualization, and interfaces. Association for Computational Linguistics, pp. 63–70. Skadiņa, Inguna, Veisbergs, Andrejs, Vasiļjevs, Andrejs et al. (2012). The Latvian Language in the Digital Age / Latviešu valoda digitālajā laikmetā. META-NET White Paper Series: Latvian. Berlin: Springer. Templeton, Thomas C., Brown, Travis, Battacharyya, Sayan, et al. (2011). Mining the Dispatch under Supervision: Using Casualty Counts to Guide Topics from the Richmond Daily Dispatch Corpus. Chicago Colloquium on Digital Humanities and Computer Science. Ūdre, Dace, Baltiņa, Dagnija et al. (2019). Digital Approaches in Cultural Heritage: towards a pan-Baltic cooperation network: final report. Riga: National Library of Latvia. Available: https://dom.lndb.lv/ data/obj/781145.html [accessed 15.09.2022.]. Viola, Lorella, Verheul, Jaap (2019). Mining ethnicity: Discourse-driven topic modelling of immigrant discourses in the USA, 1898–1920. Digital Scholarship in the Humanities, Vol. 35(4), pp. 921–943. Wallach, Hanna, Mimno, David, McCallum, Andrew (2009). Rethinking LDA: Why priors matter. Advances in Neural Information Processing Systems, Vol. 23 (January), pp. 1973–1981. Znotiņš, Artūrs, Cīrule, Elita (2018). NLP-PIPE: Latvian NLP Tool Pipeline. Human Language Technologies. The Baltic Perspective, IOS Press, Vol. 307, pp. 183–189. Zariņš, Uldis (2014). Eiropas kultūras mantojums digitālajā vidē. Latvijas intereses Eiropas Savienībā, No. 2, 41.–55. lpp. Pieejams: https://dom.lndb.lv/ data/obj/61436.html [skatīts 15.09.2022.]. Underwood, Ted (2012). Topic modeling just made simple enough. Blog post. Available: https:// tedunderwood.com/2012/04/07/ Latento Dirihlē sadalījumu modelis tematu analīzē 2022 166 Summary The Model of Latent Dirichlet Allocation in the Topic Analysis of Latvian Soldier: Oskars Kalpaks’ Case Study Anda Baklāne, Valdis Saulespurēns Keywords: topic modelling, digitized newspapers, digital history, topic coherence, National Library of Latvia The paper presents a case study of the application of the LDA (latent Dirichlet allocation) model for the analysis of topics in the corpus of the historical daily newspaper of Latvian armed forces Latvian Soldier (1925–1940). Although topic modelling is one of the most popular techniques for analysing text in digital humanities, this methodology has not been extensively tested for texts in Latvian. The case study was conducted to explore the possibilities for implementing topic models as new functionality for exploring newspapers in the digital library of the National Library of Latvia. To imitate different use cases of topic modelling, two models were created: a model consisting of 50 topics for the whole corpus of the Latvian Soldier, as well as a six-topic model of the subcorpus compiled from articles that contain the name ‘Kalpaks’. It was demonstrated that both models produced usable, semantically coherent topics that could aid the exploration of historical newspapers. It was concluded that the quality of the models in the current state was sufficient to follow the approach of topic instrumentalism, which views topics as incomplete representations of texts that are a useful augmentation of the investigative process. The acquired topic models seem particularly useful for combining research practices of distant and close reading. Further testing and adjustment of the parameters are needed to produce concise and unambiguous topics that could be reliably used in research situations where extensive analysis of the sources and verification is not expected. Letonica 47 Latento Dirihlē sadalījumu modelis tematu analīzē 2022

Log In

Latento Dirihlē sadalījumu modeļa izmantojums laikraksta Latvijas Kareivis tematu analīzē: Oskara Kalpaka gadījuma izpēte

Free related PDFsRelated papers

Free related PDFsRelated papers