Valodas modelis

mašīnmācīšanās modeļa veids
(Pāradresēts no Valodas modelēšana)

Valodas modelis (angļu: language model) ir mašīnmācīšanās modeļa veids, kas ir apmācīts, lai vārdiem tekstā noteiktu varbūtības sadalījumu. Modeļa mērķis ir aprēķināt vispiemērotāko vārdu, lai pabeigtu nepilnīgu teikumu vai frāzi, pamatojoties uz dotā teksta kontekstu.[1]

Valodas modeļi tiek plaši izmantoti dabiskās valodas apstrādes uzdevumos. Tie tiek pielietoti runas atpazīšanas uzdevumos,[2] lai mazinātu iespēju, ka mākslīgais intelekts kļūdaini atpazīst nepareizu tekstu (t.i., nesakarīgu, zemas varbūtības vārdu kārtību), kā arī mašīntulkošanā[1][3] (piemēram, tulkojumu variantu kvalitātes novērtēšanā), dabiskās valodas ģenerēšanā (teksta ģenerēšanā),[1] vārdšķiras marķēšanā,[1] rakstzīmju optiskajā pazīšanā, rokraksta atpazīšanā,[4] informācijas izguvē, un daudzos citos uzdevumos.[5][6]

Tie galvenokārt tiek apmācīti ar lielu teksta datu kopu, piemēram, grāmatu vai dažādu rakstu kolekciju, fokusējoties uz vārdiem, kas veido tekstu, un to attiecībām ar citiem vārdiem. Gatavi modeļi izmanto no apmācībā izmantotās teksta datu kopas izgūtās vārdu attiecības un saistības, lai paredzētu nākamo vārdu teikumā, identificētu statistiski neiederīgos vārdus vai ģenerētu jaunu tekstu, kas ir gramatiski pareizs un semantiski viendabīgs.[1]

Kopš 2018. gada dažādos dabiskās valodas apstrādes uzdevumos iespaidīgus rezultātus ir uzrādījuši lielie valodu modeļi — valodas modeļi, kas sastāv no dziļiem neironu tīkliem, kurus veido miljardiem apmācāmu parametru un kas apmācīti, izmantojot masveida nemarķēta teksta datu kopas.[7] Lielie valodu modeļi paver jaunas iespējas tādās jomās kā meklētājprogrammu izstrādē, dabiskās valodas apstrādē, veselības aprūpē, robotikā un kodu ģenerēšanā.[8] Tie ir kā pamats vairākiem rīkiem, piemēram, OpenAI produktiem — sarunbotam ChatGPT[8] un koda ģenerētājam Codex.[9]

  1. 1,0 1,1 1,2 1,3 1,4 «Language Models, Explained: How GPT and Other Models Work». AltexSoft (en-US). Skatīts: 2023-03-12.
  2. Kuhn, R.; De Mori, R. (1990-06). "A cache-based natural language model for speech recognition". IEEE Transactions on Pattern Analysis and Machine Intelligence 12 (6): 570–583. doi:10.1109/34.56193.
  3. Andreas, Jacob; Vlachos, Andreas; Clark, Stephen (2013-08). "Semantic Parsing as Machine Translation". Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers) (Sofia, Bulgaria: Association for Computational Linguistics): 47–52.
  4. Pham, Vu; Bluche, Théodore; Kermorvant, Christopher; Louradour, Jérôme (2014-03-10). "Dropout improves Recurrent Neural Networks for Handwriting Recognition". arXiv:1312.4569 [cs]. doi:10.48550/arxiv.1312.4569.
  5. Ponte, Jay M.; Croft, W. Bruce (1998-08). "A language modeling approach to information retrieval" (en). Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval (Melbourne Australia: ACM): 275–281. doi:10.1145/290941.291008. ISBN 978-1-58113-015-7.
  6. Djoerd Hiemstra. A Linguistically Motivated Probabilistic Model of Information Retrieval 1513. Berlin, Heidelberg : Springer Berlin Heidelberg, 1998. 569–584. lpp. ISBN 978-3-540-65101-7.
  7. «Human Language Understanding & Reasoning». American Academy of Arts & Sciences (angļu). Skatīts: 2023-03-12.
  8. 8,0 8,1 Angie Lee. «What Are Large Language Models Used For and Why Are They Important?». NVIDIA Blog (en-US), 2023-01-26. Skatīts: 2023-03-12.
  9. «OpenAI Codex». openai.com (en-US). Skatīts: 2023-03-12.