Rikuy wakmantukuchiq icha Rikuy T'ikrachiq (Inlish simipi: ViT) nisqaqa huk wakmantukuqmi, rikuy thatkichiy ruwanakunaman qhawasqa, ahinataq rikch'a riqsiy.[1]

Rikuy wakmantukuqkuna

llamk'apuy
 
Rikuy t'ikrachiq Wasicha rikch'akuna rakinapaq

Wakmantukuchiqkuna nisqakunaqa qallariypi churakuyninkutam tarirurqaku purun simi tahkichiy (PNL) nisqapi, chaytam qawachirqaku BERThinaspa, GPT-3pis simi kikinkuna. Kay kuntrasti kaqpi kay tipiku rikch'a thatkichiy sistima huk k'uyukuq ankucha llika (CNN) kaqwan llamk'achin. Allin riqsisqa llamk'aykunaqa Xception, ResNet, EfficientNet,[2] DenseNet,[3] chaymanta Inception nisqakunam.[1]

Wakmantukuchiqmi tupunku iskay iskay yaykusqa tuwkinkunapura (simikuna qillqa watiqakuna kaqpi), qawtaku sutichasqa. Chay qullqiqa tawachaku nisqam hayka tuwkin nisqapi. Rikch'akunapaqqa, t'aqwiypa sapsi hukkayninqa pixel nisqam. Ichaqa, huk tipiku rikch'api sapa pixel parispaq yupay tinkiykuna hark'akuqmi yuyarinamanta, yupaymantawan. Aswanpas, ViT yupan pixelkunapura tinkiykuna imaymana huch'uy t'aqakunapi rikch'api (kayhina, 16x16 pixelkuna), huk sinchi pisiyachisqa qullqiwan. Chay t'aqakuna (posiciónal incrustaciones nisqawan) huk qatiqpi churasqa kanku. Chay churasqakunaqa yachanapaq wikturkunam. Sapa rakiqa siwuk siq'i qipan qipan icha (qatikipay pacha)pi churasqam, incrustacin chichu nisqawanmi mirachisqa. Chay ruwasqa, posición incrustacionwan transformadorman mikhuchisqa.[1]

Imaynan BERT kaqpi, huk tiksi ruway rakiy ruwaykunapi ruwakun tuwkinpa klasi kaqwan. Huk especial tuwkin chaymi llamk'achisqa sapalla yaykuy hina qhipa MLP Umalliq imaynachus tukuy wakinkunap influenciasqan.

Rikch'akuna rakinapaq wasichaqa aswan riqsisqam, Wakmantukuchiq Qhipukamachiq nisqallatam llamk'achin imaymana yaykuna tuwkinkunata t'ikranapaq. Ichaqa kantaqmi huk ruwaykunapas maypichus tradicional Arquitectura Transformadora nisqapa decodificador nisqa partenpas llamkachisqa.

K'uyukuq ankucha llikawan tupachiy

llamk'apuy

ViT ruwayqa tantiyaykunamanta hapirin chaymanta chay allinchaqpa, willaypa huñun-específico hutun paramitrukuna, chaymanta llika ukhunchasqa. CNN nisqakunaqa aswan facilmi allinchaypaq.

Huk ch'uya wakmantukuchiqpi huk variación nisqaqa huk transformadorta CNN saphi/awpaq tukukuywan kasarakuymi. Huk típico ViT saphiqa 16x16 convolución nisqatam 16 pasoyuqta llamk'achin. Chaywanpas huk 3x3 convolución 2 kaq pasowan, estabilidadta yapan chaymanta exactitudtapas allinchan.[4]

Maypi charanakuna

llamk'apuy

Rikuy tikraqkuna achka Antañiqiq Rikuy ruwaykunapi llamk'achirqanku allin ruwaykunawan wakin kutikunapitaq "state-of-the-art" icha sumaq kaqpipas.

Aswan allin ruwaykunamanta wakinmi:

  • Antañiqiq rikuy
  • Objeto Tariy
  • Kuyuq Rikch'a Deepfake Tariy
  • Rikch'a Rakiy
  • Anumaliya Tariy
  • Rikch'a Sinthisis
  • Cluster Khuskiy
  • Kikinmanta Pusachiq

Pukyukuna

llamk'apuy

<div class="reflist {{#if:

   | columns {{#iferror: 
     | references-column-width

Hawa t'inkikuna

llamk'apuy
  1. 1,0 1,1 1,2 Sarkar, Arjun (2021-05-20). Are Transformers better than CNN's at Image Recognition? (en) Pukyumanta willaypi pantasqa: Etiqueta <ref> no válida; el nombre «:0» está definido varias veces con contenidos diferentes
  2. Tan, Mingxing; Le, Quoc V. (23 June 2021). "EfficientNet V2: Smaller Models and Faster Training". arXiv:2104.00298 [cs.CV].
  3. Huang, Gao; Liu, Zhuang; van der Maaten, Laurens; Q. Weinberger, Kilian (28 Jan 2018). "Densely Connected Convolutional Networks". arXiv:1608.06993 [cs.CV].
  4. Xiao, Tete; Singh, Mannat; Mintun, Eric; Darrell, Trevor; Dollár, Piotr; Girshick, Ross (2021-06-28). "Early Convolutions Help Transformers See Better". arXiv:2106.14881 [cs.CV].
"https://qu.wikipedia.org/w/index.php?title=Rikuy_wakmantukuchiq&oldid=655472" p'anqamanta chaskisqa (Wikipedia, Qhichwa / Quechua)