Firmat e Inteligjencës Artificiale së shpejti do të shterojnë shumicën e të dhënave në internet. A mund të krijojnë më shumë, shkruan The Economist
Në vitin 2006, Fei-Fei Li, e cila asokohe punonte në Universitetin e Illinois-it dhe tani punon në Universitetin Stanford, vërejti se si interneti mund ta ndryshonte kërkimin shkencor.
Ajo kreu një hulumtim gjuhësor ku spikati 80,000 “bashkësi sinonimike emrash”, pra grupe sinonimesh që përshkruanin të njëjtën gjë.
Dr. Li llogariti se miliarda imazhe në internet duhet të mundësojnë me qindra shembuj për çdo grup emrash.
Nëse grumbulloni mjaftueshëm prej tyre, do të keni një burim të madh trajnimi për Inteligjencën Artificiale.
“Shumë njerëz po u kushtojnë vëmendje modeleve të Inteligjencës Artificiale”, tha ajo. “Le t’u kushtojmë vëmendje edhe të dhënave”. Rezultati i kësaj pune ishte krijimi i ImageNet.
Interneti mundësoi jo vetëm imazhet, por edhe burimet për etiketimin e tyre. Pasi motorët e kërkimit mundësuan fotot e subjekteve të ndryshme si qen, mace, karrige apo çfarëdo tjetër, këto imazhe u vëzhguan dhe u verifikuan nga njerëz të rekrutuar nëpërmjet programit Mechanical Turk, një shërbim i mundësuar nga Amazon, që u lejon njerëzve të fitojnë para duke kryer detyra të zakonshme.
Si rezultat, u krijua një bazë të dhënash me miliona imazhe të kuruara dhe të verifikuara.
Duke përdorur ImageNet për trajnimin e tij, në vitin 2012, një program i quajtur AlexNet shpalosi potencialin e jashtëzakonshëm të “të mësuarit të thellë”, domethënë të rrjeteve nervore artificiale me shumë më tepër shtresa sesa ishin përdorur më parë.
Ky ishte fillimi i lulëzimit të Inteligjencës Artificiale dhe i një industrie të krijuar posaçërisht për t’i siguruar asaj të dhëna trajnimi.
Zhvillimi i mëvonshëm i “modeleve të mëdha gjuhësore” (LLM), varej gjithashtu nga të dhënat e internetit, por në një mënyrë tjetër.
Trajnimi i zakonshëm për një “model të madh gjuhësor” nuk bëhet duke parashikuar se cila fjalë përshkruan më mirë përmbajtjen e një imazhi, por duke parashikuar se çfarë është një fjalë e marrë nga një pjesë teksti, në bazë të fjalëve të tjera pranë saj.
Në këtë lloj trajnimi, nuk ka nevojë për të dhëna të etiketuara dhe të kuruara. Sistemi mund të përjashtojë fjalë të caktuara, të bëjë hamendësime dhe të vlerësojë përgjigjet e veta në një proces të njohur si “trajnim i vetëmbikëqyrur”. Megjithatë, ka nevojë për të dhëna të bollshme.
Sa më shumë tekst t’i jepet sistemit për t’u trajnuar, aq më i mirë bëhet ai. Duke qenë se interneti ofron me qindra triliona fjalë, ai u bë për modelet e mëdha gjuhësore po aq i rëndësishëm sa ç’ishte në fillim karboni për industrinë moderne.
Common Crawl, një arkiv i internetit të hapur, ku përfshihen rreth 50 miliardë faqe interneti, u përdor gjerësisht në kërkimin shkencor. Modelet më të reja e plotësuan atë me të dhëna nga gjithnjë e më shumë burime, si Books3, një përmbledhje e mijëra librave.
Por “oreksi” i makinerive të Inteligjencës Artificiale për tekst, është rritur me një ritëm që as interneti nuk mund ta kapë. Shoqëria kërkimore Epoch AI, vlerëson se deri në vitin 2028, stoku i të dhënave online me cilësi të lartë, do të ezaurohet plotësisht.
Në industrinë e Inteligjencës Artificiale, ky njihet si “muri i të dhënave”. Mënyra se si duhet të sillemi me këtë mur është një nga pyetjet më të mëdha të Inteligjencës Artificiale, dhe ndoshta ajo që ka më shumë gjasa të ngadalësojë përparimin e saj.
Të dhënat
Një qasje është përqendrimi në cilësinë e të dhënave dhe jo në sasinë e tyre. Laboratorët e Inteligjencës Artificiale nuk i trajnojnë modelet e tyre në të gjithë internetin.
Ata filtrojnë dhe i rendisin të dhënat për të maksimizuar të mësuarit e modeleve të tyre. Naveen Rao, nga firma e Inteligjencës Artificiale Databricks, thotë se ky është dallimi kryesor midis modeleve të Inteligjencës Artificiale në treg. Natyrisht që “informacioni i vërtetë” mbi botën ka rëndësi, dhe po ashtu edhe “arsyetimi”.
Kjo i bën tekstet akademike aq të vlefshme. Por vendosja e baraspeshës midis burimeve të të dhënave, mbetet diçka e vështirë dhe e pakuptueshme plotësisht, si një lloj arti i errët. Për më tepër, ka rëndësi edhe rendi në të cilin sistemi has lloje të ndryshme të dhënash.
Për shembull, nëse grumbulloni të gjitha të dhënat për një temë të caktuar, si në matematikë, në fund të procesit të trajnimit, modeli juaj i Inteligjencës Artificiale mund të bëhet i specializuar në fushën e matematikës, por mund të harrojë disa koncepte të tjera.
Këto veti që duhen pasur parasysh, mund të bëhen edhe më të ndërlikuara kur të dhënat nuk janë vetëm për tema të ndryshme, por edhe në forma të ndryshme.
Për shkak të mungesës së të dhënave të reja tekstuale, modelet kryesore të Inteligjencës Artificiale, si GPT-4 e firmës OpenAI dhe Gemini e Google, tani lejohen që të operojnë lirisht gjatë përthithjes së informacionit nëpër skedarë imazhi, video dhe audio, si dhe gjatë mësimit të vetëmbikëqyrur.
Trajnimi i modeleve të Inteligjencës Artificiale në lëmin e videove është edhe më i vështirë sepse të dhënat janë shumë më të ngjeshura. Modelet e tanishme të Inteligjencës Artificiale zakonisht këqyrin një nëngrup kornizash për t’i thjeshtuar gjërat.
Problemi
Çfarëdo modelesh të Inteligjencës Artificiale që të përdoren, pronësia po bëhet një problem gjithnjë e më i madh. Materiali i përdorur për të trajnuar “modelet e mëdha gjuhësore”, shpesh është i mbrojtur nga e drejta e autorit dhe përdoret pa pëlqimin e autorit ose pa e paguar atë.
Disa modele të Inteligjencës Artificiale arrijnë të depërtojnë edhe në artikujt online me pagesë. Krijuesit e modeleve të Inteligjencës Artificiale pretendojnë se kjo metodë është e lejueshme sepse përfshihet në rastet e pranueshme të “përdorimit të drejtë” që parashikon ligji amerikan i së drejtës së autorit.
Ata thonë se modelet e Inteligjencës Artificiale duhet të lejohen që të lexojnë materiale me të drejtë autori, për të mësuar prej tyre, në të njëjtën mënyrë siç munden edhe njerëzit. Por siç ka thënë Benedict Evans, një analist i teknologjisë, “një ndryshim në shkallë” mund të çojë në “një ndryshim në parim”.
Zotërues të ndryshëm të të drejtave të autorit po ndjekin taktika të ndryshme për të luftuar marrjen e të dhënave në internet nga modelet e Inteligjencës Artificiale.
Getty Images ka paditur firmën e Inteligjencës Artificiale të specializuar në krijimin e imazheve Stability AI, duke e akuzuar se kjo e fundit ka përdorur pa autorizim imazhet e saj.
New York Times ka paditur kompanitë OpenAI dhe Microsoft për shkelje të së drejtës së autorit për miliona artikuj. Gazeta të tjera kanë arritur marrëveshje për të licencuar përmbajtjen e tyre.
News Corp, kompania mëmë e Wall Street Journal, nënshkroi një marrëveshje me vlerë 250 milionë dollarë gjatë pesë viteve. (The Economist nuk ka mbajtur një qëndrim konkret për marrëdhëniet e saj me firmat e Inteligjencës Artificiale). Burime të tjera mediatike që mundësojnë tekste dhe video në internet po bëjnë të njëjtën gjë.
Stack Overflow, një faqe për kodim, Reddit, një faqe e mediave sociale dhe X (dikur Twitter), tani po caktojnë tarifa për ata që duan qasje në përmbajtjen e tyre për trajnimin e modeleve të Inteligjencës Artificiale.
Qasja ndaj këtij problemi në botë ndryshon sipas juridiksioneve. Japonia dhe Izraeli kanë një qëndrim tolerant sepse duan të reklamojnë industritë e tyre të Inteligjencës Artificiale. Bashkimi Europian nuk ka një ligj të butë mbi “përdorimin e drejtë”, kështu që mund të jetë më i rreptë.
Aty ku krijohen tregje, lloje të ndryshme të dhënash do të kenë çmime të ndryshme: modelet e Inteligjencës Artificiale do të kenë nevojë për qasje në të dhëna të përditësuara nga bota reale, për të qëndruar edhe vetë të përditësuar.
Aftësitë e modelit të Inteligjencës Artificiale mund të përmirësohen edhe kur versioni i prodhuar nga trajnimi i vetëmbikëqyrur, i njohur si versioni i paratrajnuar, përpunohet pastaj nëpërmjet të dhënave shtesë në procesin e pastrajnimit.
Për shembull, gjatë “përshtatjes së mbikëqyrur”, modeli i Inteligjencës Artificiale ushqehet me një sërë çiftesh pyetje-përgjigje të grumbulluara ose të punuara me dorë nga njerëzit.
Kjo metodë u mëson modeleve të Inteligjencës Artificiale se si është forma e përgjigjeve më të mira. Nga ana tjetër, “përforcimi i të mësuarit nga reagimet njerëzore” (RLHF), u tregon atyre nëse përgjigjja e kënaq apo jo pyetësin (një çështje tjetër mjaft delikate).
Gjatë procesit RLHF, përdoruesit i japin një modeli të Inteligjencës Artificiale reagimin e tyre ndaj rezultateve që ai ka nxjerrë. Këto reagime më pas përdoren për të rregulluar parametrat ose “peshat” e modelit të Inteligjencës Artificiale.
Ndërveprimet e përdoruesve me chatbot-et, si për shembull, shprehja e pëlqimit ose mospëlqimit duke klikuar “thumbs up” ose “thumbs down”, janë veçanërisht të dobishëm për fazën e trajnimit RLHF të modeleve të Inteligjencës Artificiale.
Kjo krijon atë që teknikët e quajnë një “volant i të dhënave”, ku më shumë përdorues përçojnë më shumë të dhëna, të cilat e bëjnë modelin e Inteligjencës Artificiale më të mirë.
Kompanitë startup të Inteligjencës Artificiale po këqyrin me vëmendje se çfarë lloj pyetjesh përdoruesit u bëjnë modeleve të tyre, dhe më pas i mbledhin këto të dhëna për të përshtatur më mirë modelet në ato tema.
Një shkallë më lart
Ndërsa të dhënat e paratrajnimit në internet po ezaurohen, pastrajnimi po bëhet më i rëndësishëm. Kompanitë e Inteligjencës Artificiale për etiketimin e të dhënave, si Scale AI dhe Surge AI, fitojnë qindra miliona dollarë në vit, duke mbledhur të dhëna për procesin e pastrajnimit.
Kompania Scale së fundmi ka fituar 1 miliard dollarë. Kompanitë më të mira të etiketimit të të dhënave fitojnë deri në 100 dollarë në orë. Por edhe pse procesi i pastrajnimit ndihmon në prodhimin e modeleve më të mira të Inteligjencës Artificiale dhe është i mjaftueshëm për shumë aplikacione komerciale, ai realizohet në mënyrë të përshkallëzuar.
Në vend që muri i të dhënave të shtyhet pak e nga pak, një zgjidhje më e mirë do të ishte që ai të kapërcehej. Një qasje është përdorimi i të dhënave sintetike, të cilat krijohen nga vetë makineritë, kështu që janë të pakufishme.
Një shembull i mirë është AlphaGo Zero, një model i prodhuar nga kompania e Inteligjencës Artificiale DeepMind, në pronësi të kompanisë Google.
Modeli i parë i suksesshëm i kompanisë për lojën Go, ishte trajnuar duke përdorur të dhëna të marra nga miliona lëvizje që janë kryer gjatë lojërave amatore. AlphaGo Zero nuk përdori të dhëna që ekzistonin tashmë.
Në vend të kësaj, modeli i Inteligjencës Artificiale e mësoi lojën Go, duke luajtur 4.9 milionë ndeshje kundër vetes për tre ditë rresht, dhe duke vënë në dukje strategjitë fitimtare.
Ky lloj “të mësuari përforcues” i mësoi modelit të Inteligjencës Artificiale se si mund t’u përgjigjej lëvizjeve të kundërshtarit, duke simuluar një numër të madh përgjigjesh të mundshme dhe duke zgjedhur atë që kishte shanset më të mira për të fituar.
Një qasje e ngjashme mund të përdoret edhe me “modelet e mëdha gjuhësore” (LLM). Një “model i madh gjuhësor” mund të krijojë një përgjigje duke gjeneruar si fillim shumë hapa të parë.
Më pas, një operator i veçantë, i trajnuar me të dhëna nga ekspertët për të gjykuar cilësinë, mund të identifikonte se cila është përgjigjja më e mirë që ia vlen të shtjellohet. Një ndihmë e tillë e dhënë nga Inteligjenca Artificiale është një formë e të dhënave sintetike dhe mund të përdoret për të trajnuar më tej modelin.
Përfundimisht mund të përfitohet një përgjigje me cilësi më të lartë. Kjo aftësi për të përmirësuar cilësinë e produktit përfundimtar duke zgjatur kohën e të menduarit, është e ngjashme me procesin e ndërlikuar të të menduarit të njerëzve dhe në gjuhën e Inteligjencës Artificiale, përshkruhet si “sistemi 2”, thotë Andrej Karpathy, një bashkëthemelues i firmës OpenAI.
Tani për tani, modelet e mëdha gjuhësore përdorin të menduarit e tipit “sistemi 1”, duke dhënë një përgjigje pa diskutim, të ngjashme me përgjigjen refleksive të një njeriu.
Vështirësia qëndron në shtrirjen e kësaj qasjeje në mjedise si kujdesi shëndetësor apo arsimi. Në lojëra, ka një përkufizim të qartë të fitores dhe është më e lehtë të grumbullohen të dhëna nëse një lëvizje është e dobishme.
Në fusha të tjera, kjo është më e ndërlikuar. Të dhënat që tregojnë se çfarë është një vendim “i mirë”, zakonisht mblidhen nga ekspertët. Por kjo është e kushtueshme dhe kërkon kohë.
Për më tepër, si mund ta dimë me siguri se një ekspert i caktuar është i saktë?
Është e qartë se qasja në më shumë të dhëna (qofshin të marra nga burime të posaçme, të krijuara në mënyrë sintetike apo të mundësuara nga ekspertët), është çelësi për përparimin e shpejtë të Inteligjencës Artificiale. Ashtu si në rastin e naftës, edhe në rastin e Inteligjencës Artificiale, rezervat më të aksesueshme janë varfëruar.
Tani sfida është që të gjenden burime të reja dhe të qëndrueshme.
Përktheu: Lira Muça
Monitor sipas Ligjit Nr. 35/2016, “Për të drejtat e autorit dhe të drejtat e lidhura me to”.
Artikulli mund të ripublikohet nga mediat e tjera vetëm duke cituar “Revista Monitor” shoqëruar me linkun e artikullit origjinal.