Analiza/ Pse Inteligjenca Artificiale kineze ka mahnitur botën?

Modelet e DeepSeek janë shumë më të lira dhe pothuajse po aq të mira sa rivalët amerikanë, shkruan The Economist
“Modeli i arsyetimit”, një formë e përparuar e Inteligjencës Artificiale, u paraqit në shtator 2024 nga kompania amerikane OpenAI.
Modeli i quajtur O1 përdor një “zinxhir mendimi” për t’iu përgjigjur pyetjeve të vështira në shkencë dhe matematikë, duke zbërthyer problemet sipas hapave dhe duke vënë në provë qasje të ndryshme prapa skenave, përpara se t’ia paraqesë përfundimin përdoruesit.
Sapo u shpalos ky model, nisi menjëherë një garë për të kopjuar metodën. Në dhjetor, Google paraqiti një model arsyetimi të quajtur “Gemini Flash Thinking”. Disa ditë më vonë, OpenAI u përgjigj me O3, një përditësim i modelit O1.
Por në fakt, Google, nuk ishte kompania e parë që imitoi OpenAI. Më pak se tre muaj pasi u paraqit modeli O1, gjiganti kinez i tregtisë elektronike Alibaba, prezantoi një version të ri të chatbot-it të tij Qwen, të quajtur QwQ, me të njëjtat aftësi “arsyetimi”.
“Çfarë do të thotë të mendosh, të pyesësh, të kuptosh?” shkroi kompania në një postim në blog.
Disa javë më parë, një tjetër kompani kineze e quajtur DeepSeek kishte paraqitur një “tablo” të një modeli arsyetimi, të quajtur R1. Pavarësisht përpjekjeve të qeverisë amerikane për të frenuar industrinë e Inteligjencës Artificiale të Kinës, dy kompani kineze u morën lehtësisht terren homologëve amerikanë brenda disa javësh.
Rivaliteti
Firmat kineze nuk po rivalizojnë vetëm në fushën e modeleve të arsyetimit: në dhjetor, DeepSeek publikoi një model të ri të madh gjuhësor (LLM), që është një formë e Inteligjencës Artificiale që analizon dhe krijon tekst.
V3 ishte pothuajse 700 gigabajt, tepër i madh për çdo pajisje, përveç pajisjeve të posaçme, dhe kishte 685 miliardë parametra, që ndërthuren për të formuar rrjetin nervor të modelit.
Ai ishte më i madh se çdo gjë e lëshuar më parë për shkarkim falas. Llama 3.1, modeli i madh gjuhësor i kompanisë Meta, e cila zotëron Facebook-un, dhe që u publikua në korrik, ka vetëm 405 miliardë parametra.
Modeli i madh gjuhësor i DeepSeek nuk është vetëm më i madh se shumë nga homologët e tij perëndimorë. Ai gjithashtu është më i mirë, i krahasueshëm vetëm me modelet e Google dhe OpenAI.
Paul Gauthier, themeluesi i platformës së kodimit Aider, zbuloi nga matjet e kryera se DeepSeek i tejkalonte të gjithë rivalët, përveç modelit origjinal O1.
LMSYS, një renditje e chatbot-eve me burime të shumta, e rendit DeepSeek në vendin e shtatë, më lart se çdo model tjetër me burim të hapur dhe më lart se çdo model i prodhuar nga firma të tjera përveç Google ose OpenAI (shih grafikun).
Dragoi kinez
Inteligjenca Artificiale kineze tani u është afruar aq shumë rivalëve amerikanë, saqë shefi i OpenAI, Sam Altman, u ndie i detyruar të shpjegonte ngushtësinë e hendekut.
Menjëherë pasi DeepSeek lëshoi modelin V3, ai shkroi në Twitter: “Është (relativisht) e lehtë të kopjosh diçka kur e di që funksionon. Është jashtëzakonisht e vështirë të bësh diçka të re, të rrezikshme dhe të vështirë, kur nuk e di nëse do të funksionojë”.
Industria kineze e Inteligjencës Artificiale fillimisht ishte e dorës së dytë. Kjo ndoshta sepse i është dashur të përballet me sanksionet amerikane. Në vitin 2022, Amerika ndaloi eksportin e çipave të përparuar në Kinë.
Nvidia, një prodhues kryesor i çipave, është detyruar të modelojë produkte më të rëndomta për tregun kinez, duke përjashtuar disa tipare.
Amerika gjithashtu është përpjekur të parandalojë që Kina të zhvillojë aftësinë për të prodhuar vetë çipa më të mirë, duke ndaluar eksportet e pajisjeve të nevojshme dhe duke kërcënuar se do të ndëshkojë firmat jo-amerikane që ndihmojnë Kinën.
Një pengesë tjetër për Kinën është kultivimi në atdhe. Firmat kineze u përfshinë me vonesë në hartimin e modeleve të mëdha gjuhësore, pjesërisht për shkak të shqetësimeve rregullatore.
Ato ishin të shqetësuara se si do të përgjigjeshin censuruesit ndaj modeleve që mund të “krijojnë halucinacione”, duke dhënë informacione të pasakta, ose më keq, duke bërë deklarata politikisht të rrezikshme.
Gjiganti kinez Baidu kishte eksperimentuar me modelet e mëdha gjuhësore për vite me radhë dhe kishte krijuar një model të quajtur “ERNIE”, por ngurroi ta lëshonte atë për publikun. Edhe kur u nxit nga suksesi i ChatGPT, kompania fillimisht lejoi hyrjen në ERNIEbot, vetëm me ftesë.
Më në fund, autoritetet kineze e nxorën rregulloren për industrinë e Inteligjencës Artificiale.
Megjithëse u bënë thirrje prodhuesve të modeleve që të kenë kujdes për të mundësuar një përmbajtje të shëndoshë dhe t’u përmbahen “vlerave socialiste”, ata gjithashtu u zotuan të “nxisnin zhvillimin inovativ të Inteligjencës Artificiale gjeneruese”.
Kina u përpoq të konkurronte globalisht, thotë Vivian Toh, redaktore e TechTechChina, një faqe lajmesh. Alibaba ishte një nga kompanitë e para që u përshtat me mjedisin e ri më tolerant, duke hedhur në treg modelin e vet gjuhësor, të quajtur fillimisht Tongyi Qianwen dhe më vonë të shkurtuar në “Qwen”.
Për një vit apo më shumë, Alibaba nuk nxori ndonjë gjë interesante: thjesht një model të zakonshëm të mbështetur në versionin Llama LLM me burim të hapur të kompanisë Meta.
Por gjatë vitit 2024, ndërsa Alibaba bëri përditësime të njëpasnjëshme të modelit Qwen, cilësia filloi të përmirësohej. “Këto modele duket se konkurrojnë me modelet shumë të fuqishme të zhvilluara nga laboratorët kryesorë në Perëndim”, tha Jack Clark i laboratorit të Inteligjencës Artificiale Anthropic.
Kjo ishte një vit më parë, kur Alibaba lëshoi një version të Qwen që është në gjendje të analizojë edhe tekstet, edhe imazhet.
Gjigantët e tjerë kinezë, përfshirë Tencent dhe Huawei, po ndërtojnë modelet e tyre. Por DeepSeek ka origjinë tjetër. Ai as nuk ekzistonte në kohën kur Alibaba nxori modelin e parë Qwen.
DeepSake vjen nga High-Flyer, një fond mbrojtës i krijuar në vitin 2015, me qëllim për të përdorur Inteligjencën Artificiale për të fituar përparësi në tregtimin e aksioneve.
Kryerja e kërkimeve themelore e ndihmoi High-Flyer-in të bëhej një nga fondet sasiore më të mëdha në vend.
Arsyeja nuk ishte thjesht komerciale, thotë Liang Wenfeng, themeluesi i High-Flyer. Mbështetësit e parë të OpenAI nuk po kërkonin një kthim fitimi. Synimi i tyre ishte “të ndiqnin misionin”.
Në të njëjtin muaj kur u lëshua Qwen në vitin 2023, High-Flyer njoftoi se edhe ai po hynte në garë për të krijuar një Inteligjencë Artificiale të nivelit njerëzor dhe e emëroi njësinë e tij kërkimore “DeepSeek”.
Ashtu si OpenAI, DeepSeek premtoi të zhvillonte Inteligjencën Artificiale për të mirën publike. Kompania do të bëjë publike shumicën e rezultateve të trajnimit, tha zoti Liang, në përpjekje për të parandaluar “monopolizimin” e teknologjisë nga disa individë ose firma.
Ndryshe nga OpenAI, që u detyrua të kërkonte fonde private për të mbuluar kostot e larta të trajnimit, DeepSeek ka pasur gjithmonë qasje në rezervat e mëdha të fuqisë kompjuterike të High-Flyer.
Modeli i madh gjuhësor gjigant i DeepSeek shquhet jo vetëm për madhësinë, por edhe për efikasitetin e trajnimit të tij. Modeli ushqehet me të dhëna nga të cilat ai nxjerr parametrat.
Ky sukses nuk ka ardhur falë një risie të vetme, thotë Nic Lane nga Universiteti Cambridge, por nga një sërë përmirësimesh të vogla me kalimin e kohës. Për shembull, procesi i trajnimit shpesh përdorte rrumbullakosje për t’i bërë llogaritjet më të lehta, por i mbante numrat të saktë atëherë kur ishte e nevojshme.
Serverat u rimodeluan për të lejuar çipat individualë të lidheshin me njëri-tjetrin, në një mënyrë më efikase.
Kostot
Falë këtyre dhe risive të tjera, për krijimin e miliarda parametrave të modelit kinez V3, u shpenzuan më pak se 6 milionë dollarë, ose afërsisht rreth një e dhjeta e fuqisë kompjuterike dhe shpenzimeve që shkuan për krijimin e modelit të Meta-s, Llama 3.1.
Trajnimi i modelit kinez V3 kërkonte vetëm 2,000 çipa, ndërsa Llama 3.1 përdori 16,000 të tillë.
Dhe për shkak të sanksioneve të Amerikës, çipat V3 të përdorur, nuk ishin as më të fuqishmit. Ky sukses kinez na shtyn të mendojmë se ndoshta firmat perëndimore i shpërdorojnë çipat.
Meta planifikon të ndërtojë një “fermë” serverash duke përdorur 350,000 prej tyre. Andrej Karpathy, ish-kreu i Inteligjencës Artificiale në kompaninë Tesla, thotë se DeepFake e ka bërë trajnimin e një modeli “të duket i lehtë dhe i lirë”.
Jo vetëm që modeli ishte trajnuar me çmim të lirë, por edhe funksionimi i tij kushton më pak. DeepSeek i ndan detyrat e çipave të shumtë në një mënyrë më efikase se të tjerët dhe fillon hapin tjetër të një procesi përpara se të ketë përfunduar hapin e tanishëm.
Kjo e lejon atë t’i mbajë çipat në kapacitet të plotë. Për rrjedhojë, në shkurt, kur DeepSeek do të fillojë të lejojë firmat e tjera të krijojnë shërbime që përdorin modelin V3, ajo do të tarifojë më pak se një të dhjetën e shumës që tarifon Anthropic për përdorimin e modelit të tij të madh gjuhësor, të quajtur Claude.
“Nëse modelet janë me të vërtetë e njëjta cilësi, atëherë kjo është një kthesë e re e madhe në koston e Inteligjencës Artificiale”, thotë Simon Willison, një ekspert i fushës.
Efikasiteti i DeepSeek nuk ndalet këtu. Këtë javë, edhe pse publikoi modelin R1 të plotë, ai lëshoi gjithashtu një grup variantesh më të vogla, më të lira dhe më të shpejta “të distiluara”, të cilat janë pothuajse po aq të fuqishme sa modeli më i madh.
Kjo nxiti imitime të ngjashme nga Alibaba dhe Meta dhe provoi sërish se DeepFake mund të konkurronte me emrat më të mëdhenj të biznesit.
Rruga e dragoit kinez
Alibaba dhe DeepSeek sfidojnë laboratorët më të përparuar perëndimorë, edhe në një mënyrë tjetër. Ndryshe nga kompanitë OpenAI dhe Google, laboratorët kinezë ndjekin drejtimin e kompanisë Meta dhe i bëjnë sistemet e tyre të disponueshme sipas një licence me burim të hapur.
Nëse dëshironi të shkarkoni një model Qwen dhe të ndërtoni programimin tuaj duke u mbështetur në të, nuk nevojitet asnjë leje e posaçme.
Ka edhe një transparencë të madhe. Të dyja kompanitë publikojnë të dhëna sa herë që nxjerrin modele të reja që mundësojnë një sërë detajesh në lidhje me teknikat e përdorura për të përmirësuar performancën e tyre.
Kur kompania Alibaba lëshoi modelin QwQ, që janë inicialet për “Questions with Qwen”, ajo u bë kompania e parë në botë që publikoi një model të tillë nën një licencë të hapur, duke lejuar këdo që të shkarkojë skedarin e plotë prej 20 gigabajt dhe ta përfshijë atë në sistemet e veta ose thjesht ta provojë për të parë si funksionon.
Kjo është një qasje shumë e ndryshme nga OpenAI, e cila e mban të fshehtë funksionimin e brendshëm të modelit O1.
Në vija të trasha, të dyja modelet zbatojnë atë që njihet si “llogaritje në kohë testimi”: në vend që ta përqendrojnë fuqinë llogaritëse gjatë trajnimit të modelit, ata gjithashtu e përdorin gjatë përgjigjes së pyetjeve.
Ky është ndryshimi kryesor i tyre nga modelet e mëdha gjuhësore të mëparshme. Këtë lloj operimi kompjuterik, mund ta krahasojmë me versionin dixhital të “të menduarit të tipit 2” tek njerëzit, siç e ka quajtur psikologu Daniel Kahneman procesin e të menduarit që është më i ngadaltë, më i qëllimshëm dhe më analitik se “tipi 1” i shpejtë dhe instinktiv. Ai ka dhënë rezultate premtuese në fusha si matematika dhe programimi.
Për shembull, nëse ju bëhet një pyetje e thjeshtë faktike, si “cili është kryeqyteti i Francës?”, ju do të përgjigjeni me emrin e parë që ju vjen ndër mend dhe do të jeni të saktë. Edhe një chatbot i zakonshëm funksionon në të njëjtën mënyrë: nëse statistika gjuhësore i jep një përgjigje shumë më të parapëlqyer se të tjerat, ai e zgjedh si përgjigje.
Por nëse ju bëhet një pyetje më e ndërlikuar, ju duhet të mendoni në një mënyrë më analitike. Për shembull, nëse ju pyesin cili është qyteti i pestë më i populluar i Francës, ndoshta do të filloni duke sjellë ndër mend një listë të gjatë të qyteteve të mëdha franceze, më pas do të përpiqeni t’i rendisni ato sipas popullatës dhe pastaj do të jeni në gjendje të jepni një përgjigje.
Edhe modeli O1 dhe imituesit e tij, nxisin një formë mendimi të ndërlikuar: në vend që të japë përgjigjen e parë më të besueshme, sistemi e ndan problemin në disa hapa dhe përparon drejt një përgjigjeje, hap pas hapi, njëlloj si njeriu.
Por modeli O1 i mban mendimet e tij për vete, duke u zbuluar përdoruesve vetëm një përmbledhje të procesit dhe përgjigjen përfundimtare. OpenAI dha disa shpjegime për këtë zgjedhje.
Ndonjëherë, për shembull, modeli shqyrton nëse duhet të përdorë fjalë fyese apo të zbulojë të dhëna të rrezikshme, por më pas vendos të mos e bëjë këtë. Nëse zbulohet arsyetimi i tij i plotë, atëherë zbulohet edhe materiali i ndjeshëm. Modeli e mban të fshehur mekanikën e saktë të arsyetimit, edhe për të ruajtur veten nga kopjuesit e mundshëm.
Alibaba nuk ka shqetësime të tilla. Nëse i kërkoni modelit QwQ të zgjidhë një problem të ndërlikuar matematikor, ai ju shpalos me kënaqësi çdo hap të rrugëtimit të arsyetimit të tij, ndonjëherë edhe duke folur me vete ndërsa përpiqet të orientohet mes qasjeve të ndryshme për zgjidhjen e detyrës që i keni dhënë. Për shembull, modeli mund të shprehet:
“Kështu tani mua më duhet të gjej faktorin më të vogël primar tek, të shumës 20198 + 1. Hmm, kjo duket shumë e madhe, por mendoj se mund ta zbërthej hap pas hapi”, dhe vazhdon të prodhojë rreth 2000 fjalë analizuese përpara se të japë përgjigjen e saktë, numrin 97.
Transparenca e Alibaba-s nuk është aspak një rastësi, thotë Eiso Kant, bashkëthemeluesi i kompanisë së Inteligjencës Artificiale Poolside, me seli në Portugali. Laboratorët kinezë janë zotuar në betejën për të tërhequr talent, vëren ai.
“Nëse je një studiues që po mendon të punosh jashtë shtetit, cila është e vetmja gjë që nuk mund të të japin laboratorët perëndimorë? Ne perëndimorët nuk mund t’i bëjmë transparente gjërat tona. Po e mbajmë gjithçka të kyçur, për shkak të natyrës së garës që po zhvillojmë”.
Edhe nëse inxhinierët në firmat kineze nuk janë të parët që zbulojnë një teknikë, ata janë shpesh të parët që e publikojnë atë, thotë zoti Kant. “Nëse doni të shihni ndonjë teknikë të fshehtë, ndiqni studiuesit kinezë me burim të hapur.
Ata publikojnë gjithçka dhe po bëjnë një punë të mrekullueshme”. Gazeta që bëri publikimin e modelit V3, renditi 139 autorë me emër, vëren zoti Lane. Një njohje e tillë mund të jetë më tërheqëse sesa puna e lodhshme dhe e panjohur në një laborator të errët amerikan.
Vendosmëria e qeverisë amerikane për të ndalur zhvendosjen e teknologjisë së përparuar drejt Kinës, ka penguar edhe punën e studiuesve kinezë në Amerikë.
Problemi nuk është vetëm barra administrative e vendosur nga ligjet e reja që synojnë të mbajnë të fshehta risitë e fundit amerikane. Ka edhe një hije dyshimi ndaj kinezëve në përgjithësi. Akuzat për spiunazh fluturojnë edhe në evente shoqërore.
Shefi i madh
Puna në Kinë ka edhe anët negative. Për shembull, nëse do të pyesnit modelin DeepSeek V3 për Tajvanin, do t’ju shpjegojë me kënaqësi se ai është një ishull në Azinë Lindore “i njohur zyrtarisht si Republika e Kinës”.
Por pasi formon disa fjali, ai ndalet, fshin përgjigjen fillestare dhe këshillon shkurt: “Le të flasim për diçka tjetër”.
Laboratorët kinezë janë më transparentë se qeveria e tyre, sepse duan të krijojnë një ekosistem firmash të përqendruar në Inteligjencën e tyre Artificiale.
Kjo ka njëfarë vlere komerciale, sepse kompanitë që ndërtojnë aplikacionet e tyre duke u mbështetur në modelet me burim të hapur, mund të binden që të blejnë produkte ose shërbime nga krijuesit e këtyre modeleve.
Gjithashtu sjell një përfitim strategjik për Kinën, sepse i krijon asaj aleatë në fërkimin me Amerikën mbi Inteligjencën Artificiale.
Firmat kineze sigurisht që do të parapëlqenin të ndërtonin sisteme duke u mbështetur në modelet kineze, pasi ato nuk duhet të shqetësohen se ndalimet ose kufizimet e reja mund t’i shkëputin nga platforma themelore.
Gjithashtu e dinë se nuk ka gjasa të bien në kundërshtim me kërkesat e censurës në Kinë, të cilat modelet perëndimore nuk i marrin parasysh.
Për firmat si Apple dhe Samsung, të etura për të ndërtuar mjete të Inteligjencës Artificiale në pajisjet që shesin në Kinë, ortakët lokalë janë një domosdoshmëri, vëren Francis Young, një investitor teknologjie me seli në Shangai. Madje edhe disa firma jashtë vendit kanë arsye të posaçme për përdorimin e modeleve kineze:
Modeli Qwen është qëllimisht i rrjedhshëm në gjuhët “me burime të ulëta” si Urdu dhe Bengali, ndërsa modelet amerikane janë trajnuar duke përdorur kryesisht të dhëna në gjuhën angleze. Një tjetër joshje janë edhe kostot e ulëta të modeleve kineze.
Kjo nuk do të thotë domosdoshmërisht se modelet kineze do të mbizotërojnë botën. Inteligjenca Artificiale amerikane zotëron ende aftësi që rivalët e saj kinezë nuk mund t’i arrijnë.
Një program kërkimor nga Google e dorëzon browser-in e internetit të një përdoruesi, në chatbot-in e tij Gemini, duke rritur mundësinë e “agjentëve” të Inteligjencës Artificiale që ndërveprojnë me web-in.
Chatbot-e si Anthropic dhe OpenAI ju ndihmojnë jo vetëm të shkruani kodin, por edhe ta zbatoni atë për nevojat tuaja. Modeli Claude do të ndërtojë dhe do të mirëpresë aplikacione të tëra.
Dhe arsyetimi hap pas hapi nuk është mënyra e vetme për të zgjidhur problemet e ndërlikuara. Nëse pyesni versionin e zakonshëm të ChatGPT për problemin matematikor që përmendëm më sipër, ai shkruan një program të thjeshtë për të gjetur përgjigjen.
Altman ka lajmëruar se priten më shumë risi, duke njoftuar se së shpejti, OpenAI ka ndërtuar “super-agjentë të nivelit të doktoraturës” të cilët janë po aq të aftë sa ekspertët njerëzorë për një sërë detyrash intelektuale. Gara e Inteligjencës Artificiale mund ta nxisë teknologjinë amerikane të prodhojë gjëra edhe më të mëdha.