நீரை அறியாத மீன்

03/04/2023

302

ஆக்குச் செய்யறிவுப் பொறியின் அமைப்பு

Generative Pre-Training Transformer (GPT) என்பது ஒரு பொறி. அதன் இதயமாக விளங்குவது Large Language Model (LLM) எனப்படும் ஒரு தீர்வு வழிமுறை (algorithm). இப்பொறியின் பணிகளைக் கீழ்க்கண்ட பெரும்பிரிவுகளாகப் பகுக்கலாம்:

கேட்கப்பட்ட கேள்வியைப் புரிந்துகொண்டு அதிலுள்ள ‘முக்கியமான’ சொற்களைச் சலித்து எடுத்துக்கொள்ளுதல்
சேகரித்து வைக்கப்பட்ட ஒரு மாபெரும் தரவுக் களஞ்சியத்திலிருந்து, கேட்கப்பட்ட கேள்விக்குத் தொடர்புடைய அனைத்துத் தகவல்களையும் தொகுத்துக் கொள்ளுதல்
அதன் திரண்ட பொருளின் ஒரு சுருக்கமான வடிவத்தை (summary) அமைத்துக்கொள்ளுதல்
தொடக்கம், கருத்துகளின் ஒழுங்கான வரிசை, இறுதி என வடிவத்தை முடிவெடுத்துக்கொள்ளுதல்
பதிலுக்கான சொற்களை ‘அடுத்த சொல் என்ன’ எனக் கணித்துக் கணித்து இலக்கணப்படி வாக்கியங்களை அமைத்தல்

சென்றமாத இதழில் வெளியான “ஆக்குச் செய்யறிவும் அசல் மெய்யறிவும்: கவிதையளவே தூரம்” என்ற கட்டுரையின் நீட்சியாக இக்கட்டுரையைக் கொள்ளலாம். ஆக்குச் செய்யறிவுப்பொறி செயல்படும் விதம், வளர்ச்சி, பயன்பாடு, எதிர்காலம் உள்ளிட்ட பல்வேறு அம்சங்களைச் சற்று விரிவாகப் பார்க்கலாம்.

GPT பொறிக்குள் மேற்சொன்ன பணிகளைச் செவ்வனே செய்யும் மூன்று சிறப்பு துணைப் பொறிகள் உள்ளன. எந்த ஒரு மொழியானாலும் அதை செய்யறிவுக்கு மாற்ற இந்தப் பொறிகள் அவசியமானவை.

சொற்களின் பொருளைப் புரிந்துகொள்ளுதல் (Natural Language Processing – NLP)
புரிதலுக்கு ஏற்ற முடிவுகளை எடுத்து அடுத்த நடவடிக்கையைத் தேர்ந்தெடுத்தல் (Natural Language Understanding – NLU)

அளிக்கவேண்டிய பதிலை உருவாக்குதல் (Natural Language Generation – NLG)

இதுவரை ஆக்குச் செய்யறிவுத் துறையில் இல்லாத அளவுக்கு GPT பொறிக்கு மிகச் சிறப்பான முறையில், வெகுவிரைவாக மக்கள் பேசும் மொழியமைப்பைப் புரிந்துகொள்ளவும் பதிலளிக்கவும் பயிற்சி கொடுக்கப்பட்டுள்ளது. மேலும், பல வடிவங்களில் (எழுத்துப் பிரதிகள், படங்கள், காணொளிகள், ஒலிப்பதிவுகள், அட்டவணைகள்) தரவுகளைக் கையாளும் திறமை பெற்றது. தற்போது முன்னோட்டச் சோதனை வடிவத்தில் மக்களின் பயன்பாட்டுக்கு வந்துள்ளது. இதன் தரவுக் களஞ்சியம் தொடர்ந்து வளர்ந்துகொண்டே செல்கிறது.

தற்போது பயன்பாட்டில் உள்ள GPT3.5 என்னும் பதிப்பு ஆக அண்மையது. GPT4 எனும் அடுத்த உயர் பதிப்பும் விரைவில் வரவிருக்கிறது

நாம் இந்தப் பொறியை எந்த அளவுக்குப் பயன்படுத்துகிறோமோ அந்த அளவுக்கு நம் உரையாடல்களின் வழியே அது இன்னமும் ‘கற்றுக்கொண்டு’ தன் திறமையைச் செம்மைப்படுத்திக்கொண்டே இருக்கிறது. ஆக்குச் செய்யறிவின் மிக முக்கியமான செயல்பாடே இயந்திரக் கற்றல் (machine learning) மூலம் ‘தொடர்ந்து கற்றுக்கொண்டு’ தன்னிடம் உள்ள குறைகளைக் களைந்து மேலும் மேலும் தன்னைக் கூர்தீட்டிக்கொள்வதுதான். அந்த வகையில் தற்போது பயன்பாட்டில் உள்ள GPT3.5 என்னும் பதிப்பு ஆக அண்மையது. GPT4 எனும் அடுத்த உயர் பதிப்பும் விரைவில் வரவிருக்கிறது. தற்போது உலகைக் கலக்கிவரும் ChatGPTயும் மேற்சொன்ன பொறியைப் பயன்படுத்தி நம்மோடு உரையாடும் ஒரு செயலியே.

தற்போது என்ன நடக்கிறது?

GPT பொறி பயன்படுத்தும் தரவுகள் 2021 வரையிலானவை என்று அதை உருவாக்கிய OpenAI நிறுவனம் கூறுகிறது. ஆனால் தற்போது மைக்ரோசாஃப்ட் இந்தத் தொழில்நுட்பத்தை தனது bing தேடுபொறி, edge உலாவி போன்றவற்றில் பிணைத்து ஆக அண்மைய தரவுகளைப் பயன்படுத்தும் முயற்சியில் இறங்கியுள்ளது. கூகுள் நிறுவனமும் தன் பங்காக Lamda எனும் தொழில்நுட்பத்துடன் Bard என்னும் பொறியை அறிமுகப்படுத்தியுள்ளது. இந்நிறுவனங்கள் ஏற்கெனவே முதிர்ச்சியடைந்த தேடுபொறிகளைத் தம்வசம் கொண்டிருப்பதால் கூடுதல் அனுகூலம் உண்டு. இவை இன்னமும் பொதுப் பயன்பாட்டுக்கு வரவில்லை என்றாலும் beta test எனப்படும் சோதனைப் பயன்பாட்டில் உள்ளன, இதில் கூகுள் நிறுவனத்தின் செயலி தவறான ஒரு செய்தியைச் சொல்ல, அதன் நம்பகத்தன்மை கேள்விக்குள்ளாகப்பட்டது மட்டுமல்லாமல் பங்குச்சந்தையில் சுமார் 100 பில்லியன் டாலர் அளவுக்குப் பெரும் சரிவையும் கண்டது.

தமிழில் வேலைசெய்யுமா?

தற்போது GPT ஆங்கில மொழிக்கேற்ப பயிற்சியளிக்கப்பட்டுள்ளது. எனவே, வேறு மொழிக்கான தேவை வரும்போது மொழிபெயர்ப்புப் பொறிகளைப் பயன்படுத்திக்கொள்கிறது. அத்தகைய மொழிபெயர்ப்புப் பொறிகளில் ஏற்கெனவே உள்ள குறைபாடுகள் வெளிப்படும்போது அவை சில சமயங்களில் நகைப்புக்குரியதாக உள்ளன. ஆனால் சமூக ஊடகங்களில் கேலியும் கிண்டலுமாக அவை பகிரப்படும் செயல் அதைவிடவும் நகைப்புக்குரியது.

மொழியைப் பேசுவதை, எழுதுவதைப் பொறுத்தவரை, நம்மை விடவும் ஒருவருக்கு மொழியறிவு குறைவென்றால் – அது இயந்திரமாக இருந்தாலும் – அதைக் கேலிசெய்தல் மனித இயல்பு. இது தமிழில் மட்டுமின்றி உலகின் பல மொழிகளிலும் உண்டு. மொழிபெயர்ப்புப் பொறிகளும் தத்தமது ஆக்குச் செய்யறிவின் மூலம் தொடர்ந்து கற்றுக்கொண்டு மேம்பட்டு வருகின்றன. ஆனால் அது வல்லுநர்கள் இயந்திரத்திற்குப் பயிற்சி அளிப்பதில் எந்த அளவுக்கு ஊக்கமாகச் செயல்படுகிறார்கள்; பயனாளர்களிடமிருந்து எந்த அளவுக்குத் தரமான பின்னூட்டம் கிடைக்கிறது போன்றவற்றைப் பொறுத்தே அமையும்.

கூகுள் போன்ற முன்னணி நிறுவனங்களின் மொழிபெயர்ப்புக் கருவிகளும் அவரவர்களிடம் இருக்கும் சொற்குவை, அகராதி, இணைத்தில் உள்ள மற்ற அகராதிகள் போன்றவற்றைப் பயன்படுத்துகின்றன. இவற்றின் தரத்தைப் பொறுத்தே மொழிபெயர்ப்புப் பொறிகளின் தரமும் இருக்கும். அதிலும் தமிழ் போன்ற இரட்டை வழக்கு மொழிகள் (diglossic – பேச்சுமொழி, எழுத்துமொழி) கூடுதல் சவால்களை அளிக்கின்றன. வட்டார வழக்குகளும் (dialects) சவால்களின் தீவிரத்தை அதிகப்படுத்துகின்றன. மேலே சொல்லப்பட்ட 3 துணைப் பொறிகளும் பெரும்பாலான இலத்தீன் அடிப்படை மொழிகளில் மேம்பட்டு விட்டன. ஆனால் தமிழ் போன்ற மொழிகள் இன்னமும் இடைநிலை அளவிலேயே உள்ளன. எனவே இத்துறையில் மேம்பட தமிழார்வம் உள்ள ஒவ்வொருவருக்கும் பொறுப்பும் பங்கும் இருக்கிறது.

பயன்பாடு என்னவாக இருக்கும்?

தனியார், அரசுத் துறைகளில் பல ஆண்டுகளாக சேகரத்தில் உள்ள பலதரப்பட்ட ஆவணங்கள் இருக்கும். ஒரு தீர்வுக்காக ஆய்வு மேற்கொள்ளும்போது கையாள வேண்டிய ஆவணங்களின் எண்ணிக்கை மிக அதிகமாக இருக்கும்போது ஆள் பற்றாக்குறை, அவசரம் போன்ற காரணங்களால் அனைத்து ஆவணங்களையும் பயன்படுத்த முடியாமல் போகலாம். அல்லது தாமதம் ஆகலாம். பல சமயங்களில் முடிவெடுப்பதில் தாமதம் ஆவதாலேயே பிரச்னைகள் மேலும் சிக்கலாகின்றன அல்லது புதிய சிக்கல்கள் எழுகின்றன. இவற்றை மின்னிலக்க வடிவத்தில் மாற்றிச் சேமித்துவிட்டால், GPT போன்ற பொறிகள் இவற்றை அடிப்படைத் தரவுகளாகக்கொண்டு ஆவணங்களை விரைவாகத் தேடி வேண்டிய தகவல்களைத் தொகுத்து சுருக்கமாக அளிக்கலாம். துறை சார்ந்த அதிகாரிகளால் பிரச்னைகளுக்கான சில முடிவுகளை விரைந்து எடுக்க முடியும். தற்போது இது சிங்கப்பூரின் சில அரசுத்துறைகளில் சோதனை ஓட்டம் காணவிருக்கிறது.

தமிழ் போன்ற இரட்டை வழக்கு மொழிகள் (diglossic - பேச்சுமொழி, எழுத்துமொழி) கூடுதல் சவால்களை அளிக்கின்றன. வட்டார வழக்குகளும் (dialects) சவால்களின் தீவிரத்தை அதிகப்படுத்துகின்றன.

போலவே பத்திரிக்கையாளர்கள், கட்டுரையாளர்கள் போன்றோருக்கு தகவல்களைத் திரட்டி, தொகுத்து விரைவாக ஒரு சுருக்கமாகக் கிடைத்தால் அதை முதல் வரைவாகக் கொண்டு அதை மேலும் விரித்தெழுதலாம். நேரம் மிச்சப்படுவதால் வேறு பல வேலைகளை இணையாகச் செய்யமுடியும்.

Call Centers என்று பொதுவாக அழைக்கப்படும் மக்களின் குறைகளைக் கேட்கும் முதல் நிலை மையங்களில் இதன் பயன்பாடு அதிகமாக இருக்கும் வாய்ப்பு உள்ளது. அரசுத்துறையோ, தனியாரின் நுகர்வோர் சேவை மையங்களோ நாள்தோறும் பல்வேறு மக்களுடன் உரையாடுகின்றனர். அவற்றில் அடிக்கடி கேட்கப்படும் கேள்விகள் அல்லது குறைகளைக் கண்டறிந்து அவற்றைத் தொகுத்துவைக்க முடியும். ஏற்கெனவே இந்த மையங்கள் மிக அதிகமாக இயந்திரங்களால் கையாளப்பட்டு வருகின்றன.

தொலைபேசியிலோ இணையதளங்களிலோ இந்த மையங்களை அணுகும்போது பெரும்பாலும் நம்மோடு முதலில் உரையாடுபவை ‘பாட்’ (bot) எனப்படும் சிறு இயந்திரர்களே. அவற்றால் பதிலளிக்க முடியாத அல்லது மனிதருடன்தான் உரையாடவேண்டும் என்ற தேவை வரும்போதுதான் அவை மேலே தொடர்கின்றன. GPT தொழில்நுட்பம் அதை இன்னமும் எளிமையாக, மனிதருக்கு நெருக்கமாக ஆக்கலாம். மேலும் இவற்றால் மிக அதிக அழைப்புகளைக் கையாள முடியும் என்பதால் நாம் காத்திருக்கும் நேரமும் குறை தீரும் நேரமும் சுருங்கி, நம்பகத்தன்மை அதிகமாகலாம்.

நீதிமன்றங்கள், தீர்ப்பாயங்கள் போன்றவற்றில் குரல் வழி விவாதிக்கப்படும் அனைத்தும் உடனுக்குடன் பிரதிகளாக மாற்றப்பட்டு (transcribed) முதல் வரைவு தயாராக இருக்கும். இதனால் நீதித்துறை சார்ந்த நடவடிக்கைகள் விரைவாக நடைபெறும் வாய்ப்புகள் உண்டு.

தொலைபேசியிலோ இணையதளங்களிலோ இந்த மையங்களை அணுகும்போது பெரும்பாலும் நம்மோடு முதலில் உரையாடுபவை 'பாட்' (bot) எனப்படும் சிறு இயந்திரர்களே.

மேற்சொன்னவை மிகச் சில உதாரணங்கள்தாம். போக்குவரத்து, மருத்துவம், தளவாடம், வணிகம், முதலீடு என்று பல்வேறு துறைகளிலும் இது சோதனை முயற்சிகளில் உள்ளது. கூடிய விரைவில் பொதுப்பயன்பாட்டுக்கு வரும் வாய்ப்புகள் அதிகம்.

முனைந்து சரியான தரவுகளைத் தேடாமல் கிடைக்கும் தரவுகளைக் கொண்டு, அவற்றின் நம்பகத்தனைமையை ஆராயாமல், எடுக்கப்படும் முடிவுகள் சரியானவையாக இருக்குமா என்பது ஐயமே.

கற்றல், கற்பித்தல் போன்ற துறைகளில் இதன் வீச்சு மிக அதிகமாக இருக்கலாம். நிழற்படங்கள், காணொளிகள் போன்றவற்றை ஆராய்ந்து அதில் ஏதேனும் மோசடிகள், குறுக்கீட்டுத் திருத்தங்கள் போன்றவற்றை வெளிக்கொணரலாம். கொடுக்கப்பட்ட விவரங்களுக்கு ஏற்ப படங்கள் வரையும் திறன் பெற்ற செயலிகள் வரலாம். பல்வேறு ஓவியர்களின் ஓவியங்களை ஆராய்ந்து அவரவர் தனிப்பட்ட பாணிகளைக் கற்றுக்கொண்டு அவர்களைப் போலவே ஓவியம் படைக்கும் திறன்பெற்ற மென்பொருட்களும் உருவாகி வருகின்றன. முடிக்காமல் விடப்பட்ட சில சிம்ஃபனி இசைக்கோர்வைகளைக் கூட எழுதி முடித்திருக்கின்றன.

இனி எல்லாம் நன்மைக்கே என்று சொல்லலாமா?

மாணவர்கள் தங்களின் வீட்டுப்பாடங்கள், பயிற்சிகள், தேர்வுகள் போன்றவற்றிற்கு ChatGPT செயலியைப் பயன்படுத்துவதால் அவர்களின் இயல்பான கற்றல் திறன், படைப்பூக்கம் ஆகியவை குறைந்துவிடும் என்ற அச்சம் பொதுவாக உள்ளது. வேலை சுலபமாகலாம் ஆனால் நாம் இயல்பாகக் கற்கும் வழி இதுவல்ல என்பதால் பல நாடுகளின் கல்வி நிலையங்களில் இதுபோன்ற செயலிகளைப் பயன்படுத்துவது தடைசெய்யப்பட்டுள்ளது.

மாணவர்கள் மட்டுமல்லாமல் மற்ற துறைகளில் உள்ளவர்கள் கூட எளிமை, வேகம் காரணமாக இச்செயலிகளைப் பயன்படுத்தும்போது கிடைக்கும் தரவுகளை மிக மேம்போக்காகக் கையாளும் அபாயமும் உள்ளது. முனைந்து சரியான தரவுகளைத் தேடாமல் கிடைக்கும் தரவுகளைக் கொண்டு, அவற்றின் நம்பகத்தனைமையை ஆராயாமல், எடுக்கப்படும் முடிவுகள் சரியானவையாக இருக்குமா என்பது ஐயமே.

ஆக்குச் செய்யறிவுக்குத் தேவையான தீர்வு வழிமுறையை வடிவமைப்பது மனிதர்களாகிய நாம்தான். எனவே இதில் இயல்பாகவே மனித சாய்வுநிலைகள் (bias) வெளிப்படலாம். நடுநிலை பேணப்படுவதாக இவற்றை உருவாக்கும் நிறுவனங்கள் கூறினாலும் சாய்வுகள் முற்றிலுமாகத் தவிர்க்கப்பட முடியாதவை என்று வல்லுநர்கள் கருதுகிறார்கள். ஒரு பொருளை விற்கவோ, ஒரு கருத்தை மக்களிடம் திணிக்கவோ, பொய்ச் செய்திகளைப் பரப்பவோ இந்தச் சாய்வுநிலையானது ஊடகங்களின் வழியே மிக வேகமாகப் பரவி மக்களைச் சென்றடையும். ஏற்கெனவே பொய்கள் மலிந்து கிடக்கும் இணையத்தில் உண்மையைப் பிரித்துக் கண்டறிவது மிகச் சவாலான பணியாக உள்ளது.

சிங்கப்பூர் போன்ற பல்வேறு மத, இன, மொழிகள் புழங்கும், 90 விழுக்காட்டுக்குமேல் இணையத்தைப் பயன்படுத்தும் மக்கள் இருக்கும் சிறிய நாட்டில் நடுநிலை தவறிய ஒரு கருத்து தீபோலப் பரவினால் அது மிகவும் அபாயகரமான விளைவுகளை உண்டாக்கலாம். ஆகவே செய்யறிவுப் பொறியை மிகவும் கவனமாகக் கையாளவேண்டிய தேவை உள்ளது. சட்ட, அறநெறிமுறை சார்ந்து எழும் சிக்கல்களுக்கு சரியான தீர்வு வழிமுறைகளும் இணையாக மேம்படுத்தப்பட்டு வருகின்றன. குறிப்பாக நிதி, மருத்துவம் போன்ற துறைகளில் இவை குறித்த கவலைகள் அதிகமாகவே உள்ளன.

எதிர்காலம் எப்படியிருக்கும்?

மனிதர்கள் செய்துவரும் பல வேலைகள் பறிபோகக்கூடும். அவ்வாறான வேலைகள் திரும்பத் திரும்பச் செய்யப்படுவைதான் என்று கூறப்பட்டாலும் உலகம் முழுவதும் பொதுவாக இந்த வாழ்வாதாரம் சார்ந்த அச்சம் இருக்கிறது. தொழில்நுட்பம் சார்ந்த வேலைகளுக்கு இன்னமும் மனிதர்கள் தேவைபடுகிறார்கள்; மேலும் புதிய தேவைகளும் உருவாகும்; எனவே இதுகுறித்த அச்சம் தேவையற்றது என்ற கருத்தும் உள்ளது. இவ்வாறு பாதிக்கப்பட்ட வேலைகள் குறித்த தரவுகள் தெளிவாக இல்லாததால் இப்போதைக்கு அறுதியிட்டு ஏதும் கூற முடியவில்லை.

ஐம்புலன்கள் வழி நாம் அறியும் எதையும் மென்பொருள் பொறிகளுக்குக் ‘கற்றுக்கொடுத்து’ விடலாம். பலவிதமான அதிநுட்ப உணரிகளை (ultra sensitive sensors) உருவாக்கி நம்மால் இயலாத பல பணிகளை வெற்றிகரமாகச் செய்துவிட்டோம்.
நீரிலேயே பிறந்து வளரும் ஒரு மீன் ‘நீர்’ என்பதை ‘அறியுமா’ என்ற தத்துவார்த்தமான கேள்வி ஆக்குச் செய்யறிவுக்கும் பொருந்தும். மொழி என்பது வெறும் சொற்கள் சார்ந்தது அல்ல. அது உருவாகும் மனித மனம் சார்ந்தது. தன்னிலை (subjectivity) தன்னுணர்வு (consciousness) போன்றவை மனிதர்களுக்கே உரித்தான தனித்தன்மை வாய்ந்தவை. மனிதர்களுக்கு இடையிலேயே இவற்றைச் சொற்களால் புரியவைக்க முடியாது.

‘உள்ளுணர்வு’ நமது மூளைக்குள் நியூரான்களுக்கிடையே நிகழும் அரைக்கால் மைக்ரோவோல்ட் அளவிலான மின்னாற்றல் என அளவிட்டு அதைச் செய்யறிவுக்கும் புகட்ட முடியுமா?

மொழிக்கு இலக்கணம் என்ற ஒரு வரையறை இருக்கிறது. அந்த வரையறை கூடத் தொடர்ந்த உரையாடல்களால் மெல்லமெல்லக் கட்டமைக்கப்பட்டு, பரிணமித்து, அனைவராலும் ஏற்றுக்கொள்ளப்பட்ட ஒருநிலைக்கு வந்துசேர்ந்துள்ளது. ஆயினும் அந்தப் பரிணாமம் மனிதர்களின் உள்ளுணர்வுகளால் சமைக்கப்பட்டது. அந்த ‘உள்ளுணர்வு’ நமது மூளைக்குள் நியூரான்களுக்கிடையே நிகழும் அரைக்கால் மைக்ரோவோல்ட் அளவிலான மின்னாற்றல் என அளவிட்டு அதைச் செய்யறிவுக்கும் புகட்ட முடியுமா? எந்தக் காலத்திலும் சாத்தியமில்லை என்பது தத்துவவியலாளர்களும் பல அறிவியலாளர்களும் கூறும் பதில்.

நம் மூளை இயங்கும் விதத்தை நாம் இன்னும் முழுமையாக அறிந்துகொள்ளவில்லை. மனம் என்னும் உட்புலன் மூளை இயக்கத்தின் ஒரு வெளிப்பாடு மட்டும்தானா? அது உடல் முழுதும் வியாபகமானதா? அது தன்னைச் சுற்றியுள்ள இயற்கைப் பேரறிவு எனும் பெரும் சங்கிலியின் ஒரு சிறு கண்ணியா? வியந்து நிற்கிறோம். அறிதொறும் அறியாமையைக் கண்டு மலைக்கிறோம். அந்நிலையோடு ஒப்பிடும்போது ஆக்குச் செய்யறிவு தற்போது பல படிநிலைகள் கீழே உள்ளது. அதன் பரிணாம வளர்ச்சிக்கு இன்னமும் காலங்கள் பிடிக்கும். அதுவரை மீன் நீரை உணராமலே நீந்தட்டும்!

ஒருவேளை எதிர்காலத்தில் எப்போதாவது செய்யறிவும் மெய்யறிவும் சமபலம் எய்துமென்றாலும் நல்லதுதான். ஏனெனில் அப்போது உலகத்தில் மனிதம், இயந்திரம் என இரண்டே ‘இனங்கள்’ மட்டும் இருக்கும். மனித இனத்தின் இன்றைய எண்ணற்ற பிரிவினைகள் அனைத்தும் அப்போது மிகச்சிறிதாக ஆகிவிடலாம். யாவரும் கேளிர் என்னும் கனவு நடைமுறையில் சாத்தியமாகலாம். யோசிக்கவே இனிப்பாக இருக்கிறது.