बहुप्रकारात्मक एआय : चित्र, संगीत आणि व्हिडिओनिर्मिती

    12-Apr-2025
Total Views | 4

Multi-modal AI
‘एआय’ जसे जुने होत आहे, तसेच ते अधिक प्रगल्भदेखील होत आहे. आता मानवाच्या दैनंदिन गरजांवर ते कौशल्याने काम करत आहे. मात्र, एकीकडे हा प्रगतीचा टप्पा जरी ‘एआय’ने ग़ाठला असला, तरी त्याच्या नैैतिकतेवर आणि मानवाला भेडसावणार्‍या संभाव्य धोक्यांवर चर्चा सुरू झाली आहे. तरीही सध्या जग हे ‘एआय’च्या या विविध क्षेत्रांतील उपयोजितेचा आनंद उपभोगत आहे. ‘एआय’चा मानवी आयुष्यातील दैनिक गरजांमध्ये होणार्‍या उपयोगाचा घेतलेला हा आढावा...
 
आजोबा, आज मी तुम्हाला भरपूर गमतीदार काही दाखवणार आहे बरं का!” आता आदित्य काय दाखवतो, याकडे जयंतरावांचे आणि त्यांच्या मित्रांचे लक्ष लागले. आदित्यने आपला लॅपटॉप काढला आणि बरेचसे फोटो असलेला एक फोल्डर उघडला. “हे बघा आजोबा!” जयंतराव थक्क झाले. एका फोटोमध्ये, शाहरुख खान आणि राज कपूर नाचत होते. राज कपूर साधारण पन्नाशीत असावेत आणि शाहरुख खान तिशीत. जयंतराव या चित्रपटाबद्दल आठवू लागले पण, काही केल्या त्यांना असा कोणताही चित्रपट आठवेना. “जास्त विचार करू नका आजोबा. असा कोणताही पिक्चर आलाच नाही. हे चित्र ‘एआय’, म्हणजे कृत्रिम बुद्धिमत्तेने तयार केले आहे. मागच्या आठवड्यात मी म्हणालो होतो ना की, ‘जनरेटिव्ह एआय’ चित्र काढू शकते किंवा संगीत तयार करू शकते, त्याचेच उदाहरण आहे हे.”
 
जयंतराव आणि त्यांचे मित्र, वेगवेगळ्या जमान्यातल्या या दोन सुपरस्टार्सना एकत्र पाहण्याच्या धक्क्यातून सावरलेच नव्हते. तांत्रिक भाषेत याला ‘मल्टिमोडल एआय’ किंवा ‘बहुप्रकारात्मक एआय’ म्हणतात. बहुप्रकारात्मक म्हणजे, विविध प्रकारच्या माध्यमांमधील माहिती समजू किंवा तयार करू शकणारी कृत्रिम बुद्धिमत्ता. ‘जनरेटिव्ह एआय’च्या सुरुवातीच्या काळात, फक्त मजकूर समजून घेणे आणि तयार करणे शक्य होते. पण, गेल्या एक-दोन वर्षांत आवाज, चित्र, व्हिडिओ अशाप्रकारची माहितीसुद्धा ‘एआय’ समजू आणि तयार करू शकते. अनेक वाक्ये किंवा मजकूर वाचून, त्यात वर्णन केलेले चित्र काढू शकते. एखाद्या संगीतात वर्णन केलेले चित्र काढू शकते. एखादे चित्र बघून, त्याचे शब्दात वर्णन करू शकते. यालाच ‘बहुप्रकारात्मक एआय’ म्हणतात.
 
‘मल्टिमॉडेल एआय’ किंवा ‘बहुप्रकारात्मक एआय’ कसे काम करते?
 
चित्र तयार करणे, हे ‘बहुप्रकारात्मक एआय’चे सर्वांत महत्त्वाचे उदाहरण आहे. सध्या ‘चॅट जीपीटी’च्या मदतीने तयार केलेल्या ‘घिबली कार्टून’ने सगळीकडे धुमाकूळ घातला आहे. ‘बहुप्रकारात्मक एआय’चे हे एक उत्तम उदाहरण. ‘जनरेटिव्ह एआय’ चित्र तयार कसे करते?
 
1. चित्रांचा मोठा संग्रह तयार करणे : इंटरनेटवर उपलब्ध असलेल्या विविध चित्रांचे मोठे संग्रह (डाटासेट) तयार केले गेले. ’ङअखजछ-5इ’ हा 500 कोटी चित्रांचा संग्रह, स्वयंचलित प्रोग्रॅमच्या मदतीने इंटरनेटवरील चित्र गोळा करून तयार केला गेला. असेच इतर अनेक संग्रहही तयार केले गेले.
 
2. चित्रांच्या वर्णनाचा संग्रह तयार करणे : प्रत्येक चित्राचे इंटरनेटवर असलेले वर्णनही गोळा केले गेले. त्यासाठी परत स्वयंचलित प्रोग्रॅम वापरले गेले. मर्यादित प्रमाणात जिथे चित्रांचे वर्णन उपलब्ध नसेल, तिथे मानवी मदत घेऊन वर्णन तयार केले गेले.
 
3. अल्गोरिदमला शिकवणे : हजारो ’ॠझण’ असलेल्या प्रचंड मोठ्या संगणकांच्या जाळ्यावर ही चित्रे आणि त्यांचे वर्णन वाचायला, ‘जनरेटिव्ह एआय’ अल्गोरिदमला शिकवले गेले. म्हणजे समजा की, प्रचंड स्मृती असलेल्या एखाद्या माणसाला, पाच कोटी चित्र आणि त्यांचे वर्णन वाचून दाखवले आणि त्याने त्याचा अभ्यास केला, तर वर्णन आणि चित्रे यांची सांगड घालण्यात तो जेवढा तयार होईल, तेवढा हा ‘जनरेटिव्ह एआय’ अल्गोरिदमला तयार झाला. आता या अल्गोरिदमला एखादे शाब्दिक वर्णन दिले की, त्याच्याकडे असलेल्या कोट्यवधी वर्णनांशी जुळती वर्णने शोधून, त्या चित्रांच्या मदतीने तो नवीन चित्र तयार करतो.
 
‘जनरेटिव्ह एआय’च्या मदतीने, व्हिडिओ तयार करण्याचे तंत्रही याच धर्तीवर विकसित केले गेले. व्हिडिओ तयार करताना एका चित्राऐवजी एकाच प्रकारची, पण थोडा फरक असलेली शेकडो चित्रे तयार केली जातात. पण, शाब्दिक वर्णन देऊन त्यातून व्हिडिओ करण्याचे तंत्रज्ञान, अजून पूर्ण विकसित झालेले नाही. त्यामुळे कधीकधी एकाच व्यक्तीच्या चेहर्‍यात फरक दिसणे, व्हिडिओमध्ये काही वेळाने काही वस्तू गायब होणे अशा गंमती घडतात. पण, अजून काही महिन्यांत हे तंत्रज्ञान नक्कीच प्रगती करेल. एखादी छोटी कथा देऊन, त्यापासून व्हिडिओ तयार करून घेणे आता दूर राहिलेले नाही! कृष्णधवल चित्रपटांच्या जमान्यातून आलेल्या जयंतराव आणि त्यांच्या मित्रांना, हे सगळे स्वप्नवत वाटत होते!
 
आता जरा संगीताबद्दल बोलू. ‘जनरेटिव्ह एआय’च्या मदतीने संगीत तयार करणेही आता शक्य झाले आहे. छोट्या छोट्या सांगीतिक तुकड्यांचे संग्रह उपलब्ध आहेत. उदाहरणार्थ, ‘ऑडिओसेट’ या संग्रहात 20 लाख संगीतरचना आहेत. असे संग्रहच वापरून ‘जनरेटिव्ह एआय’ला शिकवले गेले. या शिकण्याच्या प्रक्रियेत संगीताच्या चालींमधील चढउतार, कोणते स्वर एकमेकांबरोबर येतात, विविध वाद्ये एकमेकांना कशी पूरक ठरतात अशा गोष्टींचा अभ्यास ‘जनरेटिव्ह एआय’ अल्गोरिदमने केला. (MusicLM, Soundraw, AIVA, Suno) अशी विविध उत्पादने ‘जनरेटिव्ह एआय’च्या मदतीने संगीत तयार करायला आता मदत करत आहेत.
 
आता आपण प्रत्यक्ष व्यवहारात ‘बहुप्रकारात्मक एआय’चे काय उपयोग आहेत ते पाहूया.
 
1. ‘एआय’च्या मदतीने फोनवरील किंवा मीटिंगमधील संवादांची, लेखी स्वरूपात नोंद केली जाऊ शकते. आपण ऑफिसमधील सहकार्याला एखादा प्रश्न विचारला आणि त्याने त्याचे फोनवर किंवा समोरासमोर सविस्तर 30 मिनिटे उत्तर दिले, तर हा सगळा संवाद रेकॉर्ड करून ‘एआय’च्या मदतीने लिहून काढला जातो. याचा वापर नंतर विश्लेषणासाठी केला जाऊ शकतो.
 
2. एखाद्या संवादाचे ‘एआय’च्या मदतीने, पाहिजे त्या भाषेत तत्काळ भाषांतर केले जाऊ शकते. उदाहरणार्थ, दोन जण जर फ्रेंच भाषेत बोलत असतील, तर ‘एआय’ हा संवाद ऐकून त्याचे तत्काळ मराठीत भाषांतर करून, लेखी स्वरूपात त्या संवादाची नोंद करू शकतो.
 
3. द-ठरू चे आरोग्य क्षेत्रातील महत्त्व आपण जाणतोच. द-ठरू किंवा चठख म्हणजे, चित्र स्वरूपातील आरोग्य समस्यांची माहिती. या चित्रांचे विश्लेषण ‘एआय’च्या मदतीने करून, रुग्णाचे निदान केले जाऊ शकते. एउॠचे विश्लेषण करून, हृदयविकाराचे निदान करणे पण आता ‘एआय’ला शक्य झाले आहे. भारतासारख्या देशात जिथे तज्ज्ञ डॉक्टरांची विशेषतः खेड्यात उणीव आहे, तिथे अशा अभिनव तंत्रांच्या मदतीने आरोग्यसेवा सुधारू शकते.
 
4. शिक्षणक्षेत्रात ‘बहुप्रकारात्मक एआय’चा भरपूर वापर केला जाऊ शकतो. एखाद्या किचकट संकल्पनेचे वर्णन समजण्यासाठी, ‘मॉडेल एआय’च्या मदतीने तयार केले जाऊ शकते. इंजिन, टर्बाईन अशा किचकट यंत्रांची जडणघडण समजण्यासाठी, या यंत्रांचे वर्णन ‘एआय’ला देऊन व्हिडिओ स्वरूपात त्याचे मॉडेल तयार केले जाऊ शकते. तसेच विविध भाषिक, सांस्कृतिक पार्श्वभूमीच्या विद्यार्थ्यांना, विशिष्ट संकल्पना समजण्यासाठी त्यांच्या भाषेत ई-लर्निंगसाठीही ‘एआय’ची मदत घेतली जाऊ शकते.
 
5. दिव्यांगांच्या मदतीसाठी ‘एआय’चा वापर केला जाऊ शकतो. अंध व्यक्तींना चित्र समजण्यासाठी, चित्राचे वर्णन सोप्या भाषेत ‘एआय’च्या मदतीने करता येते. बोलण्याच्या समस्या असणार्‍या व्यक्तींचे बोलणे ‘एआय’च्या मदतीने सुधारूनही प्रसारित केले जाते. तर अशाप्रकारे ‘मल्टिमोडल एआय’ किंवा ‘बहुप्रकारात्मक एआय’चे, दैनंदिन व्यवहारात प्रचंड महत्त्वाचे उपयोग आहेत. या सगळ्यांवर सध्या मोठ्या प्रमाणात संशोधन चालू आहे.
 
केवळ कार्टूनवरून सुरू झालेला ‘बहुप्रकारात्मक एआय’चा विषय, आता मानवजातीच्या कल्याणावर येऊन ठेपला होता. “मला एक सांग आदित्य...” आप्पा, जयंतरावांचे चित्रकार असलेले मित्र आता चर्चेत उतरले. “समजा, माझी शेकडो चित्रे आणि त्यांचे वर्णन तुमच्या त्या ‘एआय’ला शिकायला दिले, तर तो चित्र काढण्याचे माझी शैली शिकेल का?” “नक्कीच आजोबा,” आदित्य म्हणाला. “नुसती तुमची शैली शिकेल असे नाही, तर एखाद्या प्रसंगाचे किंवा व्यक्तीचे वर्णन दिले, तर तुमच्या शैलीत चित्र पण काढेल! अरे पण ही कॉपी नाही का?” आप्पा उद्विग्न झाले होते!
 
“आजोबा, अशा ‘एआय’च्या मदतीने तयार झालेल्या चित्रांवर, संगीतावर, कवितांवर किंवा व्हिडिओंवर हक्क कोणाचा? ज्याच्या चित्रांचा आधार घेऊन ‘एआय’ शिकले त्याचा की, ‘एआय’ प्रोग्रॅम तयार करणार्‍याचा हा एक क्लिष्ट प्रश्न आहे. अजून याचे सर्वमान्य उत्तर मिळालेले नाही. ‘एआय’निर्मित माहितीचा मालकीहक्क, त्यातील नैतिक आणि कायदेशीर प्रश्न, याबद्दल आपण नंतर कधीतरी बोलूच. राज कपूर आणि शाहरुख खानच्या एकत्र नृत्याच्या काल्पनिक चित्रापासून सुरू झालेला ‘एआय’बद्दलचा हा संवाद कायदा, नैतिकता अशा गंभीर विषयांवर येऊन ठेपला होता.
 
(डॉ. कुलदीप देशपांडे हे ‘आर्टिफिशियल इंटेलिजन्स’ क्षेत्रातील तज्ज्ञ आहेत. त्यांना ‘अनॅलिटिक्स’, ‘आर्टिफिशियल इंटेलिजन्स’ या क्षेत्रातील 25 वर्षांचा अनुभव आहे. ते ‘एलिशियम सोल्युशन्स’ या ‘आर्टिफिशियल इंटेलिजन्स’मध्ये काम करणार्‍या जागतिक स्तरावरील कंपनीचे संस्थापक आणि व्यवस्थापकीय संचालक आहेत.)

डॉ. कुलदीप देशपांडे
9923402001
अग्रलेख
जरुर वाचा
देशातील २५६ राष्ट्रीय स्मारकांवरील

देशातील २५६ राष्ट्रीय स्मारकांवरील 'वक्फ'चा मालकी हक्क संपणार!

Waqf Board Property : देशात २५६ राष्ट्रीय स्मारके अशी आहेत की ज्यांवर वक्फ आणि भारतीय पुरातत्त्व सर्वेक्षण म्हणजेच एएसआय या दोन्हींची दुहेरी मालकी आहे. परंतु नव्या वक्फ सुधारणा कायद्यानुसार, हा कायदा लागू झाल्यानंतर या राष्ट्रीय स्मारकांवरील वक्फ बोर्डाचा दावा संपुष्टात येणार असल्याची माहिती एएसआयच्या वरिष्ठ अधिकाऱ्यांनी दिली आहे. यावर दैनिक भास्कर या वृत्तसंस्थेने ग्राउंड रिपोर्ट तयार केला आहे. या अहवालात राष्ट्रीय स्मारकांवरील वक्फच्या दाव्यांविषयी एएसआय अधिकाऱ्यांशी चर्चा करुन माहिती संग्रहित केली आहे. ..

Email

admin@mahamtb.com

Phone

+91 22 2416 3121