आपल्या शहरातील ताज्या बातम्या आणि ई-पेपर मिळवा मोफत

डाउनलोड करा

संगणकात मानवी भाषेचे आकलन अजूनही दूरच

6 वर्षांपूर्वी
  • कॉपी लिंक
अॅपलचे सिरी, अॅमेझॉनचे अॅलेक्सा, गुगलचे नाऊ आणि मायक्रोसॉफ्टचे कोर्टना हे संगणक सहायक नैसर्गिक आवाजांवर प्रतिक्रिया देतात. मात्र यात बरीच सुधारणा होणे गरजेचे आहे. 
 
१९६८ मध्ये प्रदर्शित झालेल्या ‘२००१ : अ स्पेस ऑडिसी’ या सिनेमात एका अंतराळ यानावरील एचएएल ९००० नावाचा संगणक संकटात असलेल्या आपल्या मानवी सहकाऱ्यासाठी अंतराळ यानाचा दरवाजा उघडू शकत नाही. एचएएल हे संगणक आपल्या मानवी सहकाऱ्याची भाषा समजू शकत नव्हते. त्यानंतर मानवाने खूप प्रगती केली आहे. बोलू शकणारी उपकरणे बनवली आहेत. या मशिन्सला नैसर्गिक आवाजही समजतात. तरीही संवाद कठीण आहे.  
अनपेक्षित बोलणे समजणारा आणि संवाद करू शकणारा संगणक अजूनही दूरच आहे. भाषेसंबंधीचे तंत्रज्ञान मानवाची जागा घेऊ शकत नाही. पण ते मानवाचे बोलणे तरी गांभीर्याने घेऊ शकते. केवळ माणसेच करू शकतात, अशी कामे हे तंत्रज्ञान पार पाडते. आवाज ओळखणाऱ्या तंत्रज्ञानात अभूतपूर्व प्रगती झाली आहे. मशीनद्वारे होणाऱ्या अनुवादाचा स्तरही बराच सुधारला आहे. लवकरच हा दर्जा एवढा सुधारेल की मानवाला थोडेफार संपादन करावे लागेल. अॅपलचे सिरी, अॅमेझॉनचे अलेक्सा, गुगल नाऊ आणि मायक्रोसॉफ्टचे कोर्टनासारखे कॉम्प्युटराइज्ड खासगी मदतनीस नैसर्गिक आवाजांतील अनेक प्रश्नांना उत्तर देऊ शकतात. अॅलेक्सा तर विनोदही ऐकवू शकते. पण यासाठी त्याला विनोदांच्या संग्रहापर्यंत जावे लागते. संगणकांमध्ये हास्यबोध होत नाही.  
अॅपलने २०११ मध्ये सिरी तंत्रज्ञान आणले. मात्र, वापराच्या अनेक मर्यादांमुळे लोकांनी त्याकडे पाठ फिरवली. क्रिएटिव्ह स्ट्रॅटेजी या कन्सल्टन्सी फर्मच्या मते, केवळ एकतृतीयांश स्मार्टफोन युजर्स खासगी सहायकाचा नियमितपणे वापर करतात.  तर ९५ टक्के युजर्सनी कधी ना कधी तरी त्याचा वापर केला आहे. १९६६ मध्ये जॉन पिअर्स हे बेल लॅब या अमेरिकेतील सर्वात मोठ्या टेलिफोन कंपनीच्या  एका शाखेत कार्यरत होते. त्यांनी पहिले ट्रान्झिस्टर आणि पहिला संचार उपग्रह बनवण्यात टीमचे नेतृत्व केले होते.  त्या काळी ऑटोमॅटिक अनुवादाच्या क्षेत्रात खूप प्रगती झाल्याचे दावे केले जात होते. पिअर्स यांनी आपल्या अहवालात मशीनचा अनुवाद आणि बोलण्याच्या ऑटोमॅटिक आकलनावर आणखी दहा वर्षे अभ्यासाची गरज आहे, असल्याचे सांगितले होते. १९६९ मध्ये सादर झालेल्या अहवालात, लँग्वेज टेक्नॉलॉजी रिसर्चचा निष्कर्ष काहीही नाही, असे म्हटले गेले. संशोधनासाठी पैसा लावणाऱ्या आणि संशोधकांना मूर्ख बनवण्यात आल्याचेही यात नमूद करण्यात आले. यानंतर अमेरिकन सरकारने पैसा देणे बंद केले आणि लँग्वेज टेक्नॉलॉजीवरील संशोधने २० वर्षे प्रवाहाबाहेर राहिली.  
८० च्या दशकात अमेरिकेतील डिफेन्स अॅडव्हान्स्ड रिसर्च प्रोजेक्ट्स एजन्सीचे चार्ल्स व्हेन यांनी भाषिक तंत्रज्ञानावर काम करणाऱ्या संशोधकांना नवी पद्धती वापरण्यास प्रोत्साहन दिले. विशेषत: अनुवादाप्रती असलेले जुने दृष्टिकोन बदलण्यास सांगितले. विरोधाभास आणि अपवाद हे भाषेचे अंग असल्याने ठरावीक नियमानुसार चालणारी प्रणाली कालबाह्य होती.  
सांख्यिकी पद्धतीचा वापर करू लागल्याने सर्वच भाषा तंत्रज्ञान उत्तम होऊ लागले. ही पद्धती डेटाचे भांडार, पॅटर्नचा शोध तसेच परंपरा समजणाऱ्या सॉफ्टवेअरवर अवलंबून अाहे. उदाहरणार्थ, भाषेची व्याख्या करण्यासाठी पूर्वी माणसांनी केलेल्या व्याख्यांचा सॉफ्टवेअर अभ्यास करते. मशीन ट्रान्सलेशनमध्ये सॉफ्टवेअर पॅटर्न शोधण्यासाठी  मानवाने पूर्वीच अनुवादित केलेले लाखो शब्द स्कॅन करते.  
मानवचे रेकॉर्डिंग आणि ट्रान्सक्रिप्शनवरून सॉफ्टवेअर आवाज ओळखणे शिकते. प्रोसेसर्सची वाढती क्षमता, डेटा स्टोरेजच्या किमतीत घसरण आणि मोठ्या प्रमाणावर डाटा उपलब्ध होऊ लागल्याने सॉफ्टवेअरर्सना खूप फायदा झाला आहे. बाबेलफिशसारख्या ऑनलाइन टूलच्या वाईट अनुवादामुळे त्रस्त होऊन लोक गुगल ट्रान्सलेटरवर अधिक विश्वास दर्शवतात. पाच वर्षांपूर्वीच्या डिजिटल न्यूरल नेटवर्क (डीएनएन) द्वारे शिकण्याची प्रक्रिया निर्णायक ठरली. या नेटवर्कची पद्धती मानवी मेंदूशी मिळतीजुळती असल्याचे सिद्ध झाले आहे. शिकण्याच्या प्रक्रियेत सॉफ्टवेअरमधील न्यूरॉन्स आणि कनेक्शन अधिक मजबूत किंवा कमकुवत होऊ शकतात. मात्र न्यूएन्स या भाषा तंत्रज्ञान कंपनीतील संशोधन प्रमुख निल्स लेंके म्हणतात, डीएनएन हे गणिती मॉडेल अनेक वर्षांपासून प्रचलित आहे. नव्या तंत्रज्ञानात केवळ हार्डवेअर बदलले आहे.  व्हिडिओ गेमसारख्या अॅप्लिकेशनमध्ये ग्राफिक तयार करणाऱ्या ग्राफिकल प्रोसेसिंग युनिट (जीपीयू)देखील न्यूरल नेटवर्क सहजपणे सांभाळू शकते. कॉम्प्युटर ग्राफिक्समध्ये अनेक आकार आणि नियमांसाठी अगणित संख्या आणि गणिते करण्याची गरज असते. याच जीपीयूच्या माध्यमातून सखोल शिकण्याच्या क्षेत्रात मोठी झेप घेण्यात आली आहे. हे तंत्रज्ञान वापरून हस्तलिपी समजणे, चेहरे ओळखणे किंवा इमेजेसचे विभाजन केले जात आहे. आता यामुळे प्रत्येक प्रकारच्या भाषा तंत्रज्ञानात सुधारणा होत आहे. भाषा तंत्रज्ञानात सुधारणा झाली असली तरी ते अधिक विश्वसनीय बनणे आवश्यक आहे.  
© 2016 The Economist Newspaper Limited. All rights reserved.