हिंदी के संदर्भ में आकृति-विज्ञान विश्लेषक

प्रकाशन :01-06-2010
डॉ. काजल बाजपेयी

कृति-विज्ञान भाषाविज्ञान का क्षेत्र है जो शब्दों की आंतरिक संरचना का अध्ययन करता है। आकृति-वैज्ञानिक विश्लेषण और जेनरेशन किसी भी प्राकृतिक भाषा संसाधन अनुप्रयोग के आवश्यक चरण हैं। आकृति-वैज्ञानिक विश्लेषण का अर्थ है इनपुट के रूप में एक शब्द लें और उसका मूल रूप और प्रत्यय पहचानें। आकृति-वैज्ञानिक विश्लेषण एक शब्द का अर्थ विज्ञान और वाक्यात्मक भूमिका के बारे में जानकारी प्रदान करता है जो वाक्य में निहित होता है। आकृति-वैज्ञानिक विश्लेषण हिंदी के लिए आवश्यक है यह अन्य हिंद आर्यन परिवार की भाषाओं के रूप में एक लचीली आकृति-विज्ञान की सुस्पष्ट प्रणाली है। आकृति-वैज्ञानिक विश्लेषक दिए गए शब्द का विश्लेषण करने के लिए और जेनरेटर दिए गए मूल रूप और उसके लक्षण (जैसे प्रत्यय) की शब्द-उत्पत्ति करने के लिए एक उपकरण है।

वर्णों के क्रम के रूप में लिखित पाठ की स्थिति में रिक्त स्थानों, विराम चिह्नों, आदि द्वारा शब्द को परिभाषित किया जा सकता है। शब्द दो प्रकार के हो सकते हैं: सरल और मिश्रित। प्रत्यय और उपसर्ग के साथ मूल धातु के होने से सरल शब्द बनता है। मिश्रित शब्द (संयुक्त शब्द भी शब्द कहा जाता है) दो या अधिक स्वतंत्र शब्दों में तोड़ा जा सकता है। मिश्रित शब्द में शब्दों का प्रत्येक मूल या तो मिश्रित शब्द होता है या सरल शब्द होता है और स्वतंत्र रूप से एक शब्द के रूप में इस्तेमाल किया जा सकता है। दूसरी ओर, मूल और प्रत्यय, जो सरल शब्द के मूल हैं, स्वतंत्र शब्द नहीं होता है और पाठ में अलग शब्दों के रूप में नहीं हो सकता है। सरल शब्द के मूल को रूपिम या अर्थपूर्ण इकाइयाँ कहा जाता है। सरल शब्द का समग्र अर्थ रूपिम और उनके संबंधों से आता है । आकृति-विज्ञान विश्लेषण शब्द में मूल रूपिम को खोजने की प्रक्रिया है। आकृति-विज्ञान जेनरेटर मूल रूप और उसके लक्षणों (प्रत्ययों) को इनपुट के रूप में लेकर शब्द रूप को उत्पन्न करने की प्रक्रिया है।

आकृति-विज्ञान विश्लेषण हिंदी के लिए आवश्यक है, यह अन्य भारतीय आर्य परिवार भाषाओं की तरह परिवर्तक आकृति-विज्ञान की सुस्पष्ट प्रणाली है। यहाँ मुख्य तथ्य शब्दों की व्याकरणिक सूचना जैसे लिंग, संख्या, पुरुष आदि के चिन्हित उपसर्गों के आधार पर है ।

आकृति-विज्ञान विभिन्न उपयोगों और निर्माण-कार्यों में शब्दों की आंतरिक संरचना और उनके विभिन्न रूपों का अध्ययन है। यह मुख्य रूप से दो भागों में विभाजित किया जा सकता है - व्युत्पत्तिपरक आकृति-विज्ञान और परिवर्तक आकृति-विज्ञान । व्युत्पत्तिपरक आकृति-विज्ञान में वह प्रक्रियाएँ शामिल हैं जिसके द्वारा नए शब्दिम मुख्य रूप से विद्यमान शब्दिम के माध्यम से निर्मित होते हैं । परिवर्तक आकृति-विज्ञान में वह प्रक्रियाएँ शामिल हैं जिसके द्वारा शाब्दिक मूल रूप से विभिन्न परिवर्तक रूप बनते हैं।

आकृति-विज्ञान विश्लेषक के विकास के लिए शब्द वर्गों और व्याकरणिक सूचना को परिभाषित करना पहला चरण है। जो उस भाषा के लिए शब्द वर्ग प्राकृतिक भाषा अनुप्रयोग के शब्दों के लिए आवश्यक होगा। हिंदी के लिए शब्द वर्गों और व्याकरणिक सूचना को परिभाषित करने के बाद इन शब्द वर्गों के शब्दों से, इन शब्द वर्गों के लिए विभिन्न प्रतिमान विकलित किए जाते हैं। मूल शब्द के लिए प्रतिमान, विशिष्ट शब्द वर्ग में, इसके संभव शब्द रूप और उससे संबंधित व्याकरणिक सूचना के बारे में सूचना देता है। शब्द वर्ग के सारे शब्द समान प्रतिमान का पालन नहीं कर सकते हैं। जैसे, यह जरूरी नहीं है कि सभी संज्ञाएँ समान परिवर्तक रूप को अपनाएंगे। इसलिए, सबसे पहले शब्द वर्ग के लिए विभिन्न प्रतिमानों को खोजते हैं और फिर उन प्रतिमानों के अनुसार उस शब्द वर्ग के शब्दों का समूह बनाते हैं। इस प्रकार शब्द वर्गों के लिए प्रतिमान विकसित किए जाते हैं जो परिवर्तन दर्शाते हैं।

व्याकरणिक सूचना के साथ शब्द वर्गों की सूची निम्नलिखित है जो हिंदी के लिए प्रयोग की जाती है:

संज्ञा: हिंदी संज्ञा के लिए व्याकरणिक सूचना की आवश्यकता है – लिंग, संख्या और कारक। लिंग पुरुषवाचक, स्त्रीवाचक और दोनों (क्योंकि कुछ संज्ञाएँ पुरुषवाचक और स्त्रीवाचक दोनों हो सकते हैं)। संख्या एकवचन या बहुवचन हो सकती है। कारक दो प्रकार के हो सकते हैं– प्रत्यक्ष और अप्रत्यक्ष।

सर्वनाम: व्याकरणिक सूचना की आवश्यकता है – संख्या, कारक, व्यक्ति और लिंग. लिंग पुरुषवाचक, स्त्रीवाचक और दोनों हो सकते हैं। संख्या एकवचन या बहुवचन हो सकती है। कारक दो प्रकार के हो सकते हैं– प्रत्यक्ष और अप्रत्यक्ष। पुरुष में प्रथम पुरुष, द्वितीय पुरुष और तृतीय पुरुष ले सकते हैं।

विशेषण: हिंदी संज्ञाओं के लिए व्याकरणिक सूचना की आवश्यकता है - संख्या, कारक, व्यक्ति और लिंग. लिंग पुरुषवाचक, स्त्रीवाचक और दोनों हो सकते हैं। संख्या एकवचन या बहुवचन हो सकती है। कारक दो प्रकार के हो सकते हैं– प्रत्यक्ष और अप्रत्यक्ष।

क्रिया: व्याकरणिक सूचना की आवश्यकता है लिंग, संख्या और पुरुष और काल भाव रूप (TAM)

आकृति-विज्ञान विश्लेषक किसी भी प्राकृतिक भाषा संसाधन प्रणाली का एक अभिन्न भाग है, विशेष रूप से भारतीय संदर्भ में।


 डॉ. काजल बाजपेयी
डॉ. काजल बाजपेयी
संगणकीय भाषावैज्ञानिक
एएआई ग्रुप, सी-डैक, छठवाँ फ्लोर
एनएसजी आईटी पार्क, औंध, पुणे, महाराष्ट्र
kajaldelhi2001@gmail.com
 
         
टिप्पणी लिखें

 

लेखक की प्रविष्टियाँ

वाक्यांश खोजें





Bing


Site Search Site Search