خیالات پڑھنے والی ڈیوائس انسانی دماغ میں نصب، معذور خاتون اظہار کے قابل ہوگئی
یو سی ایس ایف کے نیورو سرجن ایڈورڈ چانگ کی سربراہی میں محققین نے مصنوعی ذہانت سے چلنے والا ایک ایسا آلہ تیار کیا ہے جو پہلی بار دماغی سگنلز کو موڈیولڈ اسپیچ اور چہرے کے تاثرات میں تبدیل کرتا ہے، جس کے نتیجے میں فالج کی وجہ سے بولنے کی صلاحیت سے محروم ایک خاتون بات کرنے اور جذبات کا اظہار کرنے کے قابل ہوگئی۔
غیر ملکی خبررساں ادارے کے مطابق جنرل نیچر نامی جریدے میں یو سی ایس ایف کے محققین کی ایک تحقیق شائع ہوئی ہے جس میں بتایا گیا ہے کہ اب نوول برین امپلانٹ کے ذریعے فالج یا بیماری کی وجہ سے بولنے سے قاصر افراد کو ڈیجیٹل اوتار کا استعمال کرتے ہوئے بولنے کے قابل بنایا جاسکتا ہے۔
یو سی ایس ایف کے نیورو سرجن ایڈورڈ چانگ کی سربراہی میں محققین نے مصنوعی ذہانت سے چلنے والا ایک ایسا آلہ تیار کیا ہے جو پہلی بار دماغی سگنلز کو چہرے کے تاثرات میں تبدیل کرتا ہے۔
یو سی ایس ایف کے نیورو سرجن ایڈورڈ چانگ کی سربراہی میں محققین نے ایک خاتون پر تجربہ کیا جو فالج کی وجہ سے بولنے کی صلاحیت سے محروم ہو گئی تھی، اور اب وہ بات کرنے والے ڈیجیٹل اوتار کا استعمال کرتے ہوئے بولنے اور جذبات کا اظہار کرنے کے قابل ہو گئی ہے۔
یو سی ایس ایف اور یو سی برکلے کے محققین کے نئے کام سے پتہ چلتا ہے کہ مصنوعی ذہانت میں تازہ ترین پیشرفت کا استعمال کرتے ہوئے قدرتی بولنے اور جذبات کے اظہار کی صلاحیت کو دوبارہ زندہ کیا جاسکتا ہے۔
یو سی برکلے کے الیکٹریکل انجینئرنگ اینڈ کمپیوٹر سائنسز ڈپارٹمنٹ سے تعلق رکھنے والے اسسٹنٹ پروفیسر اور پی ایچ ڈی کی طالبہ گوپالا اور شریک مصنف کیلو لٹل جون نے برکلے انجینئرنگ کے ساتھ اس اہم مطالعے پر تبادلہ خیال کرتے ہوئے وضاحت کی کہ مصنوعی ذہانت میں پیش رفت قدرتی مواصلات کو بحال کرنے میں کس طرح مدد مل سکتی ہے۔
اسسٹنٹ پروفیسر گوپالا نے بتایا کہ اس منصوبے کے پیچھے ایک دہائی کی طویل تاریخ ہے، جب میں ایڈورڈ چانگ کی لیبارٹری میں پوسٹ ڈاکٹر تھا، تو ہم اس مشن پر تھے تاکہ روانی سے بولنے کی صلاحیت کے تحت دماغی افعال کو سمجھ سکیں اور ان میں سے کچھ نیوروسائنس کے نتائج کو ان لوگوں کے لئے استعمال کریں جو مکمل طور پر مفلوج ہیں اورپیغام رسانی سے معذور ہیں۔
پروفیسر نے کہا کہ ہم نے مرگی کے مریضوں کے ساتھ کام کرتے ہوئے دماغی سرگرمی کی ریکارڈنگ سے بولنے کے طریقوں کی تحقیقات کی، لیکن ایسے افراد تقریباً بولنے والے ہی ہوتے ہیں، ہمارا یہ کام بطورثبوت 2019 میں نیچر میں شائع ہوا تھا۔
گوپالا کے مطابق ہمیں اتنا اندازہ ضرور تھا کہ ہم انسان کا دماغ پڑھ سکتے ہیں، تو ہم نے سوچا کہ ہمیں مفلوج افراد کی مدد کے لئے اس کا استعمال کرنے کی کوشش کرنی چاہئے، جس کے لئے ہم نے براوو (بی سی آئی رسٹرکشن آف آرم اینڈ وائس) کلینیکل ٹرائل کا مرکز تھا کا انتخاب کیا، جس میں اسپیچ نیوروپروستھیسس نامی ایک نیا آلہ استعمال کیا گیا تھا، جو کامیاب رہا اور اس سے پتہ چلا کہ ہم دماغ کی سرگرمی سے مکمل الفاظ کو واضح کرسکتے ہیں۔
اسسٹنٹ پروفیسر نے بتایا کہ اس کے بعد ایک اور مطالعہ کیا گیا جس میں ہم نے ہجے کا انٹرفیس بنانے کے لئے 1،000 سے زیادہ الفاظ کو (ڈی کوڈ) واضح کرنے میں کامیابی حاصل کی، شرکا نیٹو کے کسی بھی کوڈ الفاظ جیسے الفا، براوو، چارلی کہہ سکتے ہیں اور ان کو نقل کر سکتے ہیں۔ ہم نے تقریر کو ڈی کوڈ کرنے کے لئے استعمال ہونے والے مشین لرننگ ماڈلز کو بہتر بنایا، خاص طور پر ڈیکوڈرز کا استعمال کرکے جن میں واضح آڈیو اور زبان کے ماڈل تھے۔
پروفیسر کا کہنا تھا کہ اس منصوبے میں ہم نے الفاظ اور درستگی میں اضافہ کرنے کا فیصلہ کیا، لیکن سب سے اہم بات یہ ہے کہ ہم نے ہجے کو ڈی کوڈ کرنے سے آگے جانے کا ارادہ کیا، ہم براہ راست بولی جانے والی زبان میں جانا چاہتے تھے، کیونکہ یہ ہمارے مواصلات کا طریقہ ہے، اور یہ بہترین قدرتی طریقہ ہے جو ہم سیکھتے ہیں۔
پروفیسر گوپالا نے بتایا کہ ڈیجیٹل اوتار کے پیچھے محرک یہ تھا کہ مفلوج افراد کو محسوس کرنے میں مدد ملے، چونکہ فالج کے شکار لوگ بول نہیں سکتے، اس لیے ہمارے پاس وہ کچھ نہیں ہے جو وہ کہنے کی کوشش کر رہے ہیں، لہذا ہم نے سی ٹی سی نامی ایک مشین ”لرننگ آپٹیمائزیشن ٹیکنیک“ کو شامل کیا ، جس نے ہمیں ”زمینی سچائی“ آڈیو کی ضرورت کے بغیر، دماغ کے سگنل کو الگ الگ اکائیوں میں نقشہ بنانے میں مدد دی۔
پروفیسر کے مطابق اس کے بعد ہم نے پیش گوئی کی الگ الگ اکائیوں کو تقریر میں ترتیب دیا۔ بولنے کی الگ الگ اکائیاں پچ اور ٹون جیسے پہلوؤں کو انکوڈ کرتی ہیں، جو پھر آڈیو بنانے کے لئے تشکیل دی جاتی ہیں جو قدرتی تقریر کے قریب آتی ہے۔ یہ وہ تبدیلیاں ہیں جو اصل الفاظ سے کہیں زیادہ تقریر میں بہت معنی بیان کرتی ہیں۔
انہوں نے بتایا کہ ہم نے اسے مزید قدرتی مواصلاتی طریقوں جیسے بیان اور چہرے کے تاثرات میں بھی بڑھایا، جس میں الگ الگ اکائیاں منہ کی مخصوص حرکات کی طرح اظہاری اشارے ہیں، ہم دماغ کی سرگرمی سے اشاروں کی پیش گوئی کرسکتے ہیں، پھر انہیں منہ کی حرکت میں تبدیل کرسکتے ہیں، چہرے کی حرکت کے لئے ہم نے اشاروں اور بیان کو ڈیجیٹل اوتار میں متحرک کرنے کے لئے ”اسپیچ گرافکس“ کے ساتھ کام کیا۔
گوپالا نے بتایا کہ مصنف کیلو لٹل جون کی بات کو اجاگر کرنے کے لئے ہم نے تمام موجودہ مصنوعی ذہانت کی ٹیکنالوجی کا استعمال کیا، تاکہ بنیادی طور پر اس بات کی نقل کی جاسکے کہ دیئے گئے جملے کے لئے درست آؤٹ پٹ کیا ہوگا، اور ہم سری، گوگل اسسٹنٹ اور الیکسا کے ذریعہ استعمال ہونے والے بڑے اسپیچ ماڈلز میں دستیاب اسپیچ ڈیٹا کا استعمال کرکے ایسا کرتے ہیں۔
گوپالا نے بتایا کہ ہمیں اندازہ ہے کہ بولی جانے والی زبان کے لئے نمائندہ اکائیوں کی درست ترتیب کیا ہے، یہ وہی ہوسکتا ہے جو دماغ کے سگنل سے مطابقت رکھتا ہے، مثال کے طور پر شرکاء جملے پڑھ رہے تھے ، اور پھر ہم نے اس اعداد و شمار کے مصنوعی جوڑوں کا استعمال کیا، ان پٹ اس کے دماغ کے سگنلز سے ہے، اور آؤٹ پٹ ان بڑے بولی جانے والی زبان کے ماڈلز سے پیش گوئی کردہ الگ الگ کوڈز کی ترتیب ہے۔
پروفیسر نے بتایا کہ ہم 20 سال پہلے ہونے والی ایک شادی میں بات کرنے کی ویڈیو ریکارڈنگ کا استعمال کرتے ہوئے شرکاء کی آواز کو ذاتی بنانے میں بھی کامیاب رہے، ہم نے اس کی آواز میں الگ الگ کوڈز کو ایک طرح سے ترتیب دیا۔
کیلو لٹل جون نے بتایا کہ اس ڈیجیٹل اوتار کو استعمال کرنے کا بنیادی محرک تقریر اور متن کی ڈیکوڈنگ کے لئے ایک تکمیلی آؤٹ پٹ فراہم کرنا ہے، اوتار کو بہت سارے غیر تقریری اظہار کو ظاہر کرنے کے لئے استعمال کیا جاسکتا ہے، مثال کے طور پر مقالے میں ہم نے دکھایا کہ ہم شرکاء کی مسکرانے، ناخوش ہونے یا حیرت انگیز چہرہ بنانے کی صلاحیت کو ڈی کوڈ کرسکتے ہیں، اس کے علاوہ ہم نے دکھایا کہ ہم غیر تقریری اشاروں کو ڈی کوڈ کرسکتے ہیں، جیسے منہ کھولنا، ہونٹوں کو چھونا، اور شدت کا کم زیادہ ہونا وغیرہ۔
انہوں نے کہا کہ جب ہم نے یہ پروجیکٹ شروع کیا، تو ہم نے ایک بہت ہی خام اوتار کے ساتھ کام کیا، جو بہت حقیقت پسندانہ نہیں تھا اور زبان کا ماڈل نہیں تھا، نیورو انجینئرز کی حیثیت سے ہمیں ایک اعلی معیار کے اوتار کی ضرورت تھی جو ہمیں اس کے پٹھوں اور صوتی نالی کے نظام تک رسائی حاصل کرنے کی اجازت دے، لہذا ایسا کرنے کے لئے ایک اچھا پلیٹ فارم تلاش کرنا اہم تھا۔
گوپالا نے بتایا کہ موسیقی کے ایک ٹکڑے کو الگ الگ نوٹوں میں تقسیم کیا جاسکتا ہے، جس میں ہر نوٹ ایک بہت ہی مختلف قسم کی پچ پکڑتا ہے، ان الگ الگ کوڈز کے بارے میں سوچیں جن کا کیلو لٹل جون ان نوٹوں کے طور پر ذکر کر رہے ہیں، اور نوٹ کے لئے اس لحاظ سے ایک تعلق ہے کہ یہ کیسا لگتا ہے، لیکن اس آواز کو پیدا کرنے کے لئے کیا ہونے کی ضرورت ہے اس کے لئے بھی ایک تعلق ہے۔ لہذا اگر نوٹ ”پا“ کی آواز کے لئے ہے تو ، یہ ”پا“ کی طرح لگتا ہے، لیکن یہ ہونٹوں کو ایک ساتھ جوڑنے اور چھوڑنے کے عمل کو بھی ظاہر کرتا ہے۔
گوپالا نے کہا کہ آخر کار جب ہم مصنوعی اعضاء کے لئے مکمل طور پر بند شکل کے حل کے نقطہ پر پہنچتے ہیں تو مقصد مواصلاتی شراکت دار کے لئے ہوتا ہے، یہ ایک مصنوعی ذہانت ہوسکتی ہے جو شخص سے جو بھی سگنل محسوس کرتی ہے اس کے ساتھ کام کرتی ہے، لیکن چیٹ جی پی ٹی کی طرح اس پر بھی بہت سارے اعداد و شمار استعمال کرتی ہے کہ اسے زیادہ سیاق و سباق کے لحاظ سے مناسب جواب دینے کے لئے کس طرح بہترین جواب دیا جائے۔
گوپالا کا کہنا تھا کہ مجھے لگتا ہے کہ فوری طور پر منطقی اگلا قدم اس عمل میں شامل تاخیر کو کم کرنا ہے، لہذا شرکاء کے یہ سوچنے کے بجائے کہ وہ کیا کہنا چاہتے ہیں اور اوتار کے منہ سے نکلنے والے الفاظ کے درمیان کچھ سیکنڈ کی تاخیر کو اس حد تک کم کردیا ہے کہ یہ عمل اس کے لئے حقیقی وقت کی طرح محسوس ہوتا ہے۔
پروفیسر گوپالا نے مزید کہا کہ ہمیں مصنوعی اعضاء کو چھوٹا کرنے اور اسے پیس میکر کی طرح ایک الگ آلہ بنانے پر بھی غور کرنا ہوگا، اور اسے اتنا آسان اور سہل بنانا ہوگا کہ مریض محققین کے بغیر آلات کو چلا سکیں، اس کے علاوہ ایسے مفلوج افراد کو تنہا نہ چھوڑیں۔
Comments are closed on this story.