مهندسان سيگنالهاي مغز را مستقيماً به گفتار ترجمه مي كنند

در ابتدا علمي ، مهندسان عصبي كلمبيا سيستمي را ايجاد كرده اند كه انديشه را به گفتاري قابل فهم و قابل تشخيص تبديل مي كند. اين فناوري با نظارت بر فعاليت مغز شخصي ، مي تواند كلماتي را كه فرد با آن مي شنود با وضوح بي سابقه اي بازسازي كند. اين دستيابي به موفقيت ، كه از قدرت تركيب كننده گفتار و هوش مصنوعي بهره مي برد ، مي تواند به راه هاي جديدي براي ارتباط مستقيم رايانه با مغز منجر شود. اين همچنين زمينه را براي كمك به افرادي كه نمي توانند صحبت كنند ، فراهم مي كند ، مانند افرادي كه با اسكلروز جانبي آميوتروفيك جانبي (ALS) زندگي مي كنند يا از سكته مغزي بهبود مي يابند ، توانايي خود را براي برقراري ارتباط با جهان خارج بازي مي كنند.


اين يافته ها امروز در گزارش هاي علمي منتشر شد .

دكتر نيما Mesgarani ، دكتري نويسنده ارشد مقاله و گفت: "صداهاي ما به ما كمك مي كنند تا ما را با دوستان ، خانواده و دنياي اطراف خود متصل كنيم ، به همين دليل از دست دادن قدرت صداي شخص به دليل آسيب ديدگي يا بيماري بسيار ويران كننده است." يك محقق اصلي در موسسه رفتار مغز ذهن مورتيمر ب. زوكرمن ، دانشگاه كلمبيا. "با مطالعه امروز ، ما يك روش بالقوه براي بازيابي آن قدرت داريم.

دهههاي تحقيق نشان داده است كه وقتي افراد صحبت مي كنند - يا حتي تصور مي كنند صحبت كردند - الگوهاي فعاليتهاي داستان در مغز آنها ظاهر مي شود. الگوي سيگنال متمايز (اما قابل تشخيص) نيز هنگامي ظاهر مي شود كه به كسي گوش مي دهيم كه صحبت مي كند ، يا تصور مي كنيم گوش مي دهيم. كارشناسان ، در تلاش براي ضبط و رمزگشايي اين الگوهاي ، آينده اي را مي بينند كه در آن نيازي به پنهان كردن افكار در مغز نيست - بلكه در عوض مي تواند در صورت خواست به گفتار كلامي ترجمه شود.

اما انجام اين شاهكار چالش برانگيز بوده است. تلاش هاي اوليه براي رمزگشايي سيگنال هاي مغزي توسط دكتر Mesgarani و ديگران متمركز بر مدل هاي رايانه اي ساده اي بود كه طيف سنجي ها را تجزيه و تحليل مي كردند ، كه بازنمايي بصري فركانس هاي صدا است.

اما از آنجا كه اين رويكرد نتوانسته چيزي شبيه به گفتار قابل فهم را توليد كند ، تيم دكتر Mesgarani در عوض به يك نويسنده صداپيشه تبديل شده اند ، الگوريتم رايانه اي است كه مي تواند پس از آموزش بر روي ضبط هاي افراد مكالمه ، سخنراني را ترسيم كند.

دكتر Mesgarani ، كه همچنين استادي دانشيار مهندسي برق در دانشكده مهندسي و علمي كاربردي بنياد كلمبيا است ، گفت: "اين همان فناوري است كه توسط آمازون اكو و اپل سيري استفاده مي شود.

ليلينك فيلم: https://www.namasha.com/v/sVom78jN

بازنمايي رويكردهاي اوليه براي بازسازي گفتار ، كه از مدلهاي خطي و طيف سنجي استفاده مي كنند. اعتبار: نيما Mesgarani / موسسه زوكرمن كلمبيا
براي آموزش صوت صداپيشه به تفسير فعاليتهاي مغزي ، دكتر مسگراني با دكتر Ashesh Dinesh Mehta ، دكتراي Ph.D. ، جراح مغز و اعصاب در موسسه علوم اعصاب پزشكان بهداشتي Northwell Northwell و مؤلف مقاله امروز همكاري كردند. دكتر مهتا بيماران مبتلا به صرع را معالجه مي كند كه برخي از آنها بايد جراحي هاي منظم انجام دهند.

دكتر مسگراني گفت: "با همكاري با دكتر مهتا ، از بيماران صرع كه در حال حاضر تحت عمل جراحي مغز قرار گرفته اند خواسته ايم به جملات گفته شده توسط افراد مختلف گوش دهند ، در حالي كه الگوهاي فعاليت مغز را اندازه گيري كرديم ." "اين الگوهاي عصبي آواز ساز را آموزش داده است."



در مرحله بعد ، محققان از همان بيماران خواسته اند كه به بلندگوهايي كه رقم هاي بين 0 تا 9 را مي خوانند ، گوش دهند ، در حالي كه سيگنال هاي مغزي را ضبط مي كنند كه مي توانند از طريق صداپيشه اجرا شوند. صداي توليد شده توسط سازنده صدا در پاسخ به آن سيگنالها توسط شبكه هاي عصبي تجزيه و تميز شد ، نوعي از هوش مصنوعي كه از ساختار سلولهاي عصبي در مغز بيولوژيكي تقليد مي كند.

 

بازنمايي از رويكرد جديد دكتر مسگراني كه از يك شبكه سازنده صدا و شبكه عصبي براي بازسازي گفتار استفاده مي كند. اعتبار: نيما Mesgarani / موسسه زوكرمن كلمبيا
نتيجه نهايي صدايي با صداي رباتيك بود كه دنباله اي از اعداد را تلاوت مي كرد. براي آزمايش صحت ضبط ، دكتر مسگراني و تيمش به افراد مأموريت دادند كه به ضبط گوش دهند و آنچه را كه شنيدند گزارش دهند.

دكتر مسگراني گفت: "ما دريافتيم كه افراد مي توانند صداها را حدود 75٪ از زمان درك كنند و آنها را تكرار كنند ، كه اين بالاتر از حد و فراتر از هرگونه تلاش قبلي است." هنگام مقايسه ضبط هاي جديد با تلاشهاي مبتني بر طيف سنجي ، پيشرفت در درك قابل درك به ويژه مشهود بود. "صداي بلندگو حساس و شبكه هاي عصبي قدرتمند بيانگر صداهايي بودند كه در ابتدا بيماران با دقت غافلگيرانه به آنها گوش داده بودند."

دكتر Mesgarani و تيم وي قصد دارند كلمات و جملات پيچيده تري را در مرحله بعدي آزمايش كنند و آنها مي خواهند همان آزمايشات را روي سيگنال هاي مغزي كه وقتي فرد صحبت مي كند يا تصور مي كند صحبت كند ، انجام دهند. در نهايت ، آنها اميدوارند كه سيستم آنها بخشي از كاشت ، مشابه آنچه كه توسط برخي از بيماران صرع پوشيده شده است ، باشد ، كه انديشه پوشنده را مستقيماً به كلمات ترجمه مي كند.

دكتر Mesgarani گفت: "در اين سناريو ، اگر فرد گيرنده فكر كند كه من به يك ليوان آب احتياج دارم" ، سيستم ما مي تواند سيگنالهاي مغزي حاصل از آن فكر را بگيرد و آنها را به گفتار كلامي مصنوعي تبديل كند. " اين يك تغيير دهنده بازي خواهد بود. اين امكان را براي هركسي كه توانايي صحبت كردن خود را از دست داده اند فراهم مي كند ، خواه از طريق آسيب ديدگي يا بيماري ، فرصتي دوباره براي ارتباط با دنياي اطراف خود باشد. "

 

[ ۱۸ خرداد ۱۳۹۹ ] [ ۱۱:۲۱:۱۵ ] [ بلاگ ]
[ نظرات (0) ]
[ ]