جايگزيني درک و شهود انساني با الگوريتمهايي که مي توانند به جاي انسان تحليل کنند.
تجزيه و تحليل دادههايي با حجم بالا شامل جستجو در ميان اطلاعات قديمي نيز ميشود که در امور مربوط به پيشبيني مورد استفاده هستند. اما انتخاب اين موضوع که کدام يک از ويژگيهاي دادههاي قديمي بايد مورد بررسي قرار گيرند، کاري است که نياز به درک انساني دارد و سيستمهاي پردازش به تنهايي نميتوانند آن را انجام دهند. به عنوان مثال در يک پايگاه دادهي تجاري، اطلاعات مختلفي دربارهي خريد و فروشها، ليست سودها و ميانگينهاي هفتگي و ماهانهي درآمدها وجود دارد که همهي آنها لزوماً مورد استفاده قرار نميگيرند. در ميان اين فايلها، مواردي هم وجود دارند که ديگر اعتباري ندارند.
گروهي از پژوهشگران دانشگاه MIT تصميم دارند فاکتور انساني را از روند تحليل دادههاي با حجم بالا حذف کنند و همچنين سيستمي را معرفي کنند که علاوه بر جستجوي اطلاعات، آنها را بر اساس ويژگيهاي خاصي مرتب و دستهبندي ميکند. آنها براي بررسي ميزان کارآمدي سيستم خود، اين برنامه را در 3 مسابقهي علمي ارائه دادند. اين «ماشين اطلاعات علمي» با تيمهاي ديگر که انساني بودند به رقابت پرداخت و در محيطهاي ناآشناي اطلاعاتي، اقدام به پردازش و طبقهبندي سيستمها کرد. در مجموع در اين سه رقابت علمي 906 تيم شرکت داشتند و ماشين اطلاعات علمي توانسته بود 615 تيم را پشت سر بگذارد.
پيشبينيهايي که توسط ماشين اطلاعات علمي در دو مسابقهي اول انجام شدند، 94 و 96 درصد دقت دادههاي ارسالي برتر را داشت. در مسابقهي سوم هم اين سيستم دقت 87 درصدي را ارائه داد. نکتهي مهم اينجاست که تيمهاي انساني براي پيشبينيهاي خود چند ماه کار کردند، اما ماشين اطلاعات علمي نتيجهي کار خود را در 2 الي 12 ساعت ارائه داد.
ماکس کانتر (Max Kanter)، کسي است که پاياننامهي دورهي دکتراي او در دانشگاه MIT اساس ساخت ماشين اطلاعات علمي قرار گرفت. او ميگويد: «ديدگاه ما نسبت به ماشين اطلاعات علمي مانند نوعي مکمل هوش انساني است. دادههاي زيادي وجود دارند که هرگز آناليز نشدهاند و آن قدر حجمشان زياد است که ما حتي به سمت آنها هم نميرويم. اين ايده ميتواند راه حلي باشد که ما را ترغيب کند دست کم کار تحليل دادهها را آغاز کنيم.»
کانتر به همراه استاد راهنماي پروژهي پاياننامهاش، کاليان ويراماچانني (Kalyan Veeramachaneni) دانشمند و محقق لابراتوار علوم کامپيوتر و هوش مصنوعي دانشگاه MIT قرار است در مقالهاي کارکرد ماشين اطلاعات علمي را در کنفرانس بين المللي علم اطلاعات و آناليز پيشرفته (CSAIL) ارائه دهند.
ويراماچانني يکي از مدرسان مرکز بين المللي علم اطلاعات و آناليز پيشرفته است. او تکنيکهاي يادگيري ماشين براي تحليل دادههاي با حجم بالا، مانند تعيين ظرفيت توليد برق ژنراتور در نيروگاههاي بادي را آموزش ميدهد. ويراماچانني ميگويد: «يکي از مراحل حساسي که در آناليز دادههاي مختلف، مثلاً تجاري وجود دارد و به عنوان يکي از مشکلات کار آناليز مطرح ميشود، مهندسي پارامترها نام دارد. هنگامي که شما ميخواهيد اطلاعاتي را بررسي کنيد، بايد پيش از همه بدانيد چه پارامترهايي را ميخواهيد از پايگاه داده استخراج کنيد. و البته نکته اينجاست که انتخابهاي زيادي پيش روي شما هستند.»
براي مثال، در برخي مدارس و دانشگاهها سيستمها ميتوانند اقدام به ترک تحصيل دانشآموزان را پيشبيني کنند. يکي از پارامترهاي مهم در اين بررسي اين است که هر دانش آموز چه مدت قبل از موعد ارائهي تکاليف و حل تمرينهايش، شروع به حل آنها ميکند. پارامتر دوم نشان دهنده ي اين است که دانش آموز نسبت به همکلاسيهايش چه مدت زماني را در دورههاي آموزشي آنلاين گذرانده است. در برنامهي آنلاين آموزشي دانشگاه MIT هيچ کدام از اين دو پارامتر محاسبه نميشوند، اما پارامترهاي ديگري ضبط ميشوند که ميتوان با استفاده از آنها، اقدام به ترک تحصيل دانشجويان را پيشبيني کرد.
ترکيبهاي ويژه:
کانتر و ويرماچانني از ترفندهايي براي انتخاب مناسبترين پارامترها در تحليل دادهها استفاده ميکنند. يکي از اين روشها، استفاده از روابط ساختاري ذاتي در طراحي پايگاههاي داده است. معمولاً پايگاههاي داده، انواع اطلاعات را در جدولهاي مختلفي ذخيره ميکنند و براي شناسايي هر داده از شناسههاي عددي استفاده ميکنند. ماشين اطلاعات علمي با استفاده از اين شناسهها، دادههاي مختلف را شناسايي و استفاده ميکند. براي مثال، ممکن است در يک جدول فهرست اجناس به همراه قيمتهاي آنها آمده باشد و در جدولي ديگر ستون مشترياني که اجناس را خريداري کردهاند فهرست شده باشد. کار ماشين اطلاعات علمي اين است که در ابتدا ليست قيمتها را وارد جدول دوم کند و شمارهي اجناس را با مشتريان مطابقت دهد. پس از ادغام دو جدول سيستم ميتواند اطلاعاتي مانند هزينهي کل در هر سفارش، هزينهي متوسط هر سفارش، حداقل هزينه به ازاي هر سفارش و اطلاعاتي از اين دست را ارائه دهد.
ماشين اطلاعات علمي همچنين دادههاي طبقهبندي شده را هم جستجو ميکند، دادههايي که بر اساس ويژگيهاي خاصي در گروههايي قرار گرفتهاند، مانند روزهاي هفته يا يک نام تجاري خاص. سپس سيستم در تحليلهايش طبقهي دادهها را هم به عنوان يک پارامتر دخيل کرده و از آنها استفاده ميکند.
در ابتدا ماشين اطلاعات علمي پارامترهاي انتخاب شده را در آرايهاي مرتب ميکند. سپس بار ديگر آنها را بررسي ميکند تا در صورت امکان، پارامترهايي را حذف کند و تا جايي که ممکن است تعداد فاکتورهاي آناليز را کم کند. در نهايت سيستم پارامترها را با روشهاي مختلف با هم ترکيب ميکند تا مناسبترين تحليل و پيشبيني را به دست آورد.
مارگو شلتزر (Margo Seltzer)، پروفسور علوم کامپيوتر در دانشگاه هاروارد دربارهي ماشين اطلاعات علمي ميگويد: «اين ماشين يکي از بهترين پروژههايي است که ميتواند موانع عملي آناليز دادهها را مرتفع کند و با ديدگاهي تازه اطلاعات را بررسي کند. به عقيدهي من آنچه در دانشگاه MIT طراحي شده است، به زودي در همه جا به عنوان معيار تحليل دادهها مورد استفاده قرار ميگيرد.»
منبع:
Larry Hardesty
منابع مفيد:
Big Data
Big Data analytic definition
Automating Big data analysis-MIT
Kalyan Veeramachaneni-Website
فناوري اطلاعات
پايگاه دادهها
آشنايي با زبان برنامه نويسي
تحليلگر سيستم
بخش المپياد کامپيوتر فعاليتهاي علمي رشد
تراشهاي که ذهن انسان را ميخواند
آيا هميشه روباتها در مشت ما خواهند بود؟
کامپيوتر و ارزشهاي انساني
بازي کامپيوتر در برابر انسان
هوش مصنوعي و الگورتيم Learning
پيچيدگي محاسبات
مقدمهاي بر پيچيدگي الگوريتمها-۱
مقدمهاي بر پيچيدگي الگوريتمها-۲
مقدمهاي بر پيچيدگي الکوريتمها- قسمت آخر