جو هلراشتاین (Joe Hellerstein) و شاگردانش مدل جدید توزیع رایانهای را توسعه دادهاند که در MIT آن را یکی از 10 تکنولوژی که میتواند جهان ما را تغییر دهد، نامیدهاند.
هنگامی که یک عصبشناس به بررسی تاثیر استرس در یادآوری خاطرات در مغز میپردازد، و یا یک دپارتمان دیگر در دانشگاه، یک محقق در حال مشاهدهی اطلاعات ثبت شده از سیارات فراخورشیدی است. ممکن است هرکدامشان در میان حجم عظیمی از دادهها، در حال مشاهدهی دادههای اشتباه باشند.
برای بهترین استفاده از داده ها در مصارف تجاری، آنها بایستی قطعه قطعه شوند! و تجزیه و تحلیل شوند تا بتوان با آن رفتار مشتریان را شناسایی کرد، یا با استفاده از نتایج آنها یک محصول جدید را طراحی کرد.
جو هلراشتاین (Joe Hellerstein) استاد علوم کامپیوتر دانشگاه برکلی میگوید : کار کردن با دادههای بزرگ، و تجزیه و تحلیل آنها، با یک تنگنای دائمی سر و کار دارد: تنگنای انسانی.
در سال 2011، شان کندل (Sean Kandel) دانشجویی که با هلراشتاین و جفری هییر (Jeffrey Heer) پژوهشگر مرکز کامپیوتر استنفورد، کار می کرد، با 36 تحلیلگر از 25 شرکت در صنایع مختلف مصاحبه کرد و از آنها پرسید که چگونه وقتشان را به موارد مختلف اختصاص میدهند؟ و نقاطی که در آن مشکل دارند کجاست؟
یکی از پاسخهای قابل پیشبینی این بود که یکی از نقاطی که کشمکش بسیاری در آن وجود دارد، این است که هر گروهی تمایل دارد که وقت بیشتری از زمان تحلیل اطلاعات را به خودشان اختصاص دهند. و این به آن خاطر است که بایستی در بین اطلاعات مختلف؛ به دنبال دادههای مناسب و حذف دادههای نامرتبط باشند و تجزیه و تحلیل این حجم داده کار بسیار وقتگیری است.
به همین منظور، هلراشتاین، جیم هییر و کاندل، نرم افزاری ساختند تا این فرآیند را اصلاح سازد و به کار سرعت ببخشد. و نام آن را مخاصمِ داده (Data Wrangler) گذاشتند. که به صورت آنلاین و رایگان در دسترس است. مخاصم داده، به عنوان هستهی اصلی Trifacta در سال 2012 پایهگذاری شد.
Trifacta یک پلتفرم برای تبدیل دادههای خام، به ساختار و فرمت دیگری که قابل تجزیه و تحلیل باشد، فراهم میسازد. این مهمترین محصولی است که تاکنون ساخته شده است و میتواند دادههای بسیار زیاد و بینظمی را که از جهان واقعی بیرون آمدهاند به ساختارها و جدولهایی تبدیل سازد تا بتوان الگوهای پنهان در آنها را کشف کرد و یا مسیرهای جدیدی برای کشف آنها پیش نهاد داد.
Trifacta میتواند از طریق لیندکدین به سرعت با دهها کمپانی مختلف تطبیق یابد.
توسعهدهندگانی که با سیستم های ابرداده کار میکنند، گاهی لازم است که صدها یا هزاران کامپیوتر را برای انجام کار خود مهار کنند و به خدمت خود در آورند. این محاسبات توزیع سیستمعامل که پایه و اساس رایانش ابری است، خود یکی از موانع عمده در این زمینه است.
بسیاری از کدها و زبانهای برنامه نویسی، تنها برای یک کامپیوتر و یک سیستم مستقل نوشتهشدهاند. به همین خاطر کار با آرایهای از کامپیوترها، به وسیلهی زبانهای برنامه نویسی قدیمی کاری سخت و دشوار است.
به همین منظور تیمِ هلراشتاین، جیم هییر و کاندل، پروژهای با نام BOOM (Berkeley Orders of Magnitude) را راهاندازی کردند تا یک مدل برنامهنویسی جدید را برای زمانبندی و کار کردن با آرایههای عظیم کامپیوتری که با تجزیه و تحلیل ابردادهها سر و کار دارند، آماده سازند و در خدمت برنامهنویسان قرار بگیرد.
در حقیقت BOOM یک زبان برنامهنویسی "درهم و برهم" است که میتواند یک کد را را به دهها یا هزاران زمان تجزیه کند و هر قسمت را به یک دستگاه بسپارد.
در سال 2010، در لیست انتخابی MIT از 10 تکنولوژی که میتوانند جهان ما را تغییر دهند، نام BOOM نیز به چشم میخورد.
هلراشتاین، از BOOM در کلاسهای "برنامهنویسی ابری" خود در دانشگاه برکلی استفاده میکند. او همچنین به همراهی گروهی از محققان و شاگردانش، شرکتی را راهاندازی کردهاست که با استفاده از این روش به سایر شرکتها، خدمات پردازش ابردادهها را ارائه میکند.
منبع:
برای مطالعه بیشتر:
مقدمه ای بر یکپارچه سازی دادهها
رویکردهای یکپارچه سازی دادهها
بلوک کنترلی پردازش
رایانش ابری چیست؟
رایانش ابری (ویکی پدیا فارسی)
الگوریتمهای چند ریسمانی (ویکی پدیا فارسی)