آنچه دانشمندان داده واقعاً انجام می‌دهند، طبق گفته 35 دانشمند داده

 

خلاصه: دانشمندان داده چه کاری انجام می‌دهند؟ طبق مصاحبه با بیش از 30 دانشمند داده، علم داده در مورد زیرساخت‌ها، آزمایش، استفاده از یادگیری ماشین برای تصمیم‌گیری و محصولات داده است. علم داده در زمینه‌های مختلفی مورداستفاده قرار می‌گیرد، اما ...


 

علم داده جدید، از بهینه‌سازی رتبه‌بندی‌های جستجوی Google و توصیه‌های LinkedIn گرفته تا تأثیر بر عناوین منتشر شده در ویرایشگرهای Buzzfeed ، در همه بخش‌های فناوری ظهور کرده است. بااین‌حال آماده است تا همه بخش‌ها از خرده‌فروشی، ارتباطات راه دور و کشاورزی، بهداشت، باربری و سیستم کیفری را تغییر دهد. بااین‌حال اصطلاحات "علم داده" و "دانشمند داده" همیشه به‌راحتی قابل‌درک نیستند و برای توصیف طیف گسترده‌ای از کارهای مرتبط با داده استفاده می‌شوند.

 

دقیقاً آنچه دانشمندان داده انجام می‌دهند چیست؟ من به‌عنوان میزبان پادکست DataCamp ، این افتخار نصیبم شد که با بیش از 30 دانشمند داده در طیف وسیعی از صنایع و رشته‌های دانشگاهی صحبت کردم. از موارد گفتگوهای ما این بود که من از آنها خواستم که بگویند شغل آنها شامل چه مواردی است.

 

همان‌طور که می‌دانید علم داده رشته‌ای بسیار متنوع است ازاین‌رو دانشمندان داده‌ای که تاکنون با آنها مصاحبه کرده‌ام از جهات مختلفی به موضوع بحث ما پرداخته‌اند. آنها طیف گسترده‌ای از کاربردها را عنوان می‌کنند، از جمله چارچوب‌های آنلاین گسترده و تجربی در زمینه توسعه محصول که در کسب‌وکارهایی چون booking.com و Etsy استفاده شده، روش‌هایی که Buzzfeed  برای حل مسئله راهزن چند دست به‌منظور بهینه‌سازی عناوین استفاده می‌کند و تأثیر یادگیری ماشین بر تصمیمات تجاری در Airbnb . برای مثال آخرین موردی که اشاره شد در حین مکالمه من با رابرت چانگ، دانشمند داده Airbnb  مطرح شده بود. وقتی چانگ در توییتر بود، آن شرکت بر روی رشدش متمرکز بود و اکنون‌که او در Airbnb است، چانگ روی مدل‌های تولید شده یادگیری ماشین‌کار می‌کند. علم داده می‌تواند به طرق مختلف مورداستفاده قرار گیرد و این فقط به صنعت موردنظر بستگی ندارد بلکه به تجارت و اهداف آن نیز بستگی دارد.

 

اما با وجود این‌همه تنوع، تعدادی از مضامین در این مکالمات پدیدآمده است که در ادامه به آن اشاره می‌کنیم:


 

آنچه دانشمندان داده انجام می‌دهند.

اکنون حداقل می‌دانیم که در صنایع مرتبط با فناوری، علم داده چگونه کار می‌کند. در ابتدا، دانشمندان داده به‌منظور انجام تجزیه‌وتحلیل قوی یک زیرساخت برای داده‌ها ایجاد می‌کنند. سپس برای دستیابی به رشد پایدار از تجربیات آنلاین و سایر روش‌ها استفاده می‌کنند. سرانجام آنها با استفاده از مجموعه روش‌های یادگیری ماشین محصولات داده‌ای شخصی‌سازی‌شده را برای درک بهتر کسب‌وکار مشتریان خود می‌سازند که در نتیجه موجب تصمیم‌گیری بهتر برای آنها می‌شود. به‌عبارت‌دیگر، در زمینه فناوری، علم داده به‌منظور زیرساخت، امتحان کردن و یادگیری ماشین برای تصمیم‌گیری بهتر و محصولات داده استفاده می‌شود.

 

در صنایع دیگری غیر از فناوری گام‌های بلندی برداشته شده است.

من با بن اسکارینکا، دانشمند داده در Convoy ، درمورد اینکه چگونه این شرکت از علم داده استفاده می‌کند تا انقلابی در صنعت باربری آمریکای شمالی ایجاد کند، صحبت کردم. سندی گریفیت از Flatiron Health در مورد تأثیر علم داده در تحقیقات سرطان با ما صحبت کرد. من و درو کانوی در مورد شرکت او آلوویوم بحث کردیم که "با استفاده از یادگیری ماشین و هوش مصنوعی جریان داده‌های عظیم تولید شده توسط عملیات صنعتی را به یک بینش تبدیل می‌کند. همچنین مایک تامیر، مسئول کنونی پروژه رانندگی خودکار  Uber ، در مورد همکاری‌اش با Takt برای تسهیل استفاده از علم داده استفاده از اطلاعات شرکت‌های Fortune 500 و کار در سامانه‌های توصیه گر استارباکس، بحث کرد. این لیست غیر جامع انقلاب‌های علم داده در بسیاری از بخش‌ها را نشان می‌دهد.

 

همه اینها تنها نوید ماشین‌های خودران و هوش عمومی مصنوعی را نمی‌دهد.

بسیاری از مهمانان من نه‌تنها در مورد تحقق بخشیدن به هوش مصنوعی عمومی توسط رسانه‌های جریان اصلی تردید دارند، بلکه همچنین درمورد هیاهوی یادگیری ماشین و یادگیری عمیق نیز تردید دارند. مطمئناً، یادگیری ماشینی و یادگیری عمیق تکنیک‌های قدرتمندی با کاربردهای بسیار مهم هستند، اما، مانند همه اصطلاحات پرسروصدا، یک شک و تردید به جا نیز وجود دارد. تقریباً همه میهمانان من خاطرنشان می‌کنند که دانشمندان داده حرفه‌ای، درآمد خود را از طریق جمع‌آوری داده‌ها و تمیزکردن داده‌ها؛ ساخت داشبورد و گزارش‌ها؛ آشکارسازی داده‌ها؛ استنباط‌های آماری؛ اشتراک نتایج به سهام‌داران اصلی به دست می‌آورند و تصمیم‌گیرندگان را نسبت به نتایج خود متقاعد می‌کنند.

 

مهارت‌های داده‌های دانشمندان در حال پیشرفت هستند (و مهم‌ترین تجربه لزوماً تجربه یادگیری عمیق نیست).

در گفتگو با Jonathan Nolis ، رهبر علوم داده در منطقه سیاتل که به شرکت‌های Fortune 500 کمک می‌کند، این سؤال را مطرح کردیم که "کدام مهارت برای یک دانشمند داده مهم‌تر است: توانایی استفاده از پیشرفته‌ترین مدل‌های یادگیری عمیق، یا توانایی ایجاد اسلایدهای پاورپوینت خوب؟ " او مورد دوم را تأیید کرد، زیرا انتقال نتایج همچنان بخش اصلی کار داده‌هاست.

 

موضوع تکرارشونده دیگر این است که این مهارت‌ها که امروزه بسیار ضروری هستند، احتمالاً در یک بازه زمانی نسبتاً کوتاه تغییر خواهند کرد. همان‌طور که در حال مشاهده توسعه سریع ابزارهای موجود علوم داده در هر دو اکوسیستم منبع باز و تجاری و تولیدات ابزار علم داده هستیم. همچنین شاهد افزایش اتوماسیون بسیاری از کارهای دشوار علم داده‌ها، مانند تمیزکردن داده‌ها و آماده‌سازی داده‌ها هستیم. این یک روال معمول است که 80٪ از وقت ارزشمند دانشمند داده صرفاً برای یافتن، تمیزکردن و سازماندهی داده‌ها صرف می‌شود و فقط 20٪ از آنها برای انجام تجزیه‌وتحلیل صرف می‌شود.

 

اما این موضوع دوام چندانی ندارد. این روزها حتی بسیاری از قسمت‌های یادگیری ماشین و یادگیری عمیق نیز خودکار انجام می‌شوند، این را زمانی که اپیزودی را به یادگیری اتوماتیک ماشین اختصاص دادیم و از Randal Olson ، دانشمند ارشد داده در Life Epigenetics ، شنیدیم.

 

یک نتیجه این تغییر سریع این است که اکثریت‌قریب‌به‌اتفاق مهمانان به ما می‌گویند که مهارت اصلی دانشمندان داده توانایی ایجاد و استفاده از زیرساخت‌های یادگیری عمیق نیست. در عوض داشتن توانایی در فراگیری سریع و برقراری ارتباط خوب جهت پاسخگویی به پرسش‌های تجاری، همچنین توضیح و تشریح نتایج پیچیده برای ذی‌نفعان غیرفنی بسیار مهم هست؛ بنابراین دانشمندان داده، باید کمتر روی تکنیک‌ها تمرکز کنند و بیشتر به پرسش‌ها و مسائل توجه کنند. تکنیک‌های جدید می‌آیند و می‌روند، اما تفکر انتقادی و مهارت‌های کمی و خاص حوزه‌های مختلف، همچنان مورد تقاضا خواهد بود.


 

تخصص اهمیت بیشتری پیدا می‌کند.

درحالی‌که هیچ مسیر شغلی مشخصی برای دانشمندان داده وجود ندارد و پشتیبانی کمی از دانشمندان داده تازه‌وارد این حوزه صورت می‌پذیرد، ما به بررسی برخی از انواع تخصص در این زمینه می‌پردازیم. امیلی رابینسون تفاوت بین دانشمندان داده‌های نوع A و نوع B را این‌گونه توصیف می‌کند: " دانشمند نوع A که کارش تجزیه‌وتحلیل است و در واقع همان آمارشناس سنتی هست و نوع B دانشمندی که در حال ساخت مدل‌های یادگیری ماشین است."

جاناتان نولیس دانش داده را به سه مؤلفه تقسیم می‌کند: (1) هوش تجاری که اساساً در مورد "گرفتن داده‌هایی است که شرکت در اختیار دارد و قراردادن آن در مقابل افراد مناسب" در قالب داشبورد، گزارش و ایمیل است. (2) علم تصمیم‌گیری که در مورد "گرفتن داده‌ها و استفاده از آنها برای کمک به یک شرکت در تصمیم‌گیری" است و (3) یادگیری ماشینی که "چگونه می‌توان مدل‌های علم داده را ایجاد کرد و آنها را به طور مداوم در فرایند تولید قرارداد." اگرچه بسیاری از دانشمندان داده، در حال حاضر به‌صورت کلی هر سه را انجام می‌دهند، ما شاهد مسیرهای شغلی متمایزی هستیم، مانند مهندسین یادگیری ماشین.

 

اخلاق از بزرگ‌ترین چالش‌های این رشته است.

ممکن است برداشت شما این‌گونه باشد که در این حرفه عدم اطمینان زیادی به عاملان و متخصصان القاء می‌شود. هنگامی‌که در اولین قسمت مباحث من از هیلاری میسون پرسیدم که آیا چالش‌های عمده دیگری برای جامعه علوم داده وجود دارد، وی گفت، "آیا شما فکر می‌کنید تعاریف اخلاقی غیردقیق، عدم وجود استاندارد عملی و فقدان واژگان سازگار با موضوعات، برای ما چالش‌های کوچکی هستند؟ "

 

هر سه نکته بسیار ضروری هستند و به‌ویژه دو مورد اول تقریباً مدنظر همگی مهمان‌های ما بوده است. در زمانی که بر بسیاری از تعاملات ما با جهان، الگوریتم‌های توسعه‌یافته توسط دانشمندان داده حکم می‌کنند، اخلاق چه نقشی دارد؟ همان‌طور که آموجو میلر، دانشمند ارشد داده و یادگیری ماشین در GitHub ، در مصاحبه با ما گفت:

 

"ما باید درک اخلاقی داشته باشیم، ما باید آموزش مشخص داشته باشیم و حتی چیزی شبیه سوگند بقراط هم داشته باشیم. در حقیقت ما باید مجوزهای مناسبی داشته باشیم تا اگر کسی کاری غیراخلاقی انجام دهد، نوعی مجازات یا محرومیت یا نوعی بازپروری برایش تعیین شود. یعنی ابزار و روشی که مشخص کند این آن چیزی نیست که ما به‌عنوان یک صنعت و صنف از آن راضی باشیم و مدنظر ما باشد. سپس راه‌هایی جبرانی برای افرادی که از ریل خارج می‌شوند پیدا کنیم زیرا گناه افراد فقط این است که آموزش ندیده‌اند و ناآگاه هستند."

 

برای مثال یک موضوع که عواقب جدی، مضر و غیراخلاقی علم داده می‌تواند داشته باشد، مسئله " نمره خطر بالقوه" است که توسط پلیس "در سراسر کشور برای پیش‌بینی جنایتکاران آینده استفاده شده است" و ممکن است الگوریتم‌ها به نحوی توسعه داده شده باشند که "نسبت به سیاه‌پوستان تعصب داشته باشند"

 

البته ما در حال رسیدن به اجماع در این موضوع هستیم که استانداردهای اخلاقی باید از درون خود علم داده و همچنین از طرف قانون‌گذاران، جنبش‌های مردمی و سایر ذی‌نفعان به وجود بیاید. بخشی از این جنبش شامل تأکید بر تفسیرپذیری و واضح بودن مدل‌ها در مقابل این تفکر که مدل‌ها باید مانند جعبه سیاه در نظر گرفته شوند. یعنی ما باید مدل‌هایی بسازیم که بتوانند دلیل پیش‌بینی‌های خود را توضیح دهند. مدل‌های یادگیری عمیق در بسیاری از موارد عالی هستند، اما به طرز نامطلوبی قابل تفسیر نیستند. بسیاری از محققان هوشمندسازی، توسعه دهندگان و دانشمندان متخصص داده این کار را با توسعه lime ، پروژه‌ای با هدف توضیح کارکرد مدل‌های یادگیری ماشین، انجام می‌دهند.

 

انقلاب علوم داده در صنایع و جامعه به‌تازگی آغاز شده است. اینکه آیا عنوان دانشمند داده " جنسی‌ترین شغل قرن 21 " باقی خواهد ماند؟ یا تخصصی‌تر خواهد شد؟ یا به مجموعه مهارت‌هایی تبدیل خواهد شد که اکثر متخصصان کار به‌سادگی از آن برخوردار هستند، هنوز مشخص نیست. هیلاری میسون در مصاحبه خود به ما گفت: " ما حتی 10 سال دیگر علم داده خواهیم داشت یا نه؟ زمانی را به یاد می‌آورم که در آن نه عنوان مدیر وب وجود داشت و نه حتی تعجبی از نبود آن."


hamed nikseresht

حامد نیک سرشت

علاقمند به مباحث داده کاوی هستم و از تجزیه و تحلیل داده لذت میبرم

از جدیدترین مقالات مطلع شوید

با مشترک شدن در خبرنامه ، هر زمان مقاله جدیدی را منتشر می کنیم یا خدمات خود را ارتقا می دهیم ، یک ایمیل برای شما ارسال خواهیم کرد.