خلاصه: دانشمندان داده چه کاری انجام میدهند؟ طبق مصاحبه با بیش از 30 دانشمند داده، علم داده در مورد زیرساختها، آزمایش، استفاده از یادگیری ماشین برای تصمیمگیری و محصولات داده است. علم داده در زمینههای مختلفی مورداستفاده قرار میگیرد، اما ...
علم داده جدید، از بهینهسازی رتبهبندیهای جستجوی Google و توصیههای LinkedIn گرفته تا تأثیر بر عناوین منتشر شده در ویرایشگرهای Buzzfeed ، در همه بخشهای فناوری ظهور کرده است. بااینحال آماده است تا همه بخشها از خردهفروشی، ارتباطات راه دور و کشاورزی، بهداشت، باربری و سیستم کیفری را تغییر دهد. بااینحال اصطلاحات "علم داده" و "دانشمند داده" همیشه بهراحتی قابلدرک نیستند و برای توصیف طیف گستردهای از کارهای مرتبط با داده استفاده میشوند.
دقیقاً آنچه دانشمندان داده انجام میدهند چیست؟ من بهعنوان میزبان پادکست DataCamp ، این افتخار نصیبم شد که با بیش از 30 دانشمند داده در طیف وسیعی از صنایع و رشتههای دانشگاهی صحبت کردم. از موارد گفتگوهای ما این بود که من از آنها خواستم که بگویند شغل آنها شامل چه مواردی است.
همانطور که میدانید علم داده رشتهای بسیار متنوع است ازاینرو دانشمندان دادهای که تاکنون با آنها مصاحبه کردهام از جهات مختلفی به موضوع بحث ما پرداختهاند. آنها طیف گستردهای از کاربردها را عنوان میکنند، از جمله چارچوبهای آنلاین گسترده و تجربی در زمینه توسعه محصول که در کسبوکارهایی چون booking.com و Etsy استفاده شده، روشهایی که Buzzfeed برای حل مسئله راهزن چند دست بهمنظور بهینهسازی عناوین استفاده میکند و تأثیر یادگیری ماشین بر تصمیمات تجاری در Airbnb . برای مثال آخرین موردی که اشاره شد در حین مکالمه من با رابرت چانگ، دانشمند داده Airbnb مطرح شده بود. وقتی چانگ در توییتر بود، آن شرکت بر روی رشدش متمرکز بود و اکنونکه او در Airbnb است، چانگ روی مدلهای تولید شده یادگیری ماشینکار میکند. علم داده میتواند به طرق مختلف مورداستفاده قرار گیرد و این فقط به صنعت موردنظر بستگی ندارد بلکه به تجارت و اهداف آن نیز بستگی دارد.
اما با وجود اینهمه تنوع، تعدادی از مضامین در این مکالمات پدیدآمده است که در ادامه به آن اشاره میکنیم:
آنچه دانشمندان داده انجام میدهند.
اکنون حداقل میدانیم که در صنایع مرتبط با فناوری، علم داده چگونه کار میکند. در ابتدا، دانشمندان داده بهمنظور انجام تجزیهوتحلیل قوی یک زیرساخت برای دادهها ایجاد میکنند. سپس برای دستیابی به رشد پایدار از تجربیات آنلاین و سایر روشها استفاده میکنند. سرانجام آنها با استفاده از مجموعه روشهای یادگیری ماشین محصولات دادهای شخصیسازیشده را برای درک بهتر کسبوکار مشتریان خود میسازند که در نتیجه موجب تصمیمگیری بهتر برای آنها میشود. بهعبارتدیگر، در زمینه فناوری، علم داده بهمنظور زیرساخت، امتحان کردن و یادگیری ماشین برای تصمیمگیری بهتر و محصولات داده استفاده میشود.
در صنایع دیگری غیر از فناوری گامهای بلندی برداشته شده است.
من با بن اسکارینکا، دانشمند داده در Convoy ، درمورد اینکه چگونه این شرکت از علم داده استفاده میکند تا انقلابی در صنعت باربری آمریکای شمالی ایجاد کند، صحبت کردم. سندی گریفیت از Flatiron Health در مورد تأثیر علم داده در تحقیقات سرطان با ما صحبت کرد. من و درو کانوی در مورد شرکت او آلوویوم بحث کردیم که "با استفاده از یادگیری ماشین و هوش مصنوعی جریان دادههای عظیم تولید شده توسط عملیات صنعتی را به یک بینش تبدیل میکند. همچنین مایک تامیر، مسئول کنونی پروژه رانندگی خودکار Uber ، در مورد همکاریاش با Takt برای تسهیل استفاده از علم داده استفاده از اطلاعات شرکتهای Fortune 500 و کار در سامانههای توصیه گر استارباکس، بحث کرد. این لیست غیر جامع انقلابهای علم داده در بسیاری از بخشها را نشان میدهد.
همه اینها تنها نوید ماشینهای خودران و هوش عمومی مصنوعی را نمیدهد.
بسیاری از مهمانان من نهتنها در مورد تحقق بخشیدن به هوش مصنوعی عمومی توسط رسانههای جریان اصلی تردید دارند، بلکه همچنین درمورد هیاهوی یادگیری ماشین و یادگیری عمیق نیز تردید دارند. مطمئناً، یادگیری ماشینی و یادگیری عمیق تکنیکهای قدرتمندی با کاربردهای بسیار مهم هستند، اما، مانند همه اصطلاحات پرسروصدا، یک شک و تردید به جا نیز وجود دارد. تقریباً همه میهمانان من خاطرنشان میکنند که دانشمندان داده حرفهای، درآمد خود را از طریق جمعآوری دادهها و تمیزکردن دادهها؛ ساخت داشبورد و گزارشها؛ آشکارسازی دادهها؛ استنباطهای آماری؛ اشتراک نتایج به سهامداران اصلی به دست میآورند و تصمیمگیرندگان را نسبت به نتایج خود متقاعد میکنند.
مهارتهای دادههای دانشمندان در حال پیشرفت هستند (و مهمترین تجربه لزوماً تجربه یادگیری عمیق نیست).
در گفتگو با Jonathan Nolis ، رهبر علوم داده در منطقه سیاتل که به شرکتهای Fortune 500 کمک میکند، این سؤال را مطرح کردیم که "کدام مهارت برای یک دانشمند داده مهمتر است: توانایی استفاده از پیشرفتهترین مدلهای یادگیری عمیق، یا توانایی ایجاد اسلایدهای پاورپوینت خوب؟ " او مورد دوم را تأیید کرد، زیرا انتقال نتایج همچنان بخش اصلی کار دادههاست.
موضوع تکرارشونده دیگر این است که این مهارتها که امروزه بسیار ضروری هستند، احتمالاً در یک بازه زمانی نسبتاً کوتاه تغییر خواهند کرد. همانطور که در حال مشاهده توسعه سریع ابزارهای موجود علوم داده در هر دو اکوسیستم منبع باز و تجاری و تولیدات ابزار علم داده هستیم. همچنین شاهد افزایش اتوماسیون بسیاری از کارهای دشوار علم دادهها، مانند تمیزکردن دادهها و آمادهسازی دادهها هستیم. این یک روال معمول است که 80٪ از وقت ارزشمند دانشمند داده صرفاً برای یافتن، تمیزکردن و سازماندهی دادهها صرف میشود و فقط 20٪ از آنها برای انجام تجزیهوتحلیل صرف میشود.
اما این موضوع دوام چندانی ندارد. این روزها حتی بسیاری از قسمتهای یادگیری ماشین و یادگیری عمیق نیز خودکار انجام میشوند، این را زمانی که اپیزودی را به یادگیری اتوماتیک ماشین اختصاص دادیم و از Randal Olson ، دانشمند ارشد داده در Life Epigenetics ، شنیدیم.
یک نتیجه این تغییر سریع این است که اکثریتقریببهاتفاق مهمانان به ما میگویند که مهارت اصلی دانشمندان داده توانایی ایجاد و استفاده از زیرساختهای یادگیری عمیق نیست. در عوض داشتن توانایی در فراگیری سریع و برقراری ارتباط خوب جهت پاسخگویی به پرسشهای تجاری، همچنین توضیح و تشریح نتایج پیچیده برای ذینفعان غیرفنی بسیار مهم هست؛ بنابراین دانشمندان داده، باید کمتر روی تکنیکها تمرکز کنند و بیشتر به پرسشها و مسائل توجه کنند. تکنیکهای جدید میآیند و میروند، اما تفکر انتقادی و مهارتهای کمی و خاص حوزههای مختلف، همچنان مورد تقاضا خواهد بود.
تخصص اهمیت بیشتری پیدا میکند.
درحالیکه هیچ مسیر شغلی مشخصی برای دانشمندان داده وجود ندارد و پشتیبانی کمی از دانشمندان داده تازهوارد این حوزه صورت میپذیرد، ما به بررسی برخی از انواع تخصص در این زمینه میپردازیم. امیلی رابینسون تفاوت بین دانشمندان دادههای نوع A و نوع B را اینگونه توصیف میکند: " دانشمند نوع A که کارش تجزیهوتحلیل است و در واقع همان آمارشناس سنتی هست و نوع B دانشمندی که در حال ساخت مدلهای یادگیری ماشین است."
جاناتان نولیس دانش داده را به سه مؤلفه تقسیم میکند: (1) هوش تجاری که اساساً در مورد "گرفتن دادههایی است که شرکت در اختیار دارد و قراردادن آن در مقابل افراد مناسب" در قالب داشبورد، گزارش و ایمیل است. (2) علم تصمیمگیری که در مورد "گرفتن دادهها و استفاده از آنها برای کمک به یک شرکت در تصمیمگیری" است و (3) یادگیری ماشینی که "چگونه میتوان مدلهای علم داده را ایجاد کرد و آنها را به طور مداوم در فرایند تولید قرارداد." اگرچه بسیاری از دانشمندان داده، در حال حاضر بهصورت کلی هر سه را انجام میدهند، ما شاهد مسیرهای شغلی متمایزی هستیم، مانند مهندسین یادگیری ماشین.
اخلاق از بزرگترین چالشهای این رشته است.
ممکن است برداشت شما اینگونه باشد که در این حرفه عدم اطمینان زیادی به عاملان و متخصصان القاء میشود. هنگامیکه در اولین قسمت مباحث من از هیلاری میسون پرسیدم که آیا چالشهای عمده دیگری برای جامعه علوم داده وجود دارد، وی گفت، "آیا شما فکر میکنید تعاریف اخلاقی غیردقیق، عدم وجود استاندارد عملی و فقدان واژگان سازگار با موضوعات، برای ما چالشهای کوچکی هستند؟ "
هر سه نکته بسیار ضروری هستند و بهویژه دو مورد اول تقریباً مدنظر همگی مهمانهای ما بوده است. در زمانی که بر بسیاری از تعاملات ما با جهان، الگوریتمهای توسعهیافته توسط دانشمندان داده حکم میکنند، اخلاق چه نقشی دارد؟ همانطور که آموجو میلر، دانشمند ارشد داده و یادگیری ماشین در GitHub ، در مصاحبه با ما گفت:
"ما باید درک اخلاقی داشته باشیم، ما باید آموزش مشخص داشته باشیم و حتی چیزی شبیه سوگند بقراط هم داشته باشیم. در حقیقت ما باید مجوزهای مناسبی داشته باشیم تا اگر کسی کاری غیراخلاقی انجام دهد، نوعی مجازات یا محرومیت یا نوعی بازپروری برایش تعیین شود. یعنی ابزار و روشی که مشخص کند این آن چیزی نیست که ما بهعنوان یک صنعت و صنف از آن راضی باشیم و مدنظر ما باشد. سپس راههایی جبرانی برای افرادی که از ریل خارج میشوند پیدا کنیم زیرا گناه افراد فقط این است که آموزش ندیدهاند و ناآگاه هستند."
برای مثال یک موضوع که عواقب جدی، مضر و غیراخلاقی علم داده میتواند داشته باشد، مسئله " نمره خطر بالقوه" است که توسط پلیس "در سراسر کشور برای پیشبینی جنایتکاران آینده استفاده شده است" و ممکن است الگوریتمها به نحوی توسعه داده شده باشند که "نسبت به سیاهپوستان تعصب داشته باشند"
البته ما در حال رسیدن به اجماع در این موضوع هستیم که استانداردهای اخلاقی باید از درون خود علم داده و همچنین از طرف قانونگذاران، جنبشهای مردمی و سایر ذینفعان به وجود بیاید. بخشی از این جنبش شامل تأکید بر تفسیرپذیری و واضح بودن مدلها در مقابل این تفکر که مدلها باید مانند جعبه سیاه در نظر گرفته شوند. یعنی ما باید مدلهایی بسازیم که بتوانند دلیل پیشبینیهای خود را توضیح دهند. مدلهای یادگیری عمیق در بسیاری از موارد عالی هستند، اما به طرز نامطلوبی قابل تفسیر نیستند. بسیاری از محققان هوشمندسازی، توسعه دهندگان و دانشمندان متخصص داده این کار را با توسعه lime ، پروژهای با هدف توضیح کارکرد مدلهای یادگیری ماشین، انجام میدهند.
انقلاب علوم داده در صنایع و جامعه بهتازگی آغاز شده است. اینکه آیا عنوان دانشمند داده " جنسیترین شغل قرن 21 " باقی خواهد ماند؟ یا تخصصیتر خواهد شد؟ یا به مجموعه مهارتهایی تبدیل خواهد شد که اکثر متخصصان کار بهسادگی از آن برخوردار هستند، هنوز مشخص نیست. هیلاری میسون در مصاحبه خود به ما گفت: " ما حتی 10 سال دیگر علم داده خواهیم داشت یا نه؟ زمانی را به یاد میآورم که در آن نه عنوان مدیر وب وجود داشت و نه حتی تعجبی از نبود آن."