دانشمند داده (data scientist)
دانشمند داده یک متخصص تجزیه و تحلیل است که مسئول جمع آوری، تجزیه و تحلیل و تفسیر داده ها برای کمک به تصمیم گیری در یک سازمان است. نقش دانشمند داده ترکیبی از عناصر چندین شغل سنتی و فنی از جمله ریاضیدان، دانشمند، آماردان و برنامه نویس کامپیوتر است. این شامل استفاده از تکنیک های تجزیه و تحلیل پیشرفته، مانند یادگیری ماشین و مدل سازی پیش بینی، همراه با استفاده از اصول علمی است.
به عنوان بخشی از ابتکارات علم داده، دانشمندان داده اغلب باید با حجم زیادی از داده ها برای توسعه و آزمایش فرضیه ها، استنباط و تجزیه و تحلیل مواردی مانند روندهای مشتری و بازار، ریسک های مالی، تهدیدات امنیت سایبری، معاملات سهام، نیازهای تعمیر و نگهداری تجهیزات و شرایط پزشکی کار کنند. .
در کسبوکارها، دانشمندان داده معمولاً دادهها را برای اطلاعاتی استخراج میکنند که میتواند برای پیشبینی رفتار مشتری، شناسایی فرصتهای درآمدی جدید، شناسایی تراکنشهای متقلبانه و رفع سایر نیازهای کسبوکار مورد استفاده قرار گیرد. آنها همچنین کار تجزیه و تحلیل ارزشمندی را برای ارائه دهندگان مراقبت های بهداشتی، موسسات دانشگاهی، سازمان های دولتی، تیم های ورزشی و انواع دیگر سازمان ها انجام می دهند.
دانشمند داده برای اولین بار در سال 2008 به طور همزمان در فیسبوک و لینکدین به عنوان شغل مورد استفاده قرار گرفت. چهار سال بعد، مقالهای در هاروارد بیزینس ریویو آن را «جذابترین شغل قرن بیست و یکم» نامید. تقاضا برای مهارت های علم داده در طول سال ها به طور قابل توجهی افزایش یافته است، زیرا شرکت ها به دنبال جمع آوری اطلاعات مفید از افزایش حجم داده های بزرگ هستند و از فناوری های هوش مصنوعی (AI) و یادگیری ماشین برای فعال کردن انواع جدیدی از برنامه های تحلیلی استفاده می کنند.
نقش ها و مسئولیت های دانشمندان داده
دانشمندان داده نقش اصلی را در کاربردهای علم داده در سازمان ها ایفا می کنند. آنها معمولاً وظیفه یافتن اطلاعاتی را دارند که کمپین های بازاریابی مؤثرتر، خدمات مشتری بهبود یافته، مدیریت زنجیره تأمین قوی تر و تصمیمات و استراتژی های تجاری بهتر را به طور کلی امکان پذیر می کند. برای انجام این کار، آنها مجموعه ای از داده های کمی و کیفی را، بسته به نیازهای برنامه های کاربردی خاص، تجزیه و تحلیل می کنند.
همچنین ممکن است از آنها خواسته شود که دادهها را کاوش کنند، بدون اینکه مشکل تجاری خاصی برای حل آنها داده شود. در آن سناریو، یک دانشمند داده باید هم داده ها و هم کسب و کار را به خوبی درک کند تا بتواند سؤالات را فرموله کند، کار تجزیه و تحلیل را انجام دهد و بینش هایی را در مورد تغییرات احتمالی در عملیات تجاری، محصولات یا خدمات به مدیران کسب و کار ارائه دهد.
مسئولیت های اساسی یک دانشمند داده شامل فعالیت های زیر است:
- جمع آوری و آماده سازی داده های مربوطه برای استفاده در برنامه های تحلیلی؛
- استفاده از انواع مختلف ابزارهای تحلیلی برای تشخیص الگوها، روندها و روابط در مجموعه داده ها؛
- توسعه مدل های آماری و پیش بینی برای اجرا در برابر مجموعه داده ها؛ و
- ایجاد تجسم داده ها، داشبوردها و گزارش ها برای انتقال یافته های خود.
در بسیاری از سازمان ها، دانشمندان داده همچنین مسئول کمک به تعریف و ترویج بهترین شیوه ها برای جمع آوری، آماده سازی و تجزیه و تحلیل داده ها هستند. علاوه بر این، برخی از دانشمندان داده فناوریهای هوش مصنوعی را برای استفاده داخلی یا مشتریان توسعه میدهند – به عنوان مثال، سیستمهای هوش مصنوعی مکالمهای، روباتهای مبتنی بر هوش مصنوعی و سایر ماشینهای مستقل، از جمله اجزای کلیدی در خودروهای خودران.
ویژگی های یک دانشمند داده کارآمد
ویژگی های شخصی و مهارت های نرم مورد نیاز دانشمندان داده شامل کنجکاوی فکری، تفکر انتقادی، شک و تردید سالم، شهود خوب، توانایی های حل مسئله و خلاقیت است. توانایی همکاری با افراد دیگر نیز حیاتی است. دانشمندان داده معمولاً روی یک تیم علم داده کار می کنند که شامل مهندسان داده، تحلیلگران داده سطح پایین و دیگران است و این نقش اغلب شامل کار با تیم های مختلف تجاری به طور منظم است.
بسیاری از کارفرمایان از دانشمندان داده خود انتظار دارند که ارتباطات قوی ای داشته باشند که می توانند از قابلیت های داستان سرایی داده برای ارائه و توضیح بینش داده ها به مدیران تجاری، مدیران و کارگران استفاده کنند. آنها همچنین به قابلیت های رهبری و دانش تجاری برای کمک به هدایت فرآیندهای تصمیم گیری مبتنی بر داده در یک سازمان نیاز دارند.
صلاحیت ها و مهارت های مورد نیاز
دانشمندان داده باید بتوانند طیف گسترده ای از برنامه ریزی، مدل سازی و وظایف تحلیلی پیچیده را به موقع انجام دهند. با توجه به اینکه، این شغل نیازمند دانش ابزارها و کتابخانه های مختلف علوم داده است. پلتفرم های کلان داده، مانند Spark، Kafka، Hadoop و Hive. و زبان های برنامه نویسی که شامل Python، R، Julia، Scala و SQL هستند.
مهارتهای فنی مورد نیاز برای این شغل شامل دادهکاوی، مدلسازی پیشبینیکننده، یادگیری ماشینی و یادگیری عمیق، و همچنین پردازش دادههای اولیه و آمادهسازی دادهها است. توانایی کار با ترکیبی از داده های ساختاریافته، نیمه ساختاریافته و بدون ساختار نیز اغلب یک نیاز است، به ویژه در محیط های کلان داده که حاوی انواع مختلفی از داده ها هستند. تجربه در تحقیقات آماری و تکنیک های تحلیلی مانند طبقه بندی، خوشه بندی، رگرسیون و تقسیم بندی – نیز ضروری است. در برخی موارد، تخصص در پردازش زبان طبیعی (NLP) یکی دیگر از پیش نیازها است.
نمونه هایی از مهارت های لازم ذکر شده در آگهی های شغلی عبارتند از:
- تخصص در تمام مراحل علم داده، از کشف داده های اولیه تا پاکسازی داده ها و انتخاب مدل، اعتبار سنجی و استقرار؛
- دانش و درک از انبار داده های رایج و ساختارهای دریاچه داده؛
- تجربه استفاده از روش های آماری برای حل مسائل تجزیه و تحلیل؛
- مهارت در چارچوب های معروف یادگیری ماشینی؛
- آشنایی با علم داده رایج و تکنیکهای یادگیری ماشین، مانند درختهای تصمیم، K-نزدیکترین همسایگان، طبقهبندیکنندههای ساده بیز، جنگلهای تصادفی و ماشینهای بردار پشتیبانی.
- تجربه با تکنیک هایی برای تجزیه و تحلیل کیفی و کمی؛
- توانایی شناسایی فرصت های جدید برای به کارگیری ابزارهای یادگیری ماشین و داده کاوی در فرآیندهای تجاری برای بهبود کارایی و اثربخشی آنها؛
- تجربه با سیستم عامل ها و خدمات ابر عمومی؛
- آشنایی با طیف گسترده ای از منابع داده، از جمله پایگاه های داده و پلت فرم های کلان داده، و همچنین API های عمومی یا خصوصی و فرمت های داده استاندارد، مانند JSON، YAML و XML؛
- توانایی جمع آوری داده ها از منابع متفاوت و آماده سازی آن برای تجزیه و تحلیل؛
- تجربه با ابزارهای تجسم داده ها، مانند Tableau و Power BI.
- توانایی طراحی و پیاده سازی داشبوردهای گزارش دهی که می توانند معیارهای کلیدی کسب و کار را ردیابی کنند و بینش عملی ارائه دهند. و
- توانایی انجام تجزیه و تحلیل موقت و ارائه نتایج به شیوه ای واضح.
آموزش، آموزش و گواهینامه ها
اکثر مشاغل علوم داده حداقل به مدرک لیسانس در یک رشته فنی نیاز دارند. با این حال، معمولاً دانشمندان داده دارای مدرک پیشرفته در آمار، علوم داده، علوم کامپیوتر یا ریاضیات هستند. در نسخه 2021 یک نظرسنجی سالانه در مورد یادگیری ماشین و علم داده که توسط Kaggle زیرمجموعه گوگل انجام شد، 47.7٪ از بیش از 3600 پاسخ دهندگان که به عنوان دانشمند داده مشغول به کار بودند، گفتند که دارای مدرک کارشناسی ارشد هستند، در حالی که 15٪ دیگر دارای مدرک دکترا هستند.
در مقایسه، بر اساس این نظرسنجی، 30.1 درصد دارای مدرک لیسانس بودند. اما Kaggle، که یک انجمن آنلاین یادگیری ماشین و علم داده را اداره میکند، خاطرنشان کرد که درصد پاسخدهندگان دارای مدرک لیسانس در سالهای اخیر افزایش یافته است. این ممکن است منعکس کننده تقاضای قوی برای دانشمندان داده در سازمان ها باشد. (نتایج نظرسنجی 2022 که به صورت عمومی توسط Kaggle منتشر شد، شامل داده های آموزشی نمی شود.)
هم دانشمندان داده آینده نگر و هم با تجربه می توانند از کمپ های بوت و دوره های آنلاین ارائه شده توسط پلتفرم های آموزشی مانند Coursera، Udemy و خود Kaggle استفاده کنند. علاوه بر این، فرصت های صدور گواهینامه های مختلفی از طریق دانشگاه ها، فروشندگان فناوری و گروه های صنعتی در دسترس است.
بازآموزی متخصصانی که در موقعیتها یا زمینههای دیگر کار میکنند تا دانشمندان داده شوند، گزینه دیگری برای سازمانها است. این ممکن است شامل توسعه دهندگان پایگاه داده و برنامه نویسان نرم افزار، و همچنین دانشمندان سنتی و سایر کارشناسان در رشته های خاص باشد.
حقوق دانشمند داده
از آنجایی که یافتن ترکیب مورد نظر از مهارتهای تحلیلی، ویژگیهای شخصیتی و تجربه هنوز تا حدودی سخت است، دانشمندان داده واجد شرایط عموماً میتوانند دستمزدهای شش رقمی دریافت کنند، حداقل در ایالات متحده طبق سایت آگهی استخدام Indeed، میانگین حقوق دانشمند داده در ایالات متحده. بر اساس حدود 3800 حقوق گزارش شده، تا اکتبر 2022، 144959 دلار بود. Indeed گفت که میانگین دستمزد برای دانشمندان داده با کمتر از یک سال تجربه 122591 دلار و برای افرادی با سه تا پنج سال تجربه 167038 دلار است.
سایت جستجوی شغل و بررسی شرکت Glassdoor دانشمند داده را در فهرست “50 بهترین شغل در آمریکا برای سال 2022” در رتبه 3 قرار داد که بر اساس ترکیبی از میانگین حقوق پایه، سطح رضایت شغلی و فرصت های شغلی موجود است. از اکتبر 2022، داده های Glassdoor نشان می دهد که میانگین کل غرامت 124100 دلاری برای دانشمندان داده مستقر در ایالات متحده، از جمله حقوق پایه به اضافه پاداش و سایر پرداخت ها، است. این رقم برای یک دانشمند ارشد داده به 159957 دلار و برای یک دانشمند ارشد داده به 162262 دلار افزایش یافت.
دانشمند داده در مقابل تحلیلگر داده
نقش دانشمند داده اغلب با نقش تحلیلگر داده اشتباه گرفته می شود. اما در حالی که در بسیاری از مسئولیت های شغلی و مهارت های مورد نیاز همپوشانی وجود دارد، تفاوت های قابل توجهی نیز بین دانشمندان داده و تحلیلگران داده وجود دارد.
وظایف یک تحلیلگر داده بسته به شرکت ممکن است متفاوت باشد. با این حال، به طور کلی، آنها سطح کاملی از مهارت های فنی مورد نیاز دانشمندان داده را ندارند، و همچنین ممکن است تجربه کمتری داشته باشند. آنها هنوز دادهها را جمعآوری، پردازش و تجزیه و تحلیل میکنند و همچنین تصویرسازیها و داشبوردهایی را برای گزارش یافتهها ایجاد میکنند. برخی از تحلیلگران داده نیز پایگاه های داده و سایر ذخیره های داده مورد استفاده در برنامه های تحلیلی را طراحی و نگهداری می کنند.
با این حال، تحلیلگران داده اغلب از کار دانشمندان داده حمایت می کنند و در طرح های تحلیلی تحت نظارت آنها هستند. مسئولیت های اضافی و انتظارات دانشمندان داده نیز به حقوق بسیار بالاتری می رسد. به گفته Glassdoor، متوسط غرامت در ایالات متحده برای یک تحلیلگر داده 71,645 دلار و برای یک تحلیلگر ارشد داده 102,831 دلار است. Indeed به طور مشابه میانگین حقوق پایه 71072 دلار و پاداش 2000 دلار را برای تحلیلگران داده فهرست می کند.
دانشمندان داده در مقابل دانشمند داده شهروند
علاوه بر دانشمندان ماهر داده، بسیاری از سازمانها اکنون برای انجام برخی کارهای تحلیلی به دانشمندان داده شهروندی متکی هستند. آنها میتوانند شامل متخصصان هوش تجاری (BI)، تحلیلگران تجاری، کاربران تجاری باهوش داده و سایر کارگرانی باشند که در ابتکارات علم داده درگیر میشوند. تفاوت های این دو گروه شامل موارد زیر است:
تحصیلات. در حالی که دانشمندان داده معمولاً دارای مدارک مرتبط هستند، دانشمندان داده شهروندی ممکن است سوابق تحصیلی متنوعی داشته باشند و آموزش رسمی کمی در علم داده داشته باشند یا اصلاً آموزش نداشته باشند. اما آنها معمولاً با ابزارها و سیستمهای تحلیلی تجربه کسب کردهاند که آنها را قادر میسازد مدلهایی ایجاد کنند و کار تحلیل نسبتاً پیچیدهای را انجام دهند.
کد نویسی دانشمندان داده شهروندی معمولاً برای انجام تحلیلهای استاندارد به نرمافزاری متکی هستند که شامل ابزارهای مدلسازی تحلیلی از پیش ساخته شده، ویژگیهای کشیدن و رها کردن و الگوریتمهای کاربر پسند است. این مانع از کشف الگوها یا نقاط داده مفید نمی شود، اما دانشمندان داده حرفه ای قادر به ایجاد الگوریتم های سفارشی پیچیده و رویکرد تجزیه و تحلیل داده ها به روش های پیشرفته تر هستند.
حقوق. همانطور که در بالا ذکر شد، دانشمند داده شغلی پردرآمد است. از سوی دیگر، دانشمندان دادههای شهروندی میتوانند سرگرمیها یا داوطلبانی باشند که بیش از حقوق معمولی خود دستمزد اضافی دریافت نمیکنند، اگرچه برخی از آنها برای کار علم دادهای که انجام میدهند، غرامت بیشتری دریافت میکنند.
حوزه های اصلی علم داده
جنبه های کلیدی شغل یک دانشمند داده شامل رشته های زیر است:
- آماده سازی داده ها اولین گام در کاربردهای علم داده جمع آوری و آماده سازی داده هایی است که مورد تجزیه و تحلیل قرار می گیرد. آماده سازی داده ها فرآیند جمع آوری، پاکسازی، سازماندهی، تبدیل و اعتبارسنجی مجموعه داده ها برای تجزیه و تحلیل است. دانشمندان داده اغلب با مهندسان داده در مرحله آماده سازی داده ها کار می کنند.
- تجزیه و تحلیل داده ها تجزیه و تحلیل داده ها برای شناسایی روندها، همبستگی ها، ناهنجاری ها و سایر اطلاعات مفید، هدف اصلی ابتکارات علم داده است. به طور کلی، کار تجزیه و تحلیل انجام شده توسط دانشمندان داده با هدف بهبود عملکرد کسب و کار و کمک به سازمان ها برای به دست آوردن مزیت رقابتی نسبت به رقبای تجاری است.
- داده کاوی. به عنوان بخشی از تلاش های تجزیه و تحلیل داده ها، این شامل تلاش برای کشف الگوها و روابط در مجموعه داده های بزرگ است. داده کاوی معمولاً با اعمال الگوریتم های پیشرفته بر روی داده هایی که در حال تجزیه و تحلیل هستند انجام می شود. سپس دانشمندان داده از نتایج تولید شده توسط الگوریتم ها برای ایجاد مدل های تحلیلی استفاده می کنند.
- فراگیری ماشین. به طور فزاینده ای، داده کاوی و تجزیه و تحلیل توسط یادگیری ماشین هدایت می شوند، که در آن الگوریتم هایی برای یادگیری مجموعه داده ها و سپس یافتن اطلاعات مورد نظر در آنها ساخته می شوند. دانشمندان داده مسئول آموزش و نظارت بر الگوریتم های یادگیری ماشین در صورت لزوم هستند. یادگیری عمیق شکل پیشرفته تری است که از شبکه های عصبی مصنوعی استفاده می کند.
- مدل سازی پیش بینی دانشمندان داده معمولاً باید بتوانند مدل های پیش بینی سناریوهای تجاری مختلف را برای تجزیه و تحلیل نتایج و رفتار بالقوه ایجاد کنند. برای مثال، مدلهایی را میتوان برای پیشبینی چگونگی پاسخ مشتریان مختلف به پیشنهادات بازاریابی یا ارزیابی شاخصهای احتمالی بیماریها ساخت.
- تحلیل آماری. کار علم داده همچنین شامل استفاده از تکنیک های تجزیه و تحلیل آماری برای تجزیه و تحلیل مجموعه داده ها است. تجزیه و تحلیل آماری جنبه اصلی کاری است که دانشمندان داده برای کاوش داده ها و یافتن روندها و الگوهای اساسی برای تجزیه و تحلیل و تفسیر انجام می دهند.
- تجسم داده ها. یافتههای کاربردهای علم داده معمولاً در نمودارها یا انواع دیگر تجسم دادهها سازماندهی میشوند تا مدیران تجاری و کارگران بتوانند به راحتی آنها را درک کنند. در بسیاری از موارد، دانشمندان داده تجسم های متعدد را در گزارش ها، داشبوردهای تعاملی یا داستان های داده های دقیق ترکیب می کنند.
چالش هایی که دانشمندان داده با آن روبرو هستند
اگرچه آنها یکی از بهترین مشاغل موجود را دارند، دانشمندان داده هنوز با چالش ها و پیچیدگی هایی روبرو هستند. کار علم داده به دلیل ماهیت پیشرفته و حجم زیادی از داده ها که اغلب باید تجزیه و تحلیل شوند، عموماً پیچیده است. همچنین، از آنجایی که همیشه به دانشمندان دادهها سؤالات تحلیلی خاصی برای پاسخگویی داده نمیشود یا دستورالعملهایی در مورد چگونگی تمرکز تحقیقاتشان داده نمیشود، گاهی اوقات میتوان مطمئن شد که کاری که انجام میدهند نیازهای تجاری را برآورده میکند.
جمعآوری دادههای مرتبط برای برنامههای تحلیلی نیز میتواند دشوار باشد، بهویژه در سازمانهایی که سیلوهای دادهای دارند که از سایر سیستمهای فناوری اطلاعات جدا شدهاند. داده های نادرست یا متناقض می تواند به اشتباه نتایج مدل های تحلیلی را منحرف کند. برای جلوگیری از آن، نمایه سازی و پاکسازی دقیق داده ها از قبل برای شناسایی و رفع مشکلات کیفیت داده مورد نیاز است. به طور کلی، آمادهسازی دادهها زمانبر است: یک اصل رایج این است که دانشمندان داده ۸۰٪ از زمان خود را صرف یافتن و تهیه دادهها میکنند و تنها ۲۰٪ را برای تجزیه و تحلیل آنها صرف میکنند.
شناسایی و پرداختن به سوگیری ها در کاربردهای علم داده چالش بزرگ دیگری است، هم در داده های در حال تجزیه و تحلیل و هم در الگوریتم ها و مدل های تحلیلی. حفظ مدلها و اطمینان از بهروزرسانی آنها هنگام تغییر مجموعه دادهها یا الزامات تجاری نیز میتواند مشکل ساز باشد. و اگر شرکتها روی یک تیم کامل علم داده سرمایهگذاری نکنند، ممکن است بارهای کاری تجزیه و تحلیل سخت باشد.