The Data Scientist's Guide to the Galaxy

המדריך לכניסה לתחום מדע הנתונים. בעברית.

נכתב ע״י קרן ספארק, כל הזכויות על האיורים שמורות לגרגורי קוברגר

 

כתבנו את המדריך הזה, כי לא מצאנו אותו בעצמנו.
בקרן ספארק יש לנו משימה אחת פשוטה: לאפשר לכל אדם למצות את הפוטנציאל שלו בעזרת חינוך איכותי. 
בחודשים האחרונים הקדשנו זמן רב למחקר ולמידה של מקצועות העתיד בישראל. במסגרת המחקר יצאנו למסע בו ניסינו לבדוק מה הם המקצועות שהכי כדאי ללמוד במטרה לבנות קריירה מצליחה במאה ה-21, איך נכון לגשת אליהם וכמובן איך ואיפה כדאי ללמוד אותם.

המדריך שלפניכם מנסה לרכז את התובנות שאספנו במהלך הדרך, בצורה ברורה להבנה, נגישה לכול אחד ובעיקר בעברית פשוטה ותוך חיבור לנעשה בתחום כאן בישראל.

״העבודה הסקסית ביותר במאה ה-21״

הציטוט הזה לקוח מהמגזין הנחשב Harvard Business Review והוא מתאר בדיוק רב את הבאזז העולמי סביב מקצוע ה-Data Science או ״מדע הנתונים״ בעברית תקינה.

רק בינואר האחרון הכתיר המגזין TechRepublic את מדע הנתונים בתור ״המקצוע המבטיח ביותר בשנת 2019״ ונראה ששיא הבאזז עוד לפנינו.

מי שיחפש את הנתונים שמאחורי הרעש והכותרות, יוכל למצוא אותם בדו״ח מיוחד שפרסמה Linkedin החושף גידול של 56% בפתיחת משרות חדשות בתחום במהלך השנה האחרונה. ומי שלא מסתפק בנתון הזה, יכול פשוט ללכת ולבדוק איזה מקצוע מופיע במקום הראשון בטבלת ״50 העבודות הטובות ביותר באמריקה״ לשנת 2019. מדובר בטבלה המנתחת את כלל המקצועות בשוק האמריקאי ומתעדכנת מדי רבעון על ידי חברת Glassdoor.

אבל היי, אל תעצרו את נשימתכם מרוב מתח, אתם הרי כבר יודעים איזה מקצוע מופיע שם ראשון.

המדריך למדען נתונים בישראל

המדריך הבא נועד לקחת אתכם למסע קצר בשבילים של מקצוע ה-Data Science.

ביחד ננסה להבין איך נולד המקצוע הזה, ממה הוא מורכב, מה הוא מאפשר ובעיקר איך אפשר לבנות מסלול קריירה כזה שייאפשר לכם בעוד שנה מהיום להסתכל במראה ולהגיד לעצמכם בשקט: ״נעים מאוד, אני דאטה סיינטיסט״.

 

אז יאללה, קחו אוויר ובואו לקפוץ איתנו למים של הנתונים.

חלק I

איך מקצוע נולד?

בזמן שקראתם את המשפט הזה נשלחו יותר מ-24,000,000 אימיילים ברחבי העולם 
אנחנו חיים בתקופה שבה נוצרים נתונים יותר מאי פעם בהיסטוריה של המין האנושי.

בכל יום נשלחים 249 מיליארד אימיילים ברחבי העולם, 65 מיליארד הודעות WhatsApp, יותר מ-500 מיליון ציוצים ב-Twitter ויותר מ-350 מיליון תמונות מתפרסמות רק ב-Facebook לבדה. בכל יום.

אנחנו חיים בעולם שבו כמעט כל אדם, מכונה, ארגון או חברה מייצרים כמויות עצומות של מידע בכל יום. ובשנה הקרובה כמות הנתונים שנוצרו עד כה צפויה להגיע לכמות שקשה אפילו להתחיל לדמיין: 44 זטה-בייט (ZB). זטה-בית למקרה שתהיתם מציינים באמצעות 1 ולאחריו 21 אפסים:

1,000,000,000,000,000,000,000 (שזה אפשר להסכים בחלט מספר מכובד של בייטים).

דאטה זה הזהב החדש

בשנים האחרונות, עם הצטברות כמויות עצומות של מידע מחד והתפתחות של כלי ניתוח וחיזוי משוכללים מאידך, החשיבות של נתונים מדוייקים, כאלו שיכולים ללמד אותנו יותר על העולם שסביבנו, רק הולכת ומתגברת. בין אם לטובת ניתוח העבר, הבנת ההווה או זיהוי תבניות שיעזרו לנו בצורה טובה יותר לחזות את העתיד - שימוש מושכל בדאטה שסביבנו יכול לשפר את חיינו באופן שהדורות הקודמים לא חלמו עליו אפילו. 

רק לשם המחשה, לעיבוד וניתוח נכונים של הנתונים יכולה להיות השפעה קריטית על חיזוי עיכוב בטיסה (האם יש צפי למזג אוויר קיצוני? פקקי תנועה בדרך לשדה התעופה? צפי לתקלה טכנית במטוס? עיכובים בטיסות אחרות?), על חיזוי עליית מחירי הסוכר בברזיל (מה הסבירות לבצורת השנה? השפעת המצב הפוליטי? נתוני האבטלה? עלויות כוח האדם?), על הערכת עלויות הביטוח בקליפורניה (מה הצפי לשריפות? הצפי לאסונות טבע אחרים? שכיחות הונאות הביטוח? ועוד) או על אינספור אלמנטים אחרים בחיי היומיום שלנו או של חברות ענק מסביב לעולם.

 

המקצוע: מדען נתונים

בעולם שבו שימוש נכון בנתונים יכול לייצר הזדמנויות עסקיות חדשות לחברות, או לחלופין להציל אותן מהפסדי ענק, לא מפתיע שקם לו מקצוע חדש שהעוסקים בו יהיו אלו היודעים כיצד לגלות ולעבוד בזהירות הראויה עם הזהב החדש המצטבר לו שורה אחרי שורה במסדי הנתונים של אותן החברות.

לפי ג'ון ראוזר, מחלוצי התחום שגם שימש בעצמו כמדען נתונים בשורה של חברות גדולות (ביניהן אמזון, פינטרסט וסנאפצ'ט), מדען הנתונים האידיאלי הוא ״מישהו שיש לו את הכישורים ההנדסיים להשיג ולנהל סט גדול של נתונים, אבל יש לו גם את הכישורים הסטטיסטיים לחלץ מהם תובנות בעלות ערך - ולהציג אותן בפני אחרים״.

או אם תרצו, Data Scientist הוא מישהו (או מישהי) שיודע לחבר את הנקודות בין עולם הנתונים לבין העולם העסקי. באותו אופן, Data Science זו המיומנות העדינה המאפשרת לחיבור הקסום הזה לקרות.

חלק II

ארגז הכלים

במובן מסוים, Data Science זה קצת כמו להכין ארוחה

כשאנחנו ניגשים להכין ארוחה, לפני הכל נרכז את המצרכים, אחר כך נשטוף את הירקות, האורז והבשר (אפשר כמובן גם בלי בשר למי שמעדיף), לאחר מכן נחתוך את המצרכים לחתיכות בגודל הרצוי ורק אז נהיה מוכנים להתחיל לבשל את הארוחה.

בתחום ה-Data Science נצטרך לרוב להתחיל עם הבאת המצרכים לשולחן, בעזרת תהליכים של איסוף נתונים (Data Collection) או כרייתם ממקורות קיימים (Data Mining). לאחר מכן נצטרך לנקות ולהכין את המצרכים וחומרי הגלם. תמיד נתחיל עם הנתונים הראשוניים ביותר שיש לנו, שלרוב יהיו נתונים גולמיים אותם נצטרך לנקות ולסדר. או, בשפה מקצועית, נתחיל בפעולות ETL (ר״ת של Extract, Transform, Load), לצד תהליכים של טיהור הנתונים (Data Cleansing) וניפוי באגים (Data Debuggin) שכל מטרתם היא לוודא שאכן יש לנו את חומרי הגלם הנדרשים לטובת בישול הארוחה.

 

לאחר שהכנו את המוצרים לבישול הארוחה, אנחנו מגיעים לשלב שבו מבשלים את הירקות, האורז והבשר שלב-אחר-שלב, מוסיפים מצרכים בסדר קבוע, לפי תזמון ידוע ותוך כדי שאנחנו צופים כיצד המרכיבים הגולמיים הופכים אט-אט למזון ראוי לאכילה. 

בעולם ה-Data Science זה בדיוק בשלב בו נעשה שימוש בפעולות של גילוי ראשוני (Data Exploration), סימון מאפייני מפתח בהם מעניין אותנו להתרכז (Feature Construction), או להיפך - מאפיינים ונתונים מהם נעדיף להתעלם (Feature Reduction).

בדיוק כמו בבישול,  לרוב נעשה שימוש במתכונים קיימים, כלומר אלגוריתמים ייעודיים המאפשרים לנו לזהות תבניות ומגמות בתוך סבך הנתונים, תוך התבססות על למידת מכונה (Machine Learning) ולמידה עמוקה (Deep Learning). לעיתים, בפרט אם אנחנו יודעים לבשל ברמות הכי גבוהות שיש, נוכל גם להמציא ולרקוח מתכונים חדשים לגמרי בעצמנו.

 

החלק האחרון הוא שלב הצילחוּת, שבו אנחנו מסדרים את המזון בצורה מעוררת תיאבון. אנחנו בוחרים לסדר את המזון ברצף מסוים על הצלחת ובהיגיון מסוים מבחינת הגשת המנות. למשל: מנה ראשונה, מנה שנייה וכו'. בדרך הזאת, אנחנו מקלים על מי שיצרוך את המזון שלנו להבין את ההיגיון אותו בנינו מאחורי הארוחה. 

השלב המקביל בעולם ה-Data Science הוא שלב הצגת תוצאות עיבוד הנתונים שביצענו בצורה ויזואלית ונוחה להבנה. לרוב לשלב הזה מתלווים סקירה או סיפור שמפנים לתובנות העסקיות הרלוונטיות לצרכן שעבורו בישלנו את הארוחה. 

 

לסיכום, התהליך הבסיסי של Data Science מתחיל מאיסוף הדאטה, הכנה הדאטה לעבודה, עיבוד וניתוח הדאטה ובסופו של דבר - סיפור והצגת תובנות עסקיות מדידות. 

את כלי העבודה והאוכל יחליפו בין השאר, כלים בדמות שפות תכנות (כגון Python או R), שימוש במסדי נתונים (מסוג SQL, NoSQL ואחרים), אלגוריתמים מתקדמים לניתוח נתונים (TensorFlow, Spark ועוד רבים אחרים) וכמובן גם כלים לניתוח והצגת הנתונים (לדוג׳ Tableau, Power BI ואחרים).

 

מה צריך מדען נתונים טוב?

כפי שניתן לראות מהארוחה שזה עתה סיימנו לבשל, על מנת להיות מסוגל לפעול בתחום ה-Data Science נדרשות יכולות תכנות, הבנה סטטיסטית, שימוש בויזואליזציה והרבה היגיון עסקי. מדעני נתונים טובים הם כאלו עם תשוקה ויכולת לתרגם סימני שאלה עסקיים או אתגרים טכנולוגיים מתחום ה-Machine Learning לתשובות המבוססות על דאטה.

 

כדי להבין טוב יותר מהם הכישורים הנדרשים ממדען נתונים ניתן להיעזר בסקירה מקיפה שביצע האתר KDnuggets במהלכה נסקרו עשרות-אלפי מילות מפתח המופיעות באלפי מודעות הדרושים אותן מפרסמות חברות עבור משרות Data Scientist בתחומים שונים.

באופן לא מפתיע, היכולות לנתח נתונים, לצד הבנה בסטטיסטיקה והתמחות בלמידת מכונה (Machine Learning), נמצאים בלב הכישורים הנדרשים עבור מקצוע ה-Data Scientist. אך לצידם ניתן למצוא שורה ארוכה של תכונות וכישורים נוספים הנדרשים על מנת להשתלב בתחום, כפי שניתן לראות בגרף הבא:

כישורים מבוקשים (מקור)

בנוסף, באותה סקירה נותחו גם שפות התכנות והכלים הטכנולוגיים המבוקשים ביותר בתחום, בראשם כמובן שפות התכנות Python ו-R אשר שליטה טובה באחת מהן מהווה כמעט תנאי הכרחי לרוב המשרות בתעשייה, כפי שניתן לראות בהרחבה בגרף הבא (בונוס לחובבי המספרים והטבלאות: כאן ניתן למצוא את גיליון הנתונים המלא).

טכנולוגיות מבוקשות (מקור)

חלק III

יום בחיי מדען נתונים

אז איך זה להיות מדען נתונים? 

בחלק הזה של המדריך אספנו עבורכם מספר דוגמאות מהארץ ומהעולם, בהם תוכלו לשמוע מדעני ומדעניות נתונים המספרים בגוף ראשון על חוויית העבודה שלהם בחברות טכנולוגיה וסטארטאפים מובילים.
 

ג'ואקיים, בוגר ITC, מתאר את העבודה על פרויקט בחברת BMW (משך: 01:17 דקות)

ג׳ומה, לשעבר מדען נתונים בפייסבוק, מתאר מה זה אומר להיות  Data Scientist (משך: 11:08 דקות)

אסטל, בוגרת ITC, מספרת על הפרויקט שהובילה בחברת Aidoc  (משך: 01:17 דקות)

מנשה, מתארת יום בחיי Data Scientist בחברת אינסטגרם (משך: 11:35 דקות)

חלק IV

הביקוש

אלפי משרות חדשות בכל חודש
הביקוש בתחום נמצא בעלייה מתמדת ומבדיקה שערכה חברת המידע Thinknum עולה כי 5,000 החברות הגדולות בארה״ב מפרסמות יותר מ-3,000 משרות חדשות מדי חודש. במקביל, מחקר של IBM בנושא חושף כי בשנה הקרובה צפוי הביקוש למדעני נתונים לגדול בכמעט 30% ביחס להיצע הקיים כיום.

 

הביקוש בישראל

הטרנד העולמי לא פסח על ישראל, בהתבסס על נתוני המשרות הפנויות המופיעות באתרים Linkedin ו-Glassdoor קיימות כיום בישראל מעל ל-600 משרות פתוחות לתפקידי Data Scientist. כאשר כ-37% מהמשרות המפורסמות בישראל הינן ״משרות פתיחה״ אליהן יכולים להגיש מועמדות גם כאלו שלא עבדו בתעשייה בתחום, אך עברו הכשרה ממוקדת בתחום ה-Data Science.

בין מפרסמי המשרות, ניתן למצוא את חברות הטכנולוגיה המובילות בעולם, אשר מסמנות את ישראל בתור Data Nation. ובין החברות שפתחו לאחרונה מרכזי פיתוח בתחום בישראל ניתן למנות את אמזון, גוגל, מיקרוסופט, פייסבוק, בוקינג.קום ועוד שורה ארוכה של חברות מובילות מהארץ ומהעולם.

 

השכר בישראל

על פי מדגם מקיף שנערך על ידי קבוצת Machine Learning Israel, בהובלת אורי אליאבייב עולה כי השכר החודשי הממוצע לעובדים בתחום במשרה מלאה היה 31,000 ש״ח, עלייה של 2,000 ש״ח מהשנה הקודמת. כאשר כניסת ענקיות הטכנולוגיה לתחום בישראל, דוגמת אמזון, גוגל ופייסבוק, משפיעה באופן ישיר על רמות השכר המקובלות בתחום: כ-25% מהעובדים בתחום בחברות שלהן למעלה מ-10,000 עובדים מרוויחים יותר מ-46,000 ש״ח בחודש.
 

חלק V

איך נכנסים לתחום?

לחובבים או למתעניינים בתחום

עולם ה-Data Science הוא עולם מרתק ומורכב, שהכניסה אליו מצריכה יכולות משמעותיות של למידה, התמדה, חקירה והעמקה. אם אתם מסוג האנשים שבעלי משמעת ברזל שמסוגלים ללמוד שבועות שלמים בעצמם ללא מסגרת מסודרת, ניתן למצוא ברשת לא מעט מסלולים ותכנים שיכולים לסייע לכם לעשות צעדים ראשונים בתחום. תוכלו למשל להתחיל עם קורסים בסיסיים באחת מפלטפורמות הלמידה אונליין הקיימות ברשת. בין הפלטפורמות המובילות בעולם המציעות קורסים והכשרות בתחום ה-Data Science ניתן למנות את Udacity המציעה תוכנית Nanodegree בת 5 חודשים, לצידה של edX המציעה שורה ארוכה של קורסים והכשרות בנושא

המחיר הממוצע להכשרות האונליין בתחום נע בין מאות דולרים לעשרות אלפי דולרים לקורסים מתקדמים, אך ניתן כמובן גם למצוא חומר חינמי רב ברחבי הרשת, כגון המדריך הזה מבית freeCodeCamp.org - המאפשר הצצה ראשונית לתחום.

אם אתם (כמו רוב האנשים) לומדים טוב יותר כאשר יש לכם תוכנית לימודים מסודרת, תמיכה ומסגרת שמבטיחה שתגיעו ליעדים הדרושים על מנת להשתלב בהצלחה בתעשייה, כנראה שדווקא תוכנית המתמחה בהכשרה לתחום ה-Data Science תוכל להביא אתכם לתפקיד הנחשק במסלול המהיר ביותר.

לבוגרי תארים מדעיים (מקצועות ה-STEM)

עבור רוב המשרות המפורסמות בישראל נדרש רקע מתמטי ו/או סטטיסטי משמעותי, לרוב ברמה של לכל הפחות תואר ראשון במקצועות ה-STEM (ר״ת של Science, Technology, Engineering and Mathematics). בנוסף יש צורך ברקע וניסון (לפחות בסיסיים) בתחום התכנות.

בארץ קיימות במספר תוכניות ברמות שונות המציעות הכשרות בתחום. לאחר מחקר ובחינה מעמיקים, אנחנו בקרן ספארק ממליצים על תוכנית המצטיינים הבינלאומית של ITC, המציעה לבוגרי תארים מדעיים מאוניברסיטאות מובילות בארץ ובעולם להגיש מועמדות לתוכנית הכשרה אינטנסיבית בת חמישה חודשים. התוכנית מכשירה את בוגריה להצטרף לתחום בתור מדעני נתונים בחברות המובילות בארץ ובעולם.

זו גם הסיבה שקרן ספארק עובדת בשיתוף עם תוכנית המצטיינים של ITC ומשקיעה בסטודנטים שהתקבלו לתוכנית באופן שמאפשר להם להצטרף לתוכנית ללא עלות מראש, אלא אך ורק לאחר שיימצאו עבודה ויתחילו להרוויח מעל 13,000 ש״ח בחודש.

לפרטים נוספים על תוכנית המצטיינים של ITC - לחצו כאן

איפה עובדים בוגרי תוכנית המצטיינים של ITC

מחשבות לסיום

כתבנו את המדריך הזה, כי לא מצאנו אותו בעצמנו.

כתבנו את המדריך הזה, כי אנחנו מאמינים שצריך לאפשר לכל אדם למצות את הפוטנציאל שלו בעזרת חינוך איכותי. מקצוע מדען הנתונים, בתור אחד המקצועות המבטיחים ביותר בעתיד הקרוב, בהחלט נכנס לקטגוריה של המקצועות המאפשרים ליחידות ויחידים מוכשרים למצות את הפוטנציאל הגלום בהם ולכן אנחנו בקרן ספארק פועלים על מנת לאפשר לכמה שיותר צעירים וצעירות את ההזדמנות הזאת.

סיימת בהצלחה תואר מדעי מאוניברסיטה מובילה בארץ ובעולם?

לאחר מחקר וניתוח בן למעלה מחצי שנה, הגענו למסקנה שעבור בוגרי תארים מדעיים (מקצועות ה-STEM) קיימת הזדמנות יוצאת דופן להצטרף לתחום באמצעות הכשרה במוסד הלימודים ITC, אשר תוכנית המצטיינים הבינלאומית שלו אורכת כ-6 חודשים ומאפשרת לבוגרי תארים מדעיים מאוניברסיטאות מובילות בארץ ובעולם להצטרף לתחום בתור מדעני נתונים בחברות המובילות בתעשייה.
והחלק הכי טוב? לא תשלמו אגורה אם לא תמצאו עבודה בשכר גבוה. 

המחזור הבא של תוכנית המצטיינים של ITC נפתח ב-28 לאוקטובר, 2019. 

ההרשמה לתוכנית נסגרת בתחילת חודש ספטמבר.

מי זו קרן ספארק?

אנחנו קרן השקעות עם משימה חברתית פשוטה: לאפשר לכל אדם למצות את הפוטנציאל שלו בעזרת חינוך איכותי.

 

המטרה שלנו היא לאפשר לכל סטודנט וסטודנטית את האפשרות ללמוד מקצוע שיקדם את פוטנציאל ההכנסה העתידי שלו או שלה, בראש שקט, ללא דאגה כלכלית, בלי קשר למצב הפיננסי שלהם או לרקע ממנו הגיעו. אנחנו משקיעים בסטודנטיות וסטודנטים נבחרים ומעניקים להם מימון לתקופת הלימודים, מסייעים להם למצוא עבודה לאחר סיום הלימודים ומלווים אותם לאורך הדרך, כי ההצלחה שלכם היא ההצלחה שלנו.

 

רוצים לדבר איתנו? יש לכם רעיונות שכדאי שנשמע?

פשוט כתבו לנו לכתובת: go@withspark.org