כל פרויקט דאטה מתחיל במציאת דאטה-סט. במדריך זה אסביר מהו דאטה-סט, למה אתם צריכים אותו ומה הם המקורות הטובים ביותר למציאת דאטה-סט מעניין, נגיש וקל לשימוש.
מה זה דאטה-סט?
דאטה סט הוא אוסף של אינפורמציה מאורגן שמשמש לניתוח נתונים. Dataset יכלול משתנים, שיכולים להיות נומריים או קטגוריאליים ומתארים את הישויות השונות בו. דאטה-סט אינו אוסף רנדומלי של אינפורמציה, אלא הוא מאורגן ומסודר. דאטה-סטים מסויימים מגיעים מסודרים מאוד, אחרים דורשים עבודת ניקיון וסידור.
למה אתם צריכים דאטה-סט?
אנליסטים (ג׳וניורים וותיקים כאחד), לרוב יחפשו Dataset על מנת ליצור פרויקט דאטה לטובת קבלה לעבודה. אפשר למצוא עבודה גם בלי תיק עבודות או פרויקט מוצלח, אבל אני מאמין שזה הרבה יותר קל למצוא עבודה כשיש לך פרויקט מוצלח.
סיבה נוספת יכולה להיות לשם תרגול נוסף בזמן קורס הסבה. הדרך הטובה ביותר ללמוד כל Skill חדש הוא פרויקט מהעולם האמיתי. הדאטה-סטים ברשימת המקורות הם As real as it gets. חלקם דורשים עבודת סידור וניקיון כמו בעולם האמיתי ומספקים הזדמנות מצויינת לEDA וויזואליזציה רלוונטית.
איפה למצוא דאטה-סט?
מציאת דאטה-סט היא פעולה די קלה בימינו. דאטה מונגש היום בצורות שונות לטובת פרויקטים פתוחים של ניתוח ובניית מודלי חיזוי. הדרך הקלה ביותר למצוא דאטה-סטים היא להשתמש במנועי חיפוש ייעודים כמו זה של Google, Kaggle או Datahub.
אבל, וזה אבל חשוב, כמו כל דבר בעולם האינטרנט, אם אתם לא ממש יודעים מה אתם מחפשים ואיך זה אמור להיראות, מאוד קשה למצוא דאטה-סט טוב, נגיש ומעניין במנועי החיפוש. לכן יצרתי רשימת מקורות לדאטה-סטים בנושאים מעניינים אליהם תוכלו להתחבר ולעבוד על דאטה שרלוונטי לצרכים והרצונות שלכם.
5 מקורות לדאטה סטים מעניינים
NASA Open data portal
עם יותר מ90 פטה בייטים (1,000,000 ג׳יגה בייטים ) של נתונים, מאגר המידע של NASA מספק מידע לכל מה שקשור למדעי כדור הארץ: אקלים, פיזור גזי חממה, משקעים, טמפרטורות, צמחייה וגם מידע הנוגע לאוכלוסיית העולם. מאגר מידע מעניין למתעניינים בדאטה גיאוגרפי.
קטגוריית דאטה: גיאוגרפי.
גישה: חופשית.
שפה: אנגלית.
הצעה לפרויקט: ניתוח נתונים על פליטת גזי חממה לאורך זמן והצגתם בצורה גיאוגרפית.
IMDB
לא מצליחים למצוא מה לראות? IMDB מספק נתונים על סרטים, סדרות, שחקנים, ביקורות, תאריכי יציאה של תכנים ועוד. ה-Database של IMDB ניתן להורדה מקומית ומעולה לתרגול עבודה עם SQL. בניגוד לדאטה סטים אחרים, מדובר בדאטה בייס רלציוני פתוח לחלוטין לשימוש.
קטגוריית דאטה: בידור.
גישה: חופשית.
שפה: אנגלית.
הצעה לפרויקט: אקספלורציה של טרנדים בקולנוע לפי עשורים בעזרת שימוש בז׳אנרים.
FBI Crime data explorer
מאגר המידע הממשלתי המרשים ביותר שניתן למצוא כיום ברשת. ה-FBI עשה מאמץ אדיר להנגיש נתונים על פשיעה ברמה הלאומית. האתר מספק ויזואליזציות יפות ואינפורמטיביות לצד גישה לדאטה עצמו בפורמט CSV.
קטגוריית דאטה: פשיעה.
גישה: חופשית.
שפה: אנגלית.
הצעה לפרויקט: שימוש בTime series analysis לצורך זיהוי טרנדים של פשיעה בתקופות מסויימות בשנה.
מאגר המידע הממשלתי של מדינת ישראל
גם בישראל עשו מאמץ כדי להנגיש נתונים לציבור הרחב. המאגר נוצר כדי לאפשר לאנליסטים ומפתחים להשתמש בנתונים על מנת ליצור יישומים ומערכות המבוססים עליו. המאגרים הם בנושא אוכלוסייה, תחבורה, כלכלה, בריאות ורווחה, אנרגיה ומים, דיור, חינוך ותרבות, משפט, סביבה וחקלאות, תיירות ועוד.
קטגוריית דאטה: נתונים מגופים ממשלתיים.
גישה: חופשית.
שפה: עברית.
הצעה לפרויקט: שימוש בנתוני בחירות ארציות לטובת זיהוי בייס פוליטי של כל מפלגה בהתאם לדירוג סוציואקונומי וסוג ישוב (עירוני, כפרי, קיבוצי).
הלשכה המרכזית לסטטיסטיקה
הגוף החשוב ביותר לאיסוף והפצת נתונים במדינת ישראל. למרות שהאתר משתמש בממשק קצת מיושן שדורש מעט זמן ללמוד איך להשתמש בו, הלמ״ס מספקים נתונים לגבי כמעט הכל – ממדד המחירים לצרכן ומידע על משכורות, ועד לנתונים על כמות הפרחים המיוצאת במדינת ישראל בכל חודש (ולפי כל פרח).
קטגוריית דאטה: נתונים מגופים ממשלתיים.
גישה: חופשית.
שפה: עברית.
הצעה לפרויקט: בחינת רמות שכר ממוצעות לפי גיל ועל פי אזור גיאוגרפי בישראל.
בונוס: הלמ״ס הוא מאגר נתונים מעט קשה לתפעול בהתחלה. בסרטון יוטיוב של הספרייה הלאומית מוצג הסבר מצויין על איך עובדים איתו.
בחרו בחוכמה
אחת התכונות הכי חשובות שאנליסט נתונים טוב צריך היא סקרנות. הדבר החשוב ביותר בבחירת דאטה-סט רלוונטי הוא מידת העניין שלכם בנתונים. כל אדם מתעניין בתחומים שונים ושואב את המוטיבציה שלו ממקורות שונים. בין אם תבחרו לנתח נתונים שקשורים לייצוא פרחים מישראל או שתרצו ליצור דשבורד שמספק תובנות בנושאי מקרי רצח בארה״ב, מה שחשוב הוא מידת החיבור שלכם לנתונים. בחרו נושא שמעניין אתכם והשתמשו בסקרנות שתספק את המוטיבציה להמשיך.