רגרסיה לינארית ב-ClickHouse
ClickHouse מספק מספר פונקציות לביצוע רגרסיה לינארית ישירות בתוך שאילתות SQL. הפונקציה simpleLinearRegression משמשת לחישוב מודל רגרסיה לינארית פשוטה, שמוצאת את הקו המתאים ביותר לסט נקודות.
מהי רגרסיה לינארית פשוטה?
רגרסיה לינארית פשוטה היא שיטה סטטיסטית שמדגמנת את הקשר בין שני משתנים על ידי התאמת משוואה לינארית לנתונים שנצפו. משתנה אחד נחשב למשתנה מסביר (בלתי תלוי), והמשתנה השני נחשב למשתנה תלוי.
המשוואה הלינארית יש את הצורה:
[ y = beta_0 + beta_1x ]
כאשר:
- ( y ) הוא המשתנה התלוי.
- ( x ) הוא המשתנה הבלתי תלוי.
- ( beta_0 ) הוא חיתוך ציר ה-Y.
- ( beta_1 ) הוא השיפוע של הקו.
פונקציית simpleLinearRegression ב-ClickHouse
ב-ClickHouse, פונקציית simpleLinearRegression מחשבת את הפרמטרים ( \beta_0 ) (חיתוך) ו-( \beta_1 ) (שיפוע) של המשוואה הלינארית בהתבסס על הנתונים הקלט.
תחביר
simpleLinearRegression(x, y)
פרמטרים
- x: המשתנה הבלתי תלוי.
- y: המשתנה התלוי.
פלט
פונקציה זו מחזירה זוג (intercept, slope) שמייצג את החיתוך והשיפוע של הקו המתאים ביותר.
דוגמה
נניח שיש לך טבלה בשם sales_data עם שני עמודות: advertising_spend (הוצאות פרסום) ו-sales (מכירות). אתה רוצה למצוא את הקשר הלינארי בין הוצאות הפרסום למכירות.
נתוני דוגמה
advertising_spend | sales |
---|---|
1000 | 5000 |
1500 | 6000 |
2000 | 7000 |
2500 | 8000 |
3000 | 9000 |
שאילתה
תוצאה
השאילתה תחזיר את החיתוך והשיפוע, שתוכל להשתמש בהם כדי להבין את הקשר בין הוצאות הפרסום למכירות. לדוגמה, אם התוצאה היא (intercept = 3000, slope = 2), משוואת הרגרסיה תהיה:
[ text{sales} = 3000 + 2 times text{advertising_spend} ]
זה אומר שעל כל יחידה נוספת של הוצאות פרסום, המכירות יגדלו ב-2 יחידות, והמכירות הבסיסיות (כאשר הוצאות הפרסום הן אפס) הן 3000 יחידות.
שימוש מעשי
- ניתוח חיזוי: שימוש במשוואת הרגרסיה כדי לחזות מכירות עתידיות בהתבסס על הוצאות פרסום מתוכננות.
- ניתוח מגמות: הבנת הקשר והמגמה בין שני משתנים.
- קבלת החלטות: עזרה בקבלת החלטות מבוססות נתונים על ידי הבנת ההשפעה של משתנה אחד על אחר.
פונקציית simpleLinearRegression של ClickHouse מס