אלגוריתם Bert – קפיצת שלב בהבנה הסמנטית של גוגל

עמית אדלר
עדכון גוגל BERT

ביום שישי ה-25 באוקטובר, גוגל הכריזה רשמית על BERT – רשת נוירונית חדשה שהוקמה לפני כשנה, וכעת משולבת במנוע החיפוש. ברט הוא למעשה אלגוריתם לומד שמטרתו היא לעבד, לנתח ולהבין שפה טבעית – מה שבעולם המחשבים נקרא NLP (ראשי תיבות של Natural Language Processing). אם בא לכם לשבור שיניים נוספות, ראשי התיבות של ברט הן Bidirectional Encoder Representations from Transformers.

ברט ישפיע על 10% מהחיפושים בגוגל; תחילה בגוגל קום בשפה האנגלית, ולאחר מכן גם בשפות אחרות ובמנועים אחרים. בדומה לראנק בריין, אחיו הגדול, ברט מיועד לטפל בעיקר בחיפושי זנב ארוך וכן בחיפושים המשלבים מילות חיבור. הפריסה שלו החלה השבוע, ובסופו של דבר הוא יגיע גם לעיבוד שפות אחרות. נקודה חשובה נוספת נוגעת לתשובות ישירות בגוגל (Featured Snippets) – ברט משפיע עליהן בכל השפות כבר עכשיו, בלי להמתין.

ראוי לציין שמאז 2012, גוגל הפסיקה לתת שמות לעדכוני אלגוריתם; אז אם כבר יש אלגוריתם חדש שגוגל נותנת לו שם אמיתי באופן רשמי (ולא סתם “עדכון אוקטובר 2019”), כנראה מדובר במשהו מיוחד. בפוסט המקורי של גוגל נכתב כי זו “ההתקדמות הגדולה ביותר בחמש השנים האחרונות, ואחת מהגדולות בתחום החיפוש בכלל”.

עוד נקודה מעניינת היא שברט הוא פרויקט קוד פתוח, שנגיש לכל אחד שרוצה לפתח מערכת משלו להבנת שפה. בניגוד למהלכים אחרים של גוגל, שמוגנים רובם ככולם בפטנט, פרויקטים מהסוג הזה דווקא פתוחים לשימוש הציבור. למתעניינים, כל מחקרי גוגל בנושא בינה מלאכותית נמצאים בבלוג Google AI.

מדוע גוגל החליטה שצריך עוד אלגוריתם לעיבוד שפה?

ברט הוא לא האלגוריתם הראשון בגוגל המיועד להבנת השפה. אחד מהשינויים הגדולים ביותר בנושא זה היה אלגוריתם יונק הדבש (Hummingbird), שהושק ב- 2013 במטרה להבין חיפושים בשפה טבעית (Conversational Search).

לפני 4 שנים בדיוק, באוקטובר 2015, גוגל הכריזה על בינה מלאכותית חדשה בשם Rank Brain. מטרתה העיקרית היא לפעול בזמן אמת, בהתאם להתנהגות המשתמש ולפרמטרים אחרים, ולשפר את תוצאות החיפוש. לדוגמה, אם משתמשים רבים מגיבים בצורה מסוימת לסניפט X בתוצאות החיפוש, ראנק בריין יסיק את המסקנות ויבצע שינויים בהתאם.

גם ראנק בריין מיועד (בין שאר תפקידיו) להבנה טובה יותר של השפה, ובעיקר לטיפול בחיפושים חדשים שמעולם לא בוצעו (המהווים בערך 15% מסך החיפושים בגוגל). לכן נשאלת השאלה מדוע צריך עוד אלגוריתם לניתוח לשוני. האם בינה מלאכותית מתקדמת כמו ראנק בריין, לא מסוגלת לבצע את התפקיד במלואו?


ההסבר של גוגל נחלק לכמה רמות.
ראשית, לא תמיד המשתמשים מנסחים את החיפוש בצורה נכונה, כי לא תמיד הם יודעים מה הם רוצים בשלב החיפוש, או שהם כותבים בשגיאות וכן הלאה. שנית – מילות קישור כגון to או for עלולות לבלבל את המנוע בהקשרים מסוימים, וליצור משפטים שכוונתם הפוכה לחלוטין לכוונת המשורר. לבסוף, יש כמה דרכים להבין שפה ולא רק דרך אחת, ובהתאם לכך צריך ליישם כלים שונים.

לדוגמה, אם מישהו יחפש באנגלית “איך לקבל מרשם עבור מישהו בבית מרקחת” – התשובה הרגילה שהוא יקבל, תהיה פחות רלוונטית לעובדה שהוא משמש בא-כוחו של המטופל האמיתי. לעומת זאת, לאחר הפעלת ברט על השאילתה, כבר רואים את ההבדל בתשובה – הפעם גוגל מבין שמדובר בחבר או בן משפחה, שרוצה לאסוף את התרופה עבור מישהו אחר.

תוצאה בגוגל לפני ואחרי הפעלת BERT


דוגמה נוספת
מעולם התשובות הישירות – כאשר מחפשים באנגלית “חניה במעלה הכביש ללא מדרכה”, הדגש ניתן עד היום למילה “מדרכה”, ופחות על המילה “ללא” (שהיא החצי השני החשוב של המשפט). לאחר הפעלת ברט על השאילתה, ברור לגוגל שהכוונה כאן היא לחניה ללא מדרכה – ובהתאם לכך גם התשובה הישירה.

תשובה ישירה בגוגל לפני ואחרי הפעלת BERT

מה זה אומר לגבי קידום אורגני בגוגל?

כפי שגוגל עצמה ציינה בפוסט המקורי, BERT מיועד לטפל בעיקר בחיפושים ארוכים דמויי שיחה, וכאלה המשלבים מילות חיבור. הפוסט עצמו מזכיר באותה נשימה גם את 15 האחוזים החדשים לגמרי של חיפושים, שמעולם לא בוצעו לפני כן. גם מומחה השיווק ניל פאטל מתייחס בדיוק לעובדה הזו במאמר שכתב בנושא.

היינו שמחים אם היה אפשר לתת כאן סט של הוראות מדויקות לביצוע, אבל זה ממש לא המצב. כל מי שעוסק ב-SEO כבר מזמן יודע, שחלפו הימים בהם אפשר להתאים את עצמנו במדויק לכל שינוי שמבוצע בגוגל. עם אלפי שינויים בשנה, ועוד כמה עדכונים גדולים מספר פעמים בשנה, לא רק שלא ניתן לעקוב – גם לא ניתן ליישם משהו מעבר לידוע.

הדבר היחיד שכן אפשר לעשות הוא פשוט להמשיך ליצור תכנים טובים, כתובים נכון (ללא שגיאות כתיב וניסוח), העונים על צורכי קהל היעד ברמת פירוט גבוהה (בעיקר שאלות בנושאים ספציפיים, כפי שראינו בדוגמאות שגוגל עצמה נותנת).

מכיוון שגוגל הולך להשתפר מבחינת יכולותיו הסמנטיות (בפעם המי יודע כמה), אנחנו צריכים להמשיך לחשוב על התועלת שאנו נותנים למשתמשי האתר; וכתיבה נכונה ומעניינת היא אחת מהתועלות הללו גם בקידום אורגני.

כאשר משתמש נכנס אלינו לאתר בפעמים הראשונות, איכות התוכן עשויה להיות פרמטר משמעותי בהחלטתו האם לפנות אלינו או לא. ככל שנמשיך לספק לו תועלת, כך נגדיל את הסיכוי שאותו משתמש יהפוך לרוכש. כל זה באמצעות תכנים מעמיקים, מעניינים ורלוונטיים. זו השורה האחרונה לגבי שאלת “מה עושים”.

רגע לפני סיום – בנימה אישית

האמת שדי מפליא לשמוע שאפילו כיום גוגל מתבלבל בגלל מילות חיבור פשוטות, ועוד באנגלית (שאמורה להיות השפה שהוא מבין טוב יותר מכל השאר). הייתי מבין אם הבלבול היה מתרחש בשפה העברית, שהיא קשה יותר להבנה, ומילות החיבור שלה צמודות לכל מילה ולא נפרדות ממנה, כמו באנגלית.

מאוד מוזר לדעת שבעצם, עם כל התחכום הטכנולוגי שהיינו עדים לו עד היום, גוגל לא באמת מבין את השפה האנושית כפי שנדמה לנו. אומנם לא ציפינו שתהיה לו הבנה אנושית אמיתית… אבל להתבלבל בגלל מילת חיבור? הזוי שזו הרמה שאליה הצליחו להגיע רק עכשיו.

 

שיתוף ב facebook
שיתוף ב linkedin
שיתוף ב whatsapp
שיתוף ב email
נכתב על ידי
עמית אדלר הוא מקדם אתרים מ-2008 ואיש המילה הכתובה מ-1999. בעל תואר שני בפילוסופיה של המדע, מוסמך גוגל אנליטיקס ובלוגר נלהב.
0 0 הצבעה
קלות השימוש
0 0 הצבעה
פיצ'רים ופונקציונליות
0 0 הצבעה
תמיכה טכנית
0 0 הצבעה
תמורה לכסף
הרשמו
הודע על
guest
6 תגובות
הישן ביותר
החדש ביותר בעלת הכי הרבה הצבעות
פידבקים מוטבעים
צפייה בכל התגובות

תוכן עניינים

6
0
נשמח לשמוע את דעתך, נודה לתגובהx
()
x