תגית: RSS

ואולי בעית אינדוקס הרסס קשורה יותר לוורדפרס מאשר לגוגל

בתגובה למאמר על כך שגוגל מאנדקס RSS, דניאל העיר שהענין בעצם לא הגיוני מאחר שגוגל אמורים להיות מסוגלים לזהות את סוג התוכן לפי שדה הcontent-type שנשלח בתגובה לבקשת הHTTP.

הבעיה היא שיש יותר מערך חוקי אחד שניתן לתת לשדה הזה בשביל RSS. הערך שוורדפרס נותן הוא text/xml שבעיקרון עשוי לזהות כל דבר שהוא בפורמט XML, במקום הערך היותר ספציפי של application/rss+xml. בכל מקרה שיניתי לערך הספציפי יותר, ועכשיו צריך לחכות לראות מה יקרה…

ולמרות שזה ברור לכולם שזו התנהגות לא נכונה, גוגל עדיין מפנה לרסס בתוצאות חיפוש…

למרות שהאתר של החבר שלי, שהוא מתכן השקיה במקצועו, משרת עד עכשיו את מטרתו ונותן יחס לא רע בין תמורה להשקעה, החלטתי לבדוק הבוקר מספר מונחי חיפוש שהיה רצוי שהוא יופיע בהם במקומות סבירים בתוצאות החיפוש. למרבה ההפתעה, עבור אחד המונחים תוצאות החיפוש הפנו לרסס של האתר במקום לאתר עצמו, למרות שצירוף המילים הופיע באחד מהמאמרים, וזו ממש לא התנהגות נחמדה כלפי הגולש האקראי שלא יצליח לזהות לבד שהוא לא נמצא בדף המכיל זבל, אלא בדף רסס שממנו כדאי לגלוש לאתר.

כבר בחיפוש הראשון אחרי הסבר לתופעה הגעתי לאתר שהפנה אותי להודעה רשמית של גוגל שאומרת שגוגל לא יציג תוצאות חיפוש ברסס כחלק מתוצאות החיפוש הכלליות. האם זה אחד מהמקרים הקלאסיים שבהם לאנשי שיווק נוח להבטיח דברים שלמתכנתים קשה לישם?

מאחר שבין אם זה באג או תכונה, ההתנהגות הזו ממש לא לענין לפחות במה שקשור לאתר הזה, החלטתי לנסות למצוא פיתרון להוריד את הרסס מתוצאות החיפוש. נראה שהדרך הפשוטה ביותר היא להגיד למנועי החיפוש לא לאנדקס את הרסס. הבעיה עם הפיתרון הזה היא שהרסס לא יופיע גם בתוצאות החיפוש בblog search ומאחר שהblog search משמש את וורדפרס למציאת קישורים נכנסים לאתר, הפיתרון יחבל בפונקציונליות הזו. כמובן שהבעיה הזו לא ממש חשובה בהקשר של האתר הזה, אבל החלטתי לנסות למצוא פיתרון טיפה יותר כללי.

השאלה המרכזית היא איך גוגל מחליט מתי רסס הוא רסס ומתי הוא לפחות באופן פוטנציאלי דף רגיל. נכון לכרגע הנחת העבודה שלי היא שקישורים לרסס מהסוג <"link rel="alternate" type="application/rss+xml" title= "RSS 2.0> מזהים לגוגל רסס, בעוד שקישורים רגילים כמו <"a href="http://marksw.com/wordpress/?feed=rss2> מזוהים כדפים קישורים לדפים רגילים, וכל מה שצריך לעשות זה למנוע מגוגל להתיחס אליהם ככאלו.

אחרי חיפוש מהיר בתקני הרשת לא מצאתי דרך תקנית להגדיר שקישור "רגיל" מוביל לרסס ולכן האפשרות היחידה שנשארה פתוחה היא הוספת rel="nofollow" לקישורים האלו בתקוה שגם אם גוגל ימשיך להתחשב בדפי הרסס בתוצאות החיפוש, הPR שלהם יהיה נמוך ותהיה עדיפות להצגת הדפים מהאתר. עכשיו צריך לתת לזה קצת זמן בכדי לגלות אם זה עוזר…..