בסופו של דבר, אחרי עיונים חוזרים ונשנים במסכי הסטטיסטיקות של הבלוג, הבנתי שהעובדה שיש הרבה יותר בוטים ש"קוראים" את המאמרים מאשר בני אדם לא צריכה להיות מובנת מאליה, ושיהיה מענין להבין את הענין.
בסופו של דבר בוטים מהסוג שגוגל מפעיל בכדי לסרוק את הרשת קיימים כבר מספר שנים ויש אמצעים לדווח לבוטים שהדף אותו הם מבקשים לא השתנה מהפעם הקודמת ובצורה זו לחסוך את רוחב הפס הנדרש לשליחת הדף מחדש (הבוט שולח את התאריך האחרון בו הוא קרא את הדף). אז למה הבוט של גוגל זה הדבר הדומיננטי ביותר בדף הסטטיסטיקות שלי? הרי בסך הכל כתבתי שני מאמרים והיו להם 5 תגובות, אז למה הבוט קרא יותר מ500 פעם, כאשר 10 פעמים היה צריך להיות יותר ממספק?
נבירה קצרה בקוד העלתה שוורדפרס לא מטפל נכון בכל הנושא הזה. לפי הקוד כל פעם שיש מאמר או תגובה חדשים, וורדפרס יחשוב שכל המאמרים הם חדשים וישלח את כל המאמר לבוטים במקום לדווח שהמאמר לא השתנה. זה ישפיע בעיקר על בלוגים בעלי הרבה מאמרים שמתעדכנים בקצב די מהיר.
עכשיו כל מה שנשאר זה לנסות לפתור את הבעיה ולראות עד כמה זה באמת משפיע על צריכת רוחב הפס.
אני לא מצליח למצוא, אבל אחד המפתחים של וורדפרס כבר התייחס לסוגייה הזו – רק הפידים של הרסס הם סטאטיים באמת (אתה יכול להיות בטוח שהם לא השתנו) בכל השאר יש לך תוכן דינמי, תגובות, ווידג'טים שמתעדכנים מדי טעינה, ועוד היד נטויה.
לכן הפידים של הרסס מכבדים את If_Modified_Since ושולחים 304 Not Modified (זה לדוגמה מה שגורם לעריכות שביצעת בפוסט לא להופיע בקוראי הרסס השונים עד פרסום הפוסט הבא, אפילו בפיירפוקס צריך לעשות קונטרול אף חמש בשביל לראות שינויים ברסס).
אני לא מצליח להגיב.
רק רציתי להגיד שמצאתי.
הכשל הוא בנקודה השלישית. 304 נשלח אם אין תוכן חדש בכל האתר. אצלי למשל יש מצד שמאל משהו כמו 25+ קישורים לדפים באתר. ברגע שאתה הגבת מבחינת וורדפרס יש תוכן חדש גם בכל הדפים ההם, למרות שהתוכן החדש נוגע רק לדף הזה.
גוגל משתמשים במנגנון בשם sitemap, שמאפשר לבעלי האתר לדווח לגוגל כאשר יש שינוי תוכן באתר. טכנית זה הרבה יותר יעיל מאשר קריאה לכל דף בנפרד, מאחר וכך מתבצעת קריאה אחת שנותנת את המידע לגבי זמני העדכון של כל דף ודף. מכאן אפשר להגדיר ב־sitemap שהוא יתן את תאריך העדכון האחרון של הדף או הוספת התגובה האחרונה, ולהגדיר לגוגל מה פסק הזמן שאנו ממליצים לו לסריקת כל דף ודף.
הבנתי שהמתחרים של גוגל התחילו לאחרונה לתמוך ב־sitemaps גם הם, אבל אין לי מראי מקום.