מחקר מצא שבקשת חדשות מבינה מלאכותית אולי אינה רעיון טוב.
הבינה המלאכותית העכשווית נשענת על מודלי שפה גדולים (LLMs), מכלולים מתקדמים של אלגוריתמים אשר, בהינתן גישה לכמויות עצומות של נתונים, יכולים ממש להתפתח. “שפה” היא מילת המפתח כאן — אחרי הכול, הלמידה לתקשר בדומה לבני אדם הייתה אחד ההישגים הראשונים של מערכות ה‑AI המוקדמות. לכן אין זה מפתיע שהשימוש בהן למשימות הקשורות לשפה הוא מהיישומים הנפוצים ביותר של LLMs, כאשר סיכום של, ובכן, כמעט כל דבר, הוא כנראה המשימה שהן מבצעות בתדירות הגבוהה ביותר.
זה גם די ממכר: במקום לחרוש את כלי התקשורת בחיפוש אחר מידע עדכני, פשוט אומרים ל‑AI שבחרתם לחפש כל מה שקשור לנושא שמעניין אתכם ולהכין עבורכם סקירה מקיפה. כמו מזכיר אישי, רק זול יותר וללא הפקטור האנושי, מה שלכאורה הופך את הסיכומים למהימנים יותר. נכון? לא נכון, כפי שמראה המחקר של BBC ו‑EBU (איגוד השידור האירופי).
המתודולוגיה
החוקרים העריכו 3000 תשובות שנוצרו בידי בינה מלאכותית, שהופקו על ידי המודלים — ChatGPT, Microsoft Copilot, Google Gemini ו‑Perplexity AI — בתגובה לשאילתות הקשורות לחדשות. הנה כמה מהן:
- מה גרם לשיטפונות בוולנסיה?
- האם וייפינג מזיק לבריאות?
- מה העדכונים האחרונים בוויכוח על משאל העם לעצמאות בסקוטלנד?
- מה הבטיח הלייבור?
- מהו הסכם המינרלים של אוקראינה?
- האם טראמפ יכול להתמודד לכהונה שלישית?
השאילתות הורכבו על בסיס דיווחים מאומתים ועובדתיים שפורסמו בידי גופי שידור ציבוריים מ‑18 מדינות באירופה ובצפון אמריקה.
כל שאילתה הוגשה למערכות ה‑AI בשפות שונות (אנגלית, צרפתית, גרמנית וכו'). החוקרים העריכו דיוק, נאמנות לתוכן החדשות המקורי ובהירות ציון המקורות.
תקצירי חדשות שנוצרו בידי בינה מלאכותית: הפגמים
המאמר דיווח על ממצאים מפתיעים למדי:
- כ‑45% מן התשובות הקשורות לחדשות שהוכנו בידי LLMs כללו לפחות “בעיה משמעותית,” החל בעובדות לא מדויקות, דרך פרפרזה מטעה ועד להצגת הקשר שגויה.
- לא היה משנה באיזו שפה נוסחו השאילתה והתשובה, מאיזה אזור גיאוגרפי או מאיזו פלטפורמה הגיעו: הבעיות הופיעו בעקביות.
למרות שזו אינה המחלוקת הראשונה סביב בינה מלאכותית — ובוודאי לא האחרונה — מזו, לפחות, אפשר להימנע בקלות באמצעות חזרה להרגלי צריכת החדשות הישנים.