פרק #74 בינה מלאכותית כשופטת עם יאיר כהן

ניצן גולדנברג

בואו הקשיבו לנתנאל להרוש מארח את יאיר כהן אשר מדברים על אחד הנושאים החמים כיום בשוק - בינה מלאכותית כשופטת

תיאור הפרק:

הפודקאסט עוסק בנושא מתקדם בעולם ה-AI: שימוש במודלי שפה (LLM) כשופטים (LLM as Judge) — בעיקר בהקשר של בדיקות תוכנה וסוכנים חכמים.

מה זה LLM?

מודל שפה גדול (LLM) הוא מערכת שלומדת מכמויות עצומות של טקסטים, ומבוססת על חיזוי סטטיסטי של המילה הבאה.
הוא לא "מבין" באמת - אלא מנבא בצורה חכמה מאוד.

הבעיה המרכזית: בדיקות ל-AI

בבדיקות תוכנה רגילות יש תשובה נכונה או לא נכונה. אבל כשבודקים מערכות מבוססות AI (כמו בוטים), יש:

תשובות שונות שיכולות להיות נכונות
אזור אפור
חוויית משתמש שלא נבדקת בפשטות

דוגמה: המערכת עובדת טכנית — אבל הבוט עונה תשובה לא רלוונטית.

הפתרון: LLM כשופט (LLM as Judge)

הרעיון: להשתמש במודל אחד כדי להעריך מודל אחר.

איך זה עובד:

נותנים למודל קריטריונים (בהירות, רלוונטיות וכו')
מבקשים ממנו לדרג תשובות
מקבלים ציון (score)

זה מחליף בדיקה אנושית ידנית בקנה מידה גדול

איך מאמנים "שופט" כזה?

יש כמה שיטות:

1. Prompt Engineering / Few-shot

נותנים דוגמאות + הנחיות מדויקות

2. Fine-tuning

מאמנים מודל על דאטה ייעודי

בעיה מרכזית: Bias (הטיה)

הדאטה מושפע מאנשים
מה מוסרי/נכון משתנה בין קבוצות

פתרון להטיה: Constitutional AI

גישה של Anthropic:

מגדירים "חוקה" (עקרונות)
המודל בודק את עצמו לפי החוקה
מבצע שיפור עצמי (self-improvement)

בעיה קריטית: Hallucinations

המודל "ממציא" מידע שנשמע נכון.

פתרונות:

Human in the loop (בקרה אנושית)
RAG – חיבור למידע אמיתי בזמן אמת
Fact-checking models (מודל בודק נוסף)
Prompt נכון (להגיד "לא יודע" כשצריך)

איך מודדים הצלחה?

אין אמת מוחלטת => משתמשים ב:

Scoring (ציונים)
קריטריונים ברורים
יעד סטטיסטי (למשל: 85% מעל ציון מסוים)
בדיקות אנושיות להשוואה

סוכני בינה מלאכותית (AI Agents)

סוכן = מערכת שמבצעת משימות באופן עצמאי

רכיבים עיקריים:

LLM – המוח
Prompts – ההוראות
Memory – זיכרון
External Knowledge – מידע חיצוני
Tools – פעולות (שליחת מייל, API וכו')

MCP – החיבור לעולם האמיתי

Model Context Protocol

מאפשר לחבר AI לכלים ומידע חיצוני
כמו "USB של AI"
מבוסס Client-Server

איך בונים סוכן?

2 גישות:

1. No-Code / Low-Code

ChatGPT Agents
Claude
n8n

2. קוד מלא

טרנד חשוב: מפתחים כותבים פחות קוד — ויותר מנהלים/מבקרים AI

שינוי תפקיד המפתחים

המפתח הופך ל:

Architect
Reviewer
"שופט" של ה-AI

ולא רק כותב קוד

מסקנה מרכזית

AI לא מחליף אנשים - אלא משנה תפקידים: אנחנו עוברים מ"עושים" => ל"מבקרים ומכוונים"

לקבוצת הוואצאפ של קהילת הבדוקים: https://bit.ly/TestIL_Whatsapp

קישור לפרופיל לינקדאין של יאיר: https://www.linkedin.com/in/yair-cohen-549b1b248/

קישור לפרופיל לינקדאין של נתנאל: https://www.linkedin.com/in/netanel-harush/

אם גם אתם מעוניינים להשתתף בפודקאסטים, אנא צרו עימנו קשר במייל: [email protected]

קישור לערוץ הפודקאסט שלנו

לכל המאמרים