בואו הקשיבו לנתנאל להרוש מארח את יאיר כהן אשר מדברים על אחד הנושאים החמים כיום בשוק - בינה מלאכותית כשופטת
תיאור הפרק:
הפודקאסט עוסק בנושא מתקדם בעולם ה-AI: שימוש במודלי שפה (LLM) כשופטים (LLM as Judge) — בעיקר בהקשר של בדיקות תוכנה וסוכנים חכמים.
מה זה LLM?
מודל שפה גדול (LLM) הוא מערכת שלומדת מכמויות עצומות של טקסטים, ומבוססת על חיזוי סטטיסטי של המילה הבאה.
הוא לא "מבין" באמת - אלא מנבא בצורה חכמה מאוד.
הבעיה המרכזית: בדיקות ל-AI
בבדיקות תוכנה רגילות יש תשובה נכונה או לא נכונה. אבל כשבודקים מערכות מבוססות AI (כמו בוטים), יש:
- תשובות שונות שיכולות להיות נכונות
- אזור אפור
- חוויית משתמש שלא נבדקת בפשטות
דוגמה: המערכת עובדת טכנית — אבל הבוט עונה תשובה לא רלוונטית.
הפתרון: LLM כשופט (LLM as Judge)
הרעיון: להשתמש במודל אחד כדי להעריך מודל אחר.
איך זה עובד:
- נותנים למודל קריטריונים (בהירות, רלוונטיות וכו')
- מבקשים ממנו לדרג תשובות
- מקבלים ציון (score)
זה מחליף בדיקה אנושית ידנית בקנה מידה גדול
איך מאמנים "שופט" כזה?
יש כמה שיטות:
1. Prompt Engineering / Few-shot
נותנים דוגמאות + הנחיות מדויקות
2. Fine-tuning
מאמנים מודל על דאטה ייעודי
בעיה מרכזית: Bias (הטיה)
- הדאטה מושפע מאנשים
- מה מוסרי/נכון משתנה בין קבוצות
פתרון להטיה: Constitutional AI
גישה של Anthropic:
- מגדירים "חוקה" (עקרונות)
- המודל בודק את עצמו לפי החוקה
- מבצע שיפור עצמי (self-improvement)
בעיה קריטית: Hallucinations
המודל "ממציא" מידע שנשמע נכון.
פתרונות:
- Human in the loop (בקרה אנושית)
- RAG – חיבור למידע אמיתי בזמן אמת
- Fact-checking models (מודל בודק נוסף)
- Prompt נכון (להגיד "לא יודע" כשצריך)
איך מודדים הצלחה?
אין אמת מוחלטת => משתמשים ב:
- Scoring (ציונים)
- קריטריונים ברורים
- יעד סטטיסטי (למשל: 85% מעל ציון מסוים)
- בדיקות אנושיות להשוואה
סוכני בינה מלאכותית (AI Agents)
סוכן = מערכת שמבצעת משימות באופן עצמאי
רכיבים עיקריים:
- LLM – המוח
- Prompts – ההוראות
- Memory – זיכרון
- External Knowledge – מידע חיצוני
- Tools – פעולות (שליחת מייל, API וכו')
MCP – החיבור לעולם האמיתי
Model Context Protocol
- מאפשר לחבר AI לכלים ומידע חיצוני
- כמו "USB של AI"
- מבוסס Client-Server
איך בונים סוכן?
2 גישות:
1. No-Code / Low-Code
- ChatGPT Agents
- Claude
- n8n
2. קוד מלא
טרנד חשוב: מפתחים כותבים פחות קוד — ויותר מנהלים/מבקרים AI
שינוי תפקיד המפתחים
המפתח הופך ל:
- Architect
- Reviewer
- "שופט" של ה-AI
ולא רק כותב קוד
מסקנה מרכזית
AI לא מחליף אנשים - אלא משנה תפקידים: אנחנו עוברים מ"עושים" => ל"מבקרים ומכוונים"
קישור לפרופיל לינקדאין של יאיר: https://www.linkedin.com/in/yair-cohen-549b1b248/
קישור לפרופיל לינקדאין של נתנאל: https://www.linkedin.com/in/netanel-harush/

אם גם אתם מעוניינים להשתתף בפודקאסטים, אנא צרו עימנו קשר במייל: [email protected]
קישור לערוץ הפודקאסט שלנו