בית שירותים סדנאות מדריכים אודות פרויקטים בואו נדבר
ACADEMY / AI · יסודות

3 משפחות AI.
מתי משתמשים במה?

שפה, תמונה, קול - שלוש משפחות עיקריות של AI, כל אחת בנויה למשימה אחרת. ההבדל בין לבחור נכון לבחור לא נכון - בדרך כלל שעות של תסכול וכסף.

YM
ירין מלכה
· 07.05.2026 · 5 דקות קריאה · מדריך 04

אנשים פותחים את ChatGPT ומבקשים שייצור להם תמונה. או מבקשים מ-Midjourney שיכתוב להם מאמר. ומופתעים שזה לא הולך טוב.

הבעיה: לא כל AI אותו דבר. יש שלוש משפחות עיקריות, וכל אחת בנויה לסוג אחר של משימה.

במדריך הזה - מי מתאים למה, מה ההבדל בפועל, ואיך לדעת מהר באיזה כלי כדאי להשתמש.

1. AI של שפה - מה שכולם מדברים עליו

השם המקצועי: Large Language Models (LLMs).

Claude AI - דוגמה של AI שפה
Claude - דוגמה למודל AI מבוסס שפה. מקליד טקסט, מקבל טקסט

מה הם עושים: מקבלים טקסט, מחזירים טקסט. הכל מסתובב סביב מילים.

הגיבורים: Claude (Anthropic), ChatGPT (OpenAI), Gemini (Google).

למה זה הכי גדול עכשיו: זה מה שכולם משתמשים בו ברמה היומית. קל. דרך הדפדפן. ובעברית - עובד.

מתי תשתמש בזה:

  • לכתוב מיילים, מאמרים, הצעות מחיר
  • לסכם פגישות וטקסטים ארוכים
  • לתרגם בין שפות
  • להסביר מושג מסובך בפשטות
  • לחשוב יחד על אסטרטגיה
  • לכתוב קוד תוכנה

מתי תפסיד אם תנסה אותו במקום משפחה אחרת: אם תבקש "תייצר לי תמונה של חתול" - חלקם יציעו לך, חלקם יחזירו תיאור טקסטואלי. אבל זה לא הכלי שלהם.

טיפ: Claude הכי חזק בעברית מהשלושה הראשיים, ועם פחות "הזיות". ChatGPT הכי טוב ביצירת תמונות (יש לו DALL-E מובנה). Gemini הכי טוב בחיבור לעולם של גוגל.

2. AI של תמונה - יצירה ועריכה ויזואלית

השם המקצועי: Diffusion Models (כן, יש שם רשמי).

מה הם עושים: מקבלים טקסט (תיאור), מחזירים תמונה. או מקבלים תמונה ועורכים אותה.

הגיבורים: Midjourney, DALL-E, Stable Diffusion, Adobe Firefly, Google Imagen.

איכות לעומת קלות: Midjourney הכי איכותי (חיובי גם וגם הסטייל הכי טוב). DALL-E הכי קל (מובנה ב-ChatGPT). Firefly הכי "בטוח" משפטית (אדובי מבטיח שלא ייצור משהו שמעתיק יוצר אחר).

מתי תשתמש בזה:

  • תמונות לפוסטים בסושיאל
  • אילוסטרציות למצגות
  • תמונות סטוק ייחודיות לאתר שלך
  • עיצובי פתיח לבלוג / לוגואים ראשוניים
  • הדמיות מוצר לפני שהוא נבנה

מה הוא לא יעשה לך טוב:

  • טקסט בתוך התמונה (עדיין מתקשה - עברית במיוחד)
  • פנים של אנשים אמיתיים בלי הבהוב
  • תמונה שתואמת בדיוק לסקיצה שלך - הוא יוצר, לא מועתק
טיפ לעברית: בני אדם בתמונות AI נראים פחות "ישראליים" כי המודלים אומנו בעיקר על תמונות מערביות. אם אתה צריך תמונה ישראלית מובהקת - תיצור באנגלית, ואז תוסיף בקשה כמו "Mediterranean appearance, Middle Eastern features" כדי לכוון את התוצאה.

3. AI של קול - הקטגוריה ששווה זהב ולא מדברים עליה

שתי תת-קטגוריות, ושתיהן שונות ופיצוץ:

3.1 - מקול לטקסט (Speech-to-Text)

מה הם עושים: מקליטים אותך מדבר → מחזירים טקסט מתומלל.

הגיבורים: OpenAI Whisper (חינם, פתוח), Otter, Fireflies, Krisp.

מתי תשתמש בזה:

  • תמלול פגישות זום אוטומטי
  • תמלול הקלטות שלך לתוכן
  • סיכום שיחות מכירה
  • סובטיטלים לסרטונים
זה משנה אורח חיים. במקום לרשום הערות בפגישה - אתה מקליט (באישור), ה-AI מתמלל ומסכם, ויוצא לך זמן להקשיב באמת. Otter ו-Fireflies מתחברים אוטומטית לזום ועובדים לבד.

3.2 - מטקסט לקול (Text-to-Speech)

מה הם עושים: נותנים להם טקסט → מחזירים הקלטה אנושית. אפשר לשבט קולות.

הגיבורים: ElevenLabs (הכי טוב), OpenAI TTS, PlayHT.

מתי תשתמש בזה:

  • ליצור פודקאסטים מתוכן כתוב
  • סרטוני הסבר עם קריינות אוטומטית
  • הודעות מערכת לטלפון של עסקים
  • מעין הקראה לכן/לא ללקוחות עם קושי קריאה

4. ולמודלים שעושים הכל בבת אחת?

זה הכיוון של 2025-2026. מודלים מולטי-מודאליים שמקבלים טקסט + תמונה + קול ומחזירים את הכל.

למשל:

  • Claude Opus יודע לראות תמונה, להבין מה בה, ולענות בטקסט.
  • GPT-4o (אומני) יודע לקבל קול, לענות בקול, לראות תמונה - הכל בשיחה אחת.
  • Gemini עושה את הכל וגם מחובר לחיפוש.

זה לא אומר שמשפחות נפרדות נעלמות - להפך. למשימה ספציפית, מודל ייעודי כמעט תמיד יותר טוב ממודל אומני. אבל לרוב המשימות היומיות - מודל אחד שעושה הכל זה הכיוון.

שפה

טקסט וחשיבה

כתיבה, סיכום, תרגום, ניתוח, רעיונאות. הקטגוריה הגדולה ביותר. דוגמאות: Claude, ChatGPT, Gemini.

תמונה

יצירה ועריכה

תמונות חדשות מתיאור, עריכה אוטומטית, רקעים, אווטרים. דוגמאות: Midjourney, DALL-E, Stable Diffusion.

סאונד

קול, מוזיקה, תמלול

קולות מסונתזים, תמלול שיחות, יצירת מוזיקה. דוגמאות: ElevenLabs, Whisper, Suno.

5. איך אתה בוחר את הנכון - 3 שאלות

לפני שאתה פותח כלי, תשאל את עצמך:

  1. מה הקלט שלי? טקסט = LLM. תיאור של תמונה = Image AI. הקלטה = Audio AI.
  2. מה הפלט שאני רוצה? טקסט = LLM. תמונה = Image AI. קול = Text-to-Speech. תמלול = Speech-to-Text.
  3. זאת משימה אחת או ארוכה? משימה ארוכה ועם הקשר = LLM. משימה אחת ויזואלית = Image AI.
חוק אצבע: אם אתה לא בטוח - תפתח Claude. הוא יבין את הבקשה, ואם הוא לא יכול לעשות אותה (כמו ייצור תמונה אמיתית), הוא יפנה אותך לאן ללכת.

מה הלאה

עכשיו שאתה יודע מה כל קטגוריה עושה - שווה לראות 5 כלים חינמיים שתוכל לפתוח עכשיו, אחד מכל קטגוריה.

או אם אתה עדיין רוצה להבין יותר עומק על איך כל זה עובד מאחורי הקלעים - המדריך על מה זה AI באמת.

רוצה את המדריך הבא?
מדריך עמוק כל כמה שבועות. בעברית, פרקטי, בלי רעש.
ביטול בלחיצה אחת.