מחשביםטכנולוגיית המידע

ראייה ממוחשבת מודרנית. משימות וטכנולוגית ראייה ממוחשבת. ראיה ממוחשבת תכנות ב- Python

איך ללמד מחשב להבין מה מתואר בתמונה או תמונות? זה נראה פשוט, אבל עבור מחשב זה הוא רק מטריצה המורכבת של אפסים ואחדים שממנו אתה רוצה לחלץ מידע חשוב.

מהו חזון מחשב? זוהי היכולת "לראות" את המחשב

חזון - הוא מקור חשוב של מידע עבור האדם משתמש בו, נקבל, לפי הערכות שונות מ, 70 ל 90% מכלל המידע. וגם, כמובן, אם אנחנו רוצים ליצור מכונית חכמה, אנחנו צריכים ליישם את המיומנויות אותה ואת המחשב.

הבעיה של ראייה ממוחשבת ניתן לומר די בבירור. מהו "לראות"? מובן כי שם יש רק מלהסתכל. זה סיכם את ההבדלים של ראייה ממוחשבת וראייה אנושית. חזון עבורנו - זה הוא מקור של ידע על העולם, כמו גם מקור המידע מטרי - כלומר, היכולת להבין את המרחקים וגדלים.

תמונת הקרנל סמנטית

כאשר מסתכלים על התמונה, אנחנו יכולים לתאר את זה על ידי מספר תכונות, אם אפשר לומר כך, כדי לחלץ מידע סמנטי.

לדוגמה, מסתכל בתמונה הזאת, אנחנו יכולים לומר שזה בחוץ. מהי התנועה בעיר. זה יש מכוניות. אנחנו יכולים לנחש כי מדובר דרום-מזרח אסיה לתצורה של הבניין והירוגליפים. הדיוקן של מאו טסה טונג להבין כי מדובר בייג'ינג, ואם מישהו ראה וידאו חי או עצמו היה שם, היה מניח שזו כיכר טיאננמן המפורסמת.

מה אנחנו יכולים לומר יותר על התמונה, רואים את זה? אנחנו יכולים לזהות אובייקטים בתמונה, כדי לומר, כי יש פה אנשים קרובים - גדר. הנה מטריות, פוסטרים של הבניין. אלו הן דוגמאות של שיעורים הן חפצים חשובים מאוד, אשר עוסקים בחיפוש אחר הרגע.

ובכל זאת אנו יכולים ללמוד חלק מהתכונות או תכונות של אובייקטים. לדוגמה, כאן אנו יכולים לקבוע כי לא מדובר דיוקן של הסינים רגילים, כלומר, מאו טסה טונג.

על פי הרכב ניתן לקבוע שזה חפץ נע, וזה קשה, כי הוא לא מעווה במהלך התנועה. אודות דגלים ניתן לומר כי היא מתנגדת, הם גם עוברים, אבל הם לא קשה, מעוות כל הזמן. ובתמונה יש את הרוח, אשר יכול להיקבע על ידי פיתוח דגלים, ואפילו יכולה לקבוע את כיוון הרוח, למשל, היא נושבת משמאל לימין.

המרחקים ואת האורכים ב ראייה ממוחשבת

חשוב מאוד הוא מידע מטרי על מדע ראייה ממוחשבת. זהו כל מיני מרחקים. לדוגמא, עבור רובר חשוב במיוחד משום הקבוצות הן מכדור הארץ כ 20 דקות ולענות כמה שיותר. בהתאם לכך, הקישור לשם ובחזרה - 40 דקות. ואם אנחנו עושים תכנית פקודות תנועה של כדור הארץ, אתה צריך לקחת זאת בחשבון.

בהצלחה משולבת הטכנולוגיה של ראייה ממוחשבת במשחקי וידאו. לדברי וידאו, אתה יכול לבנות דגמים תלת-ממדיים של חפצים, אנשים, ותמונות על המשתמש יכול לשחזר את הדגמים של ערים תלת ממדי. ואז ללכת עליהם.

ראייה ממוחשבת - מגוון רחב למדי. זה שזור באופן הדוק עם שאר מדעים שונים. חלק ראייה ממוחשבת היא לוכדת את אזור עיבוד תמונה ולפעמים מקצה ראייה ממוחשבת, היסטורי.

ניתוח, זיהוי תבניות - הנתיב ליצירת מודיעין מעולה

הבה נבחן את המושגים האלה בנפרד.

עיבוד תמונה - זהו תחום של אלגוריתמים, שבה הקלט והפלט - תמונה, ואנחנו צריכים אותו לעשות משהו.

ניתוח תמונה - הוא האזור של ראייה ממוחשבת, אשר מתמקדת בעבודה עם תמונה דו-ממדית ולעשות מסקנות מכך.

זיהוי תבניות - דיסציפלינה מתמטית מופשטת שמכירת נתונים בצורה של וקטורים. כלומר, בכניסה - וקטור ויש לנו משהו לעשות עם זה. איפה את הווקטור הוא, אנחנו לא כל כך חשובים לדעת.

חזון מחשב - זה במקור היה לשחזר את המבנה של תמונות דו-ממדיות. היום אזור זה הפך רחב והוא יכול להתפרש כקבלת כל האובייקטים הפיסיים ביצוע, המבוסס על התמונה. כלומר, ניתן לומר שהמשימה של בינה מלאכותית.

במקביל באמצעות ראייה ממוחשבת בתחום שונה לחלוטין, הגיאודזיה, פוטוגרמטריה התפתח - מדידה של המרחק בין אובייקטים על תמונות דו-ממדיות.

רובוטים יכולים "לראות"

ולבסוף - זהו חזון המכונה. תחת חזון המכונית אומר חזון של רובוטים. זוהי ההחלטה של כמה בעיות ייצור. אנחנו יכולים לומר כי ראייה ממוחשבת - היא מדע אחד גדול. הוא משלב כמה חלק המדע האחר. וכאשר הראייה הממוחשבת מקבלת כל יישום מסוים, זה הופך לראיית מכונה.

באזור חזון מחשב בעל מסה של יישומים מעשיים. היא מזוהה עם אוטומציה של ייצור. בשלב המפעלים להתייעל כדי להחליף עבודת כפיים על ידי מכונה. המכשיר אינו מתעייף, לא ישן, היה לה לוח זמנים לעבודה סדיר, היא מוכנה לעבוד 365 ימים בשנה. אז, באמצעות העבודה מכונה, אנחנו יכולים להשיג תוצאה מובטחת בזמן מסוים, וזה די מעניין. כל המשימות שימוש ברור למערכות ראייה ממוחשבת. ויש דבר טוב יותר מאשר לראות את התוצאות באופן מיידי על התמונה רק בשלב החישוב.

על סף העולם של בינה מלאכותית

פלוס באזור - זה קשה! חלק משמעותי של המוח האחראי על חזון, והוא האמין שאם אתה מלמד את מחשב "לראות", כלומר, את חזון מחשב המלא לשימוש, הוא אחד היעדים של בינה מלאכותית מלאה. אם נוכל לפתור את הבעיה במישור האנושי, ככל הנראה בעת ובעונה אחת, נפתור את הבעיה של AI. זה טוב מאוד! או לא כל כך טוב, אם אתה מסתכל, "2 שליחות קטלנית".

למה הוא חזון - קשה? כיוון שהתמונה של אותו אובייקט יכול להשתנות במידה רבה בהתאם לגורמים חיצוניים. בהתאם מושא נקודות תצפית נראים אחרת.

לדוגמה, אחד ואותו דמות, שצולמו מזוויות שונות. ומה שהכי מעניין באיור עלול להיות עין אחת, שתי עיניים וחצי. וזה תלוי בהקשר (אם תמונה זו של גבר בחולצה עם עיניים צבועות), שהעין יכול להיות יותר משני.

המחשב עדיין אינו מבין, אבל זה "רואה"

גורם נוסף המקשה - זה התאורה. באותה הסצנה עם תאורה שונה תיראה אחרת. גודל האובייקט יכול להשתנות. יתר על כן, האובייקטים של מעמד כלשהו. איך אתה יכול לומר על אדם כי גובה של 2 מטרים שלו? שום דבר. צמיחת אדם עשויה להיות 2.3 מ ', ו 80 סנטימטר. כמו סוגים אחרים של עצמים, לעומת זאת, הם עצמים מאותו הסוג.

במיוחד אובייקטים חיים עוברים מגוון של זנים. שיער אנשים, ספורטאים, בעלי חיים. תראה תמונות של סוסים הרצים, לקבוע מה קורה עם הרעמה והזנב שלהם הוא פשוט בלתי אפשרי. אובייקטים חופפים בתמונה? אם תתקע לך תמונה במחשב, ואפילו המכונית החזקה ביותר למצוא קושי לתת את ההחלטה הנכונה.

צפה הבא - זה בתחפושת. אובייקטים מסוימים, חיות מתחפשות הסביבה, ואת די במיומנות. והכתמים והצביעה אותו. עם זאת, אנו רואים אותם, אם כי לא תמיד מרחוק.

בעיה נוספת - התנועה. אובייקטים בתנועה בלתי נתפסת לעבור דפורמציה.

רבים מן החפצים הם מאוד משתנים. הנה, למשל, בשתי התמונות מתחת לאובייקטים של "הכיסא".

וביום הזה אתה יכול לשבת. אבל כדי ללמד מכונה, כך הדברים השונים בצורתם, צבע, חומר, הכל הוא אובייקט "כסא" - הוא מאוד קשה. זהו האתגר. כדי לשלב שיטות של ראייה ממוחשבת - הוא ללמד מכונה להבין, לנתח, לשער.

שילוב של ראייה ממוחשבת בפלטפורמות שונות

המסה של ראייה ממוחשבת החלה לחדור יותר בשנת 2001, כאשר הוא יצר את גלאי הפנים הראשונים. עשינו את זה שני מחברים: ויולה, ג'ונס. זה היה האלגוריתם מספיק המהיר ואמין הראשון, אשר הוכיח את כוחו של שיטות לימוד מכונה.

עכשיו ראייה ממוחשבת יש מספיק יישומים מעשיים חדש - הכרה של פנים אנושיות.

אבל כדי להכיר את האיש כמו בסרטים - בזוויות אקראיות, תנאי תאורה שונים - זה בלתי אפשרי. אבל כדי לפתור את הבעיה, או אחד זה אנשים שונים עם תאורה שונה או בתנוחה שונה, דומה כמו בצילום בדרכון, זה אפשרי עם רמה גבוהה של ביטחון.

דרישות תמונת פספורט בעיקר בשל התכונה של אלגוריתמים זיהוי פנים.

לדוגמא, אם יש לך דרכון ביומטרי, בחלק התעופה מודרנית, אתה יכול להשתמש במערכת ביקורת דרכונים האוטומטית.

בעיה לא פתורה של ראייה ממוחשבת - היכולת לזהות כל טקסט

אולי שמישהו השתמש מערכת OCR. אחת מהן - מקראה פיין, הוא מאוד פופולרי מערכת RuNet. ישנן צורות רבות שבהן אתה למלא את הנתונים, הם נסרקים באופן מושלם, את המידע הוא מוכר על ידי המערכת היטב. אבל עם כל טקסט בתמונת המצב הרבה יותר גרוע. בעיה זו עדיין נותרה לא פתורה.

משחקים מעורבים ראייה ממוחשבת, לכידת תנועה

שטח גדול נפרד - הוא יצירת מודלים לכיד תנועה תלת ממדי (אשר די מיושם בהצלחה במשחקי מחשב). התוכנית הראשונה, אשר משתמשת ראייה ממוחשבת - מערכת של אינטראקציה עם המחשב באמצעות מחוות. כאשר הוא נוצר זה היה הרבה דברים פתוחים.

האלגוריתם נועד בפשטות, אבל להגדיר אותו לקח ליצור גנרטור תמונות סינטטיות של אנשים לקבל מ'תמונות. מחשב העל איתם כדי לבחור את הפרמטרים של האלגוריתם, שעבורו הוא עכשיו עובד היטב.

זה זמן מחשב-ספיר מ'תמונות שבוע ניתן ליצור אלגוריתם צורך 12% מהקיבולת של מעבד אחד ומאפשר לאדם לחוש את העמדה בזמן אמת. מערכת Microsoft Kinect זו (2010).

חיפוש תמונות לפי תוכן מאפשר לך להעלות תמונות למערכת, ואת התוצאות של זה תיתנה את כל התמונות עם אותו התוכן ועשו מאותה הזווית.

דוגמאות של ראייה ממוחשבת: תלת ממדי ומפות דו-ממדיות כעת נעשות עם זה. מפות למכוניות ניווט מתעדכנות באופן קבוע על פי DVR.

ישנו מאגר נתונים עם מיליארדי בתמונות עם תיוג גיאוגרפי. כשאתה מוריד את התמונה באתר, אתה יכול לקבוע היכן זה נעשה, ואפילו עם קצת פרספקטיבה. כמובן, בתנאי שהמקום הוא פופולרי מספיק כי בבת אחת התיירים ועשה מספר תמונות של האזור הייתי שם.

רובוטים נמצאים בכל מקום

רובוטיקה בזמן הנוכחי, בכל מקום, בלי זה בדרך כלשהי. עכשיו יש כלי רכב כי יש מצלמות מיוחדות להכיר להולכי רגל תמרורים להעביר פקודות לנהג (זה בצורה תוכנת מחשב כדי להציג, עוזר נהג). ויש רכבים רובוטיים אוטומטיים לחלוטין, אבל הם לא יכולים להסתמך רק על מערכת מצלמת וידאו ללא שימוש כמות גדולה של מידע נוסף.

מצלמה מודרנית - זהו קמרה אובסקורה אנלוגי

בואו נדבר על התמונה הדיגיטלית. מצלמות דיגיטליות מודרניות מסודרות על העיקרון של הקמרה אובסקורה. רק במקום החור שדרכו האור נכנס הקורה מוקרן על הקיר האחורי של החדר של מעגל הנושא, יש לנו מערכת אופטית מיוחדת הנקראת העדשה. האובייקט שלה הוא לאסוף קרן אור גדולה ולהמיר אותו כך שכל הקרן עברה נקודה וירטואלית על מנת לקבל את ההשלכה ויוצר דימוי על סרט או מטריקס.

מצלמות דיגיטליות מודרניות (מטריקס) מורכבות מרכיבים בודדים - פיקסלים. כל פיקסל יכול למדוד את האנרגיה של אור המהווה אירוע על סך פיקסל, ולהנפיק מספר פלט אחד. לכן, מצלמה דיגיטלית, אנחנו מקבלים במקום מדידות אור סט בהירות תמונה, נתפסו פיקסל בודד - מחשב שדה ראייה. לכן, כאשר התמונה שאנו רואים היא לא זורמת קווים ומתארים ברורים, ואת רשת של ריבועים צבעוניים בצבעים שונים - פיקסלים.

להלן שאתה רואה את התמונה הדיגיטלית הראשונה בעולם.

אבל בתמונה הזאת היא לא? צבע. מהו צבע?

תפיסה פסיכולוגית של צבעים

צבע - זה מה שאנו רואים. הצבע של אחד ואותו הדבר עבור בני אדם וחתולים יהיה שונה. מכיוון שאנו (בני האדם) ומערכת אופטית חיה - חזון שונה. לכן, את הצבע - זה איכות פסיכולוגית של החזון שלנו המתרחשת כאשר התבוננות חפצה ואור. וזה לא מאפיין פיזי של האובייקט ואת האור. צבע - הוא התוצאה של האינטראקציה של רכיבי אור, ואת הסצנה של מערכת הראייה שלנו.

ראיה ממוחשבת תכנות בספריות באמצעות Python

אם החלטתם לעסוק ברצינות בחקר ראייה ממוחשבת, צריך מיד להתכונן מספר קשיים, מדע זה לא הקלה מסתיר מספר מלכודות. אבל "ראיה ממוחשבת תכנות על פייתון" זכות היוצרים של יאן אריק Solema - ספר שמתאר את כל השפה הפשוטה ביותר. כאן תוכל להכיר את שיטות זיהוי של עצמים שונים ב -3 D, ללמוד לעבוד עם תמונת סטריאו, מציאות מדומה ויישומים רבים אחרים של ראייה ממוחשבת. בספר הם מספיק דוגמאות בפייתון. אבל ההסברים מוצגים, אם אפשר לומר כך, כללי, כדי לא להעמיס יותר מדי מחקר ונתונים קשים. עבודה מתאימה לסטודנטים, חובבנים, וחובבים. הורד ספר זה ואחרים על ראייה ממוחשבת (pdf בפורמט) יכול להיות ברשת.

כרגע, יש ספריית קוד פתוחה של אלגוריתמי ראייה ממוחשבת ועיבוד תמונה OpenCV אלגוריתמים נומריים. זה מיושם ברוב שפות תכנות מודרניות, הוא קוד פתוח. אם אנחנו מדברים על ראייה ממוחשבת, Python משתמשת כמו שפת תכנות, יש לה גם את התמיכה של הספרייה, בנוסף, הוא מתפתח כל הזמן ויש לו קהילה גדולה.

החברה "מיקרוסופט" מספקת את שירותיה Api-מסוגל לאמן את הרשת העצבית לעבוד זה עם תמונות של אנשים. יש גם את האפשרות להחיל ראייה ממוחשבת, Python משתמשת כמו שפת תכנות.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 iw.delachieve.com. Theme powered by WordPress.