25 สถิติการจดจำรูปภาพเพื่อเปิดเผยพิกเซลเบื้องหลังเทคโนโลยี
เผยแพร่แล้ว: 2023-10-09คอมพิวเตอร์ยุคใหม่กำลังเรียนรู้ที่จะเห็นสิ่งต่าง ๆ เช่นเดียวกับวิธีที่มนุษย์ทำ และเทคโนโลยีการจดจำภาพกำลังทำให้เป็นไปได้
โครงข่ายประสาทเทียมเป็นหัวใจสำคัญของเทคโนโลยีนี้ เรียนรู้จากข้อมูลและจดจำรูปแบบ เมื่อคุณป้อนข้อมูลเพิ่มเติมเกี่ยวกับวัตถุ ใบหน้า และแม้แต่อารมณ์ การ "มองเห็น" และทำความเข้าใจภาพก็จะดีขึ้น
การจดจำรูปภาพเป็นส่วนหนึ่งของคอมพิวเตอร์วิทัศน์และปัญญาประดิษฐ์ (AI) ประกอบด้วยเทคนิคและอัลกอริธึมที่ติดป้ายกำกับและจัดหมวดหมู่เนื้อหาของรูปภาพ
โดยพื้นฐานแล้ว เทคโนโลยีเพิ่งเริ่มมีการพัฒนา แต่หลายองค์กรได้เริ่มใช้ ซอฟต์แวร์การจดจำรูปภาพ เพื่อฝึกโมเดลและเพิ่มความสามารถในการจดจำรูปภาพในแพลตฟอร์มซอฟต์แวร์อื่น ๆ ในปัจจุบัน การจดจำภาพช่วยในการวินิจฉัยทางการแพทย์ การค้นหาคนสูญหาย และแม้กระทั่งทำให้รถยนต์ที่ขับเคลื่อนด้วยตนเองกลายเป็นความจริง
ศักยภาพของตลาดมีมากมายและมีการขยายตัวอย่างต่อเนื่องเพื่อเจาะเข้าสู่อุตสาหกรรมใหม่ มาสำรวจสถิติเหล่านี้และดูว่ามีอะไรใหม่ในการจดจำรูปภาพ
สถิติตลาดการจดจำรูปภาพ
ตลาด การจดจำรูปภาพ กำลังเติบโตอย่างรวดเร็วและกำลังได้รับความนิยมในภาคการค้าปลีก การดูแลสุขภาพ และการรักษาความปลอดภัย ปัญญาประดิษฐ์ และ การเรียนรู้ของเครื่อง เป็นตัวขับเคลื่อนหลักของการเติบโตของตลาด จากสถิติด้านล่าง โอกาสใดๆ ในตลาดการจดจำรูปภาพอาจมีแนวโน้มที่ดีระหว่างปี 2023 ถึง 2030
ดูว่าสถิติเป็นอย่างไร
- ตลาดการจดจำรูปภาพทั่วโลกคาดว่าจะแสดงอัตราการเติบโตต่อปี (CAGR) ที่ 10.42% ในช่วงปี 2566 ถึง 2573
- ขนาดของตลาดการจดจำรูปภาพในสหรัฐฯ คาดว่าจะใหญ่ที่สุด โดยมีมูลค่า 3.94 พันล้านดอลลาร์ในปี 2566
10.53 พันล้านดอลลาร์
คือมูลค่าคาดการณ์ของตลาดการจดจำรูปภาพในปี 2566
ที่มา: Statista
- ขนาดตลาดการจดจำรูปภาพในอเมริกาเหนือเพิ่มขึ้น 11.86% ในปี 2566
- ตลาดการจดจำรูปภาพของออสเตรเลียคาดว่าจะสูงถึง 280 ล้านดอลลาร์ในปี 2566
- อเมริกาใต้มีขนาดตลาดเพิ่มขึ้นอย่างมีนัยสำคัญถึง 20.26% ในปี 2566
- ขนาดตลาดการจดจำภาพ AI ทั่วโลกมีมูลค่า 3,330.67 ล้านเหรียญสหรัฐในปี 2565 และคาดว่าจะขยายที่ CAGR ที่ 24.91% เป็น 1,2652.88 ล้านเหรียญสหรัฐในปี 2571
- ตลาดการจดจำรูปภาพในเอเชียมีขนาดค่อนข้างเล็ก โดยมีมูลค่า 2.57 พันล้านดอลลาร์ในปี 2566
- ขนาดตลาดการจดจำรูปภาพของยุโรปกลางและตะวันตกมีขนาดเล็กลงที่ 1.88 พันล้านดอลลาร์ในปี 2566
- CAGR ที่คาดหวังของตลาดการจดจำรูปภาพของสหรัฐอเมริกาในช่วงปี 2023 ถึง 2030 คือ 7.86%
สถิติเทคโนโลยีการจดจำภาพ
การเรียนรู้เชิงลึก มีบทบาทสำคัญในเทคโนโลยีการจดจำภาพ โมเดลการเรียนรู้เชิงลึกยอดนิยม เช่น You Only Look Once (YOLO) และ Single-Shot Detector (SSD) ใช้เลเยอร์ Convolution เพื่อแยกวิเคราะห์ภาพดิจิทัลหรือภาพถ่าย เทคนิคและแบบจำลองการเรียนรู้เชิงลึกจะมีการปรับปรุงอย่างต่อเนื่องในปี 2566 ซึ่งจะทำให้การจดจำรูปภาพง่ายขึ้นและแม่นยำยิ่งขึ้น
นอกจากนี้ อัลกอริธึม เช่น การแปลงคุณสมบัติที่ไม่แปรเปลี่ยนตามมาตราส่วน (SIFT), คุณลักษณะที่ทนทานด้วยความเร็ว (SURF) และโมเดลการจดจำรูปภาพการวิเคราะห์ส่วนประกอบหลัก (PCA) อ่าน ประมวลผล และส่งมอบ
ระบบนิเวศทางเทคโนโลยีที่อยู่รอบ ๆ การจดจำภาพกำลังเปลี่ยนแปลงอย่างรวดเร็ว สถิติ Tese จะอัปเดตให้คุณทราบถึงสิ่งล่าสุดในด้านเทคโนโลยี
- ห้องปฏิบัติการวิทยาการคอมพิวเตอร์และปัญญาประดิษฐ์ (CSAIL) ของ MIT ได้พัฒนา Masked Generative Encoder (MAGE) เพื่อสรุปส่วนที่หายไปของภาพ มีความแม่นยำ 80.9% ในการตรวจวัดเชิงเส้น และระบุภาพได้อย่างถูกต้องในกรณี 71.9% เมื่อได้รับตัวอย่างที่มีป้ายกำกับสิบตัวอย่างจากแต่ละคลาส
- Object365 ซึ่งเป็นชุดข้อมูลการตรวจจับวัตถุขนาดใหญ่ ได้รับการฝึกอบรมเกี่ยวกับรูปภาพมากกว่า 600,000 ภาพ
1,000 ภาพ
ของแต่ละคลาสจำเป็นในการฝึกระบบให้ตรวจจับและจดจำภาพและวัตถุ
ที่มา: ไอบีเอ็ม
- 1 ถึง 2 เมกะพิกเซลเหมาะอย่างยิ่งเมื่อรูปภาพไม่ต้องการรายละเอียดเล็กๆ น้อยๆ ในการตรวจจับวัตถุ หากรูปภาพต้องการรายละเอียดเล็กๆ น้อยๆ รูปภาพเหล่านั้นจะถูกแบ่งออกเป็นรูปภาพขนาด 1-2 เมกะพิกเซลต่อภาพ
- ระบบจดจำภาพขนาดใหญ่และทรงพลังสามารถรองรับ 1,000 เฟรมต่อวินาที (FPS) ในทางกลับกัน ระบบจดจำรูปภาพทั่วไปจะประมวลผลที่ 100 FPS
- ชุดข้อมูลที่ใหญ่ที่สุดที่เปิดเผยต่อสาธารณะสำหรับการฝึกอบรมโมเดลการจดจำรูปภาพคือ IMDB-Wiki ซึ่งมีรูปภาพใบหน้ามนุษย์มากกว่า 500,000 ภาพ
- Berkeley Deep Drive (BDD110K) เป็นชุดข้อมูลวิดีโอการขับขี่ที่หลากหลายที่ใหญ่ที่สุด มีวิดีโอมากกว่า 100,000 รายการที่มีคำอธิบายประกอบสำหรับงานการรับรู้ในการขับขี่แบบอัตโนมัติ
- การจดจำรูปภาพประกอบด้วยสามชั้น ได้แก่ อินพุต ซ่อน และเอาต์พุต เลเยอร์อินพุตจะจับสัญญาณ เลเยอร์ที่ซ่อนอยู่จะประมวลผลสัญญาณนั้น และเลเยอร์เอาท์พุตจะตัดสินใจว่ามันคืออะไร
- ภาพสีมีความลึกบิตตั้งแต่ 8 ถึง 24 หรือสูงกว่า ในภาพ 24 บิต มีสามกลุ่ม: 8 สำหรับสีแดง 8 สำหรับสีเขียว และ 8 สำหรับสีน้ำเงิน การรวมกันของบิตเหล่านี้แสดงถึงสีอื่น
- สถิติลำดับที่หนึ่ง 4 รายการ (ค่าเฉลี่ย ความแปรปรวน ความเบ้ และความโด่ง) และสถิติอันดับสอง 5 รายการ (โมเมนต์วินาทีเชิงมุม คอนทราสต์ ความสัมพันธ์ ความสม่ำเสมอ และเอนโทรปี) แสดงถึงลักษณะข้อความของรูปภาพ
สถิติความแม่นยำของระบบจดจำภาพ
ด้วยโครงข่ายประสาทเทียมแบบหมุนวน (CNN) ระดับความแม่นยำของการจดจำภาพจึงเพิ่มขึ้น อย่างไรก็ตาม ความท้าทาย เช่น การเสียรูป การแปรผันของวัตถุในระดับเดียวกัน และการบดบังอาจส่งผลต่อความแม่นยำของระบบ (การบดบังเกิดขึ้นเมื่อวัตถุซ่อนส่วนหนึ่งของวัตถุอื่นในภาพ)
แม้จะมีความล้มเหลวที่อาจเกิดขึ้นเหล่านี้ แต่ระบบการจดจำภาพก็แสดงความมั่นใจในระดับสูงอย่างเหลือเชื่อ สำรวจสถิติเหล่านี้เพื่อทำความเข้าใจความแม่นยำที่คุณคาดหวังได้จากซอฟต์แวร์จดจำรูปภาพ และโอกาสที่จะเกิดข้อผิดพลาดได้มากเพียงใด
- อัตราข้อผิดพลาดโดยเฉลี่ยในชุดข้อมูลทั้งหมดในการจดจำรูปภาพคือ 3.4%
- อัตราข้อผิดพลาด 5 อันดับแรกในการจดจำรูปภาพหมายถึงเปอร์เซ็นต์ของครั้งที่ป้ายกำกับเป้าหมายไม่ปรากฏในการคาดการณ์ความน่าจะเป็นสูงสุดทั้งห้ารายการ เทคนิคหลายอย่างไม่สามารถต่ำกว่า 25% ได้
6%
คืออัตราข้อผิดพลาดโดยเฉลี่ยสำหรับชุดข้อมูล ImageNet ซึ่งใช้กันอย่างแพร่หลายในระบบจดจำรูปภาพที่พัฒนาโดย Google และ Facebook
ที่มา: มทส
- ระดับความแม่นยำโดยประมาณของเครื่องมือจดจำภาพคือ 95% นี่เป็นเพราะการพัฒนาของ CNN และโครงข่ายประสาทเชิงลึกที่ใช้ฟีเจอร์อื่นๆ
- YOLOv7 เป็นโมเดลการตรวจจับวัตถุแบบเรียลไทม์ที่แม่นยำและมีประสิทธิภาพมากที่สุดสำหรับงานคอมพิวเตอร์วิทัศน์
แหล่งที่มา:
- สตาติสต้า
- ยาฮู
- ไอบีเอ็ม
- AllaboutCircuits
- วิโซ
- อัลเท็กซ์ซอฟท์
- V7labs
- แฮกเกอร์นุ่น
จากพิกเซลสู่รูปแบบ
สถิติข้างต้นแสดงให้เห็นอย่างชัดเจนว่าตลาดการจดจำรูปภาพอยู่ในช่วงการเติบโตตั้งแต่ปี 2566 ถึง 2573 เทคโนโลยีกำลังพัฒนาและเพิ่มความแม่นยำด้วยการอัปเดตและความก้าวหน้าใหม่ๆ แต่การเติบโตไม่ได้จำกัดเฉพาะการจดจำภาพเท่านั้น คอมพิวเตอร์วิทัศน์ครอบคลุมทั้งขนาดตลาดและการนำไปใช้ เมื่อมูลค่าตลาดเติบโตขึ้น ธุรกิจที่เข้ามาในภาคส่วนการจดจำรูปภาพจะได้รับประโยชน์
เรียนรู้เพิ่มเติมเกี่ยวกับ คอมพิวเตอร์วิทัศน์ และทำความเข้าใจว่าเครื่องจักรตีความโลกแห่งภาพอย่างไร