25 สถิติการจดจำรูปภาพเพื่อเปิดเผยพิกเซลเบื้องหลังเทคโนโลยี

เผยแพร่แล้ว: 2023-10-09

คอมพิวเตอร์ยุคใหม่กำลังเรียนรู้ที่จะเห็นสิ่งต่าง ๆ เช่นเดียวกับวิธีที่มนุษย์ทำ และเทคโนโลยีการจดจำภาพกำลังทำให้เป็นไปได้

โครงข่ายประสาทเทียมเป็นหัวใจสำคัญของเทคโนโลยีนี้ เรียนรู้จากข้อมูลและจดจำรูปแบบ เมื่อคุณป้อนข้อมูลเพิ่มเติมเกี่ยวกับวัตถุ ใบหน้า และแม้แต่อารมณ์ การ "มองเห็น" และทำความเข้าใจภาพก็จะดีขึ้น

การจดจำรูปภาพเป็นส่วนหนึ่งของคอมพิวเตอร์วิทัศน์และปัญญาประดิษฐ์ (AI) ประกอบด้วยเทคนิคและอัลกอริธึมที่ติดป้ายกำกับและจัดหมวดหมู่เนื้อหาของรูปภาพ

โดยพื้นฐานแล้ว เทคโนโลยีเพิ่งเริ่มมีการพัฒนา แต่หลายองค์กรได้เริ่มใช้ ซอฟต์แวร์การจดจำรูปภาพ เพื่อฝึกโมเดลและเพิ่มความสามารถในการจดจำรูปภาพในแพลตฟอร์มซอฟต์แวร์อื่น ๆ ในปัจจุบัน การจดจำภาพช่วยในการวินิจฉัยทางการแพทย์ การค้นหาคนสูญหาย และแม้กระทั่งทำให้รถยนต์ที่ขับเคลื่อนด้วยตนเองกลายเป็นความจริง

ศักยภาพของตลาดมีมากมายและมีการขยายตัวอย่างต่อเนื่องเพื่อเจาะเข้าสู่อุตสาหกรรมใหม่ มาสำรวจสถิติเหล่านี้และดูว่ามีอะไรใหม่ในการจดจำรูปภาพ

สถิติตลาดการจดจำรูปภาพ

ตลาด การจดจำรูปภาพ กำลังเติบโตอย่างรวดเร็วและกำลังได้รับความนิยมในภาคการค้าปลีก การดูแลสุขภาพ และการรักษาความปลอดภัย ปัญญาประดิษฐ์ และ การเรียนรู้ของเครื่อง เป็นตัวขับเคลื่อนหลักของการเติบโตของตลาด จากสถิติด้านล่าง โอกาสใดๆ ในตลาดการจดจำรูปภาพอาจมีแนวโน้มที่ดีระหว่างปี 2023 ถึง 2030

ดูว่าสถิติเป็นอย่างไร

ตลาดการจดจำรูปภาพทั่วโลกคาดว่าจะแสดงอัตราการเติบโตต่อปี (CAGR) ที่ 10.42% ในช่วงปี 2566 ถึง 2573
ขนาดของตลาดการจดจำรูปภาพในสหรัฐฯ คาดว่าจะใหญ่ที่สุด โดยมีมูลค่า 3.94 พันล้านดอลลาร์ในปี 2566

10.53 พันล้านดอลลาร์

คือมูลค่าคาดการณ์ของตลาดการจดจำรูปภาพในปี 2566

ที่มา: Statista

ขนาดตลาดการจดจำรูปภาพในอเมริกาเหนือเพิ่มขึ้น 11.86% ในปี 2566
ตลาดการจดจำรูปภาพของออสเตรเลียคาดว่าจะสูงถึง 280 ล้านดอลลาร์ในปี 2566
อเมริกาใต้มีขนาดตลาดเพิ่มขึ้นอย่างมีนัยสำคัญถึง 20.26% ในปี 2566
ขนาดตลาดการจดจำภาพ AI ทั่วโลกมีมูลค่า 3,330.67 ล้านเหรียญสหรัฐในปี 2565 และคาดว่าจะขยายที่ CAGR ที่ 24.91% เป็น 1,2652.88 ล้านเหรียญสหรัฐในปี 2571
ตลาดการจดจำรูปภาพในเอเชียมีขนาดค่อนข้างเล็ก โดยมีมูลค่า 2.57 พันล้านดอลลาร์ในปี 2566
ขนาดตลาดการจดจำรูปภาพของยุโรปกลางและตะวันตกมีขนาดเล็กลงที่ 1.88 พันล้านดอลลาร์ในปี 2566
CAGR ที่คาดหวังของตลาดการจดจำรูปภาพของสหรัฐอเมริกาในช่วงปี 2023 ถึง 2030 คือ 7.86%

สถิติเทคโนโลยีการจดจำภาพ

การเรียนรู้เชิงลึก มีบทบาทสำคัญในเทคโนโลยีการจดจำภาพ โมเดลการเรียนรู้เชิงลึกยอดนิยม เช่น You Only Look Once (YOLO) และ Single-Shot Detector (SSD) ใช้เลเยอร์ Convolution เพื่อแยกวิเคราะห์ภาพดิจิทัลหรือภาพถ่าย เทคนิคและแบบจำลองการเรียนรู้เชิงลึกจะมีการปรับปรุงอย่างต่อเนื่องในปี 2566 ซึ่งจะทำให้การจดจำรูปภาพง่ายขึ้นและแม่นยำยิ่งขึ้น

นอกจากนี้ อัลกอริธึม เช่น การแปลงคุณสมบัติที่ไม่แปรเปลี่ยนตามมาตราส่วน (SIFT), คุณลักษณะที่ทนทานด้วยความเร็ว (SURF) และโมเดลการจดจำรูปภาพการวิเคราะห์ส่วนประกอบหลัก (PCA) อ่าน ประมวลผล และส่งมอบ

ระบบนิเวศทางเทคโนโลยีที่อยู่รอบ ๆ การจดจำภาพกำลังเปลี่ยนแปลงอย่างรวดเร็ว สถิติ Tese จะอัปเดตให้คุณทราบถึงสิ่งล่าสุดในด้านเทคโนโลยี

ห้องปฏิบัติการวิทยาการคอมพิวเตอร์และปัญญาประดิษฐ์ (CSAIL) ของ MIT ได้พัฒนา Masked Generative Encoder (MAGE) เพื่อสรุปส่วนที่หายไปของภาพ มีความแม่นยำ 80.9% ในการตรวจวัดเชิงเส้น และระบุภาพได้อย่างถูกต้องในกรณี 71.9% เมื่อได้รับตัวอย่างที่มีป้ายกำกับสิบตัวอย่างจากแต่ละคลาส
Object365 ซึ่งเป็นชุดข้อมูลการตรวจจับวัตถุขนาดใหญ่ ได้รับการฝึกอบรมเกี่ยวกับรูปภาพมากกว่า 600,000 ภาพ

1,000 ภาพ

ของแต่ละคลาสจำเป็นในการฝึกระบบให้ตรวจจับและจดจำภาพและวัตถุ

ที่มา: ไอบีเอ็ม

1 ถึง 2 เมกะพิกเซลเหมาะอย่างยิ่งเมื่อรูปภาพไม่ต้องการรายละเอียดเล็กๆ น้อยๆ ในการตรวจจับวัตถุ หากรูปภาพต้องการรายละเอียดเล็กๆ น้อยๆ รูปภาพเหล่านั้นจะถูกแบ่งออกเป็นรูปภาพขนาด 1-2 เมกะพิกเซลต่อภาพ
ระบบจดจำภาพขนาดใหญ่และทรงพลังสามารถรองรับ 1,000 เฟรมต่อวินาที (FPS) ในทางกลับกัน ระบบจดจำรูปภาพทั่วไปจะประมวลผลที่ 100 FPS
ชุดข้อมูลที่ใหญ่ที่สุดที่เปิดเผยต่อสาธารณะสำหรับการฝึกอบรมโมเดลการจดจำรูปภาพคือ IMDB-Wiki ซึ่งมีรูปภาพใบหน้ามนุษย์มากกว่า 500,000 ภาพ
Berkeley Deep Drive (BDD110K) เป็นชุดข้อมูลวิดีโอการขับขี่ที่หลากหลายที่ใหญ่ที่สุด มีวิดีโอมากกว่า 100,000 รายการที่มีคำอธิบายประกอบสำหรับงานการรับรู้ในการขับขี่แบบอัตโนมัติ
การจดจำรูปภาพประกอบด้วยสามชั้น ได้แก่ อินพุต ซ่อน และเอาต์พุต เลเยอร์อินพุตจะจับสัญญาณ เลเยอร์ที่ซ่อนอยู่จะประมวลผลสัญญาณนั้น และเลเยอร์เอาท์พุตจะตัดสินใจว่ามันคืออะไร
ภาพสีมีความลึกบิตตั้งแต่ 8 ถึง 24 หรือสูงกว่า ในภาพ 24 บิต มีสามกลุ่ม: 8 สำหรับสีแดง 8 สำหรับสีเขียว และ 8 สำหรับสีน้ำเงิน การรวมกันของบิตเหล่านี้แสดงถึงสีอื่น
สถิติลำดับที่หนึ่ง 4 รายการ (ค่าเฉลี่ย ความแปรปรวน ความเบ้ และความโด่ง) และสถิติอันดับสอง 5 รายการ (โมเมนต์วินาทีเชิงมุม คอนทราสต์ ความสัมพันธ์ ความสม่ำเสมอ และเอนโทรปี) แสดงถึงลักษณะข้อความของรูปภาพ

สถิติความแม่นยำของระบบจดจำภาพ

ด้วยโครงข่ายประสาทเทียมแบบหมุนวน (CNN) ระดับความแม่นยำของการจดจำภาพจึงเพิ่มขึ้น อย่างไรก็ตาม ความท้าทาย เช่น การเสียรูป การแปรผันของวัตถุในระดับเดียวกัน และการบดบังอาจส่งผลต่อความแม่นยำของระบบ (การบดบังเกิดขึ้นเมื่อวัตถุซ่อนส่วนหนึ่งของวัตถุอื่นในภาพ)

แม้จะมีความล้มเหลวที่อาจเกิดขึ้นเหล่านี้ แต่ระบบการจดจำภาพก็แสดงความมั่นใจในระดับสูงอย่างเหลือเชื่อ สำรวจสถิติเหล่านี้เพื่อทำความเข้าใจความแม่นยำที่คุณคาดหวังได้จากซอฟต์แวร์จดจำรูปภาพ และโอกาสที่จะเกิดข้อผิดพลาดได้มากเพียงใด

อัตราข้อผิดพลาดโดยเฉลี่ยในชุดข้อมูลทั้งหมดในการจดจำรูปภาพคือ 3.4%
อัตราข้อผิดพลาด 5 อันดับแรกในการจดจำรูปภาพหมายถึงเปอร์เซ็นต์ของครั้งที่ป้ายกำกับเป้าหมายไม่ปรากฏในการคาดการณ์ความน่าจะเป็นสูงสุดทั้งห้ารายการ เทคนิคหลายอย่างไม่สามารถต่ำกว่า 25% ได้

6%

คืออัตราข้อผิดพลาดโดยเฉลี่ยสำหรับชุดข้อมูล ImageNet ซึ่งใช้กันอย่างแพร่หลายในระบบจดจำรูปภาพที่พัฒนาโดย Google และ Facebook

ที่มา: มทส

ระดับความแม่นยำโดยประมาณของเครื่องมือจดจำภาพคือ 95% นี่เป็นเพราะการพัฒนาของ CNN และโครงข่ายประสาทเชิงลึกที่ใช้ฟีเจอร์อื่นๆ
YOLOv7 เป็นโมเดลการตรวจจับวัตถุแบบเรียลไทม์ที่แม่นยำและมีประสิทธิภาพมากที่สุดสำหรับงานคอมพิวเตอร์วิทัศน์

แหล่งที่มา:

สตาติสต้า
ยาฮู
ไอบีเอ็ม
AllaboutCircuits
วิโซ
อัลเท็กซ์ซอฟท์
V7labs
แฮกเกอร์นุ่น

จากพิกเซลสู่รูปแบบ

สถิติข้างต้นแสดงให้เห็นอย่างชัดเจนว่าตลาดการจดจำรูปภาพอยู่ในช่วงการเติบโตตั้งแต่ปี 2566 ถึง 2573 เทคโนโลยีกำลังพัฒนาและเพิ่มความแม่นยำด้วยการอัปเดตและความก้าวหน้าใหม่ๆ แต่การเติบโตไม่ได้จำกัดเฉพาะการจดจำภาพเท่านั้น คอมพิวเตอร์วิทัศน์ครอบคลุมทั้งขนาดตลาดและการนำไปใช้ เมื่อมูลค่าตลาดเติบโตขึ้น ธุรกิจที่เข้ามาในภาคส่วนการจดจำรูปภาพจะได้รับประโยชน์

เรียนรู้เพิ่มเติมเกี่ยวกับ คอมพิวเตอร์วิทัศน์ และทำความเข้าใจว่าเครื่องจักรตีความโลกแห่งภาพอย่างไร