iOS Swift 拍照识别数字(Recognizing Text in Images)

news/2024/7/20 22:33:29 标签: ios

可以用腾讯云

OCR的iOS demo - 腾讯云

苹果官方的解决方案(识别度太低)

Recognizing Text in Images - apple developer
Extracting phone numbers from text in images(Sample Code) - apple developer

import UIKit
import Vision

class ViewController: UIViewController, UIImagePickerControllerDelegate, UINavigationControllerDelegate {
    
    @IBOutlet weak var resLabel: UILabel!
    
    
    @IBAction func recognizeAssetsImage(_ sender: Any) {
        recognizeText(in: #imageLiteral(resourceName: "image_sample"))
    }
    
    // 按钮点击,打开相册
    @IBAction func selectImage(_ sender: UIButton) {
        let imagePickerController = UIImagePickerController()
        imagePickerController.delegate = self
        present(imagePickerController, animated: true, completion: nil)
    }
    
    // 选择图片完成后的回调
    func imagePickerController(_ picker: UIImagePickerController, didFinishPickingMediaWithInfo info: [UIImagePickerController.InfoKey: Any]) {
        picker.dismiss(animated: true, completion: nil)
        
        // 获取选择的图片
        guard let selectedImage = info[UIImagePickerController.InfoKey.originalImage] as? UIImage else {
            return
        }
        
        let resImage = binarize(image: selectedImage)!
        // 识别图片中的文本
        recognizeText(in: resImage)
    }
    
    func binarize(image: UIImage, threshold: CGFloat = 0.5) -> UIImage? {
        guard let cgImage = image.cgImage else { return nil }
        let width = cgImage.width
        let height = cgImage.height
        let colorSpace = CGColorSpaceCreateDeviceGray()
        var pixels = [UInt8](repeating: 0, count: width * height)
        
        guard let context = CGContext(data: &pixels, width: width, height: height, bitsPerComponent: 8, bytesPerRow: width, space: colorSpace, bitmapInfo: CGImageAlphaInfo.none.rawValue) else { return nil }
        context.draw(cgImage, in: CGRect(x: 0, y: 0, width: width, height: height))
        
        for i in 0 ..< pixels.count {
            pixels[i] = pixels[i] < UInt8(threshold * 255) ? 0 : 255
        }
        
        guard let binarizedCgImage = context.makeImage() else { return nil }
        return UIImage(cgImage: binarizedCgImage)
    }

    
    func recognizeText(in image: UIImage) {
        // 将 UIImage 转换为 CGImage
        guard let cgImage = image.cgImage else { return }
        
        // 创建处理请求的处理器
        let handler = VNImageRequestHandler(cgImage: cgImage, options: [:])
        
        // 创建 VNRecognizeTextRequest
        let request = VNRecognizeTextRequest { (request, error) in
            if let error = error {
                print("Text recognition error: \(error)")
                return
            }
            
            // 处理识别结果
            guard let observations = request.results as? [VNRecognizedTextObservation] else { return }
            for observation in observations {
                // 获取识别到的文本
                guard let topCandidate = observation.topCandidates(1).first else { continue }
                print("Recognized text: \(topCandidate.string)")
                self.resLabel.text = topCandidate.string
            }
        }
        
        // 设置识别级别
        request.recognitionLevel = .accurate
        
        // 执行请求
        do {
            try handler.perform([request])
        } catch {
            print("Failed to perform text recognition: \(error)")
        }
    }
}



前期尝试过的解决方案(没有试成功过)
TesseractOCRiOS - github(最后一次提交2020.2)
SwiftyTesseract - github(最后一次提交2022.4)


http://www.niftyadmin.cn/n/5053062.html

相关文章

opencv实现目标跟踪及视频转存

创建跟踪器 def createTypeTracker(trackerType): 读取视频第一帧&#xff0c;选择跟踪的目标 读第一帧。 ok, frame video.read() 选择边界框 bbox cv2.selectROI(frame, False) 初始化跟踪器 tracker_type ‘MIL’ tracker createTypeTracker(tracker_type) 用第一…

软件测试面试复盘

作者&#xff1a;爱塔居 专栏&#xff1a;测试 1、计算机网络七层协议&#xff1a;物理层、数据链路层、网络层、传输层、表示层、会话层、应用层&#xff08;面试问过这个&#xff09; 2.TCP/IP四层模型&#xff1a;应用层、传输层、网络层、网络接口层&#xff08;笔试问过&…

使用python将网页下载为pdf

背景&#xff1a;即使用 python 实现网页的打印&#xff0c;将网页下载为pdf 要求 安装ChromeDriver&#xff0c;并配置环境遍历&#xff0c;版本需要与chrome版本一致 下载地址:ChromeDriver - WebDriver for Chrome - Downloads (google.com)https://sites.google.com/chr…

【牛客网】倒置字符串

思路 首先将整个字符串逆序,再分别将每个单词逆序 代码 import java.util.Scanner;// 注意类名必须为 Main, 不要有任何 package xxx 信息 public class Main {public static void reverse(int begin, int end, char[] array){while(begin < end){char temp array[begin…

【FPGA项目】图像采集及显示(2)详细设计方案

目录 前言 一、视频流采集设计 二、DDR3缓存控制 三、FIFO 设计 四、VGA显示器驱动设计

Python3操作SQLite3创建表主键自增长|CRUD基本操作

Python3操作MySQL8.XX创建表|CRUD基本操作 Python3操作SQLite3创建表主键自增长|CRUD基本操作 一: SQLite3创建表时主键自增长 1: sqlite支持建立自增主键 create table t_user (id integer primary key autoincrement,age int(2), name varchar(10),address varchar(100) )…

layuiselect设置为不可下拉选取

$("#exam").siblings(".layui-form-select").find("dl").remove(); 或 layuiSelectDisable($("#exam")); // 设置selet元素不可下拉选择function layuiSelectDisable(selectElem) {try {var dlElem selectElem.siblings(".layu…

windows安装npm教程及生成DEMO

在使用之前&#xff0c;先类掌握3个东西&#xff0c;明白它们是用来干什么的&#xff1a; npm: nodejs 下的包管理器。 webpack: 它主要用途是通过CommonJS 的语法把所有浏览器端需要发布的静态资源作相应的准备&#xff0c;比如资源的合并和打包。 vue-cli: 用户生成Vue工…