![Android 10 యొక్క లైవ్ క్యాప్షన్ వాస్తవానికి ఎలా పనిచేస్తుందో ఇక్కడ ఉంది - వార్తలు Android 10 యొక్క లైవ్ క్యాప్షన్ వాస్తవానికి ఎలా పనిచేస్తుందో ఇక్కడ ఉంది - వార్తలు](https://a.23rdpta.org/news/heres-how-android-10s-live-caption-actually-works.jpg)
విషయము
స్థానిక వీడియోలు మరియు వెబ్ క్లిప్ల కోసం శీర్షికలను రూపొందించడానికి ఆన్-డివైస్ మెషీన్ లెర్నింగ్ను ఉపయోగించి లైవ్ క్యాప్షన్ ఇంకా చక్కని Android లక్షణాలలో ఒకటి.
గూగుల్ ఈ నిఫ్టీ ఫీచర్ ఎలా పనిచేస్తుందో వివరించే బ్లాగ్ పోస్ట్ను ప్రచురించింది మరియు ఇది స్టార్టర్స్ కోసం వాస్తవానికి మూడు ఆన్-డివైస్ మెషిన్ లెర్నింగ్ మోడళ్లను కలిగి ఉంటుంది.
ప్రసంగ గుర్తింపు కోసం పునరావృత న్యూరల్ నెట్వర్క్ సీక్వెన్స్ ట్రాన్స్డక్షన్ (RNN-T) మోడల్ ఉంది, అయితే గూగుల్ కూడా విరామచిహ్నాలను అంచనా వేయడానికి పునరావృత న్యూరల్ నెట్వర్క్ను ఉపయోగిస్తోంది.
మూడవ ఆన్-డివైస్ మెషిన్ లెర్నింగ్ మోడల్ పక్షుల చిలిపి, ప్రజలు చప్పట్లు కొట్టడం మరియు సంగీతం వంటి ధ్వని సంఘటనల కోసం కన్విలేషనల్ న్యూరల్ నెట్వర్క్ (సిఎన్ఎన్). ఈ మూడవ మెషీన్ లెర్నింగ్ మోడల్ లైవ్ ట్రాన్స్క్రిప్ట్ యాక్సెసిబిలిటీ యాప్లోని పని నుండి ఉద్భవించిందని, ఇది ప్రసంగం మరియు ధ్వని సంఘటనలను లిప్యంతరీకరించగలదని గూగుల్ తెలిపింది.
ప్రత్యక్ష శీర్షిక ప్రభావాన్ని తగ్గించడం
లైవ్ క్యాప్షన్ యొక్క బ్యాటరీ వినియోగం మరియు పనితీరు డిమాండ్లను తగ్గించడానికి అనేక చర్యలు తీసుకున్నట్లు కంపెనీ తెలిపింది.ఒకదానికి, పూర్తి ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ (ASR) ఇంజిన్ వాస్తవానికి ప్రసంగం గుర్తించినప్పుడు మాత్రమే నడుస్తుంది, ఇది నేపథ్యంలో నిరంతరం నడుస్తుంది.
“ఉదాహరణకు, సంగీతం కనుగొనబడినప్పుడు మరియు ఆడియో స్ట్రీమ్లో ప్రసంగం లేనప్పుడు, లేబుల్ తెరపై కనిపిస్తుంది మరియు ASR మోడల్ అన్లోడ్ చేయబడుతుంది. ప్రసంగం మళ్లీ ఆడియో స్ట్రీమ్లో ఉన్నప్పుడు మాత్రమే ASR మోడల్ తిరిగి మెమరీలోకి లోడ్ అవుతుంది ”అని గూగుల్ తన బ్లాగ్ పోస్ట్లో వివరించింది.
గూగుల్ న్యూరల్ కనెక్షన్ కత్తిరింపు (స్పీచ్ మోడల్ పరిమాణాన్ని తగ్గించడం), విద్యుత్ వినియోగాన్ని 50% తగ్గించడం మరియు లైవ్ క్యాప్షన్ నిరంతరం అమలు చేయడానికి అనుమతించడం వంటి పద్ధతులను కూడా ఉపయోగించింది.
శీర్షిక ఏర్పడినందున ప్రతి సెకనుకు కొన్ని సార్లు ప్రసంగ గుర్తింపు ఫలితాలు నవీకరించబడతాయని గూగుల్ వివరిస్తుంది, అయితే విరామచిహ్న అంచనా భిన్నంగా ఉంటుంది. వనరుల డిమాండ్లను తగ్గించడానికి "ఇటీవల గుర్తించబడిన వాక్యం నుండి టెక్స్ట్ యొక్క తోకపై" విరామచిహ్న అంచనాను అందిస్తుందని శోధన దిగ్గజం తెలిపింది.
లైవ్ క్యాప్షన్ ఇప్పుడు గూగుల్ పిక్సెల్ 4 సిరీస్లో అందుబాటులో ఉంది మరియు పిక్సెల్ 3 సిరీస్ మరియు ఇతర పరికరాల్లో ఇది “త్వరలో” లభిస్తుందని గూగుల్ తెలిపింది. ఇది ఇతర భాషలకు మద్దతు మరియు బహుళ-స్పీకర్ కంటెంట్కు మంచి మద్దతు కోసం కూడా పనిచేస్తుందని కంపెనీ తెలిపింది.