tévék. Konzolok. Projektorok és tartozékok. Technológiák. Digitális TV

Beszédfelismerő szolgáltatások. Így az Android képes felismerni a beszédet internet nélkül! Feliratok generálása filmekhez

„Rögtön elmondanám, hogy most először foglalkozom elismerési szolgáltatásokkal. Ezért a szolgáltatásokról laikus szemszögből fogok mesélni – jegyezte meg szakértőnk –, hogy a felismerés teszteléséhez három utasítást használtam: a Google, a Yandex és az Azure.

Google

A jól ismert informatikai vállalat felajánlja Google Cloud Platform termékének online tesztelését. A szolgáltatást bárki ingyenesen kipróbálhatja. Maga a termék kényelmes és könnyen használható.

Előnyök:

  • több mint 80 nyelv támogatása;
  • gyors névfeldolgozás;
  • körülmények között magas színvonalú elismerés rossz kapcsolatés idegen hangok jelenlétében.

Hátrányok:

  • nehézségekbe ütközik a hangsúlyos és rossz kiejtésű üzenetek felismerése, ami megnehezíti a rendszer használatát az anyanyelvi beszélőkön kívül;
  • az érthetőség hiánya technikai támogatás szolgáltatás.

Yandex

A Yandex beszédfelismerése több lehetőséggel is elérhető:

  • Felhő
  • Könyvtár a mobilalkalmazásokból való eléréshez
  • "Dobozos" változat
  • JavaScript API

De legyünk tárgyilagosak. Elsősorban nem a felhasználási lehetőségek sokféleségére vagyunk kíváncsiak, hanem a beszédfelismerés minőségére. Ezért kihasználtuk próbaverzió SpeechKit.

Előnyök:

  • könnyű használat és konfiguráció;
  • jó szövegfelismerés oroszul;
  • a rendszer többféle válaszlehetőséget biztosít és azon keresztül neurális hálózatok megpróbálja megtalálni azt a lehetőséget, amely a legközelebb áll az igazsághoz.

Hátrányok:

  • Az adatfolyam-feldolgozás során előfordulhat, hogy egyes szavak hibásan határozhatók meg.

Égszínkék

Azure rendszert fejlesztettek ki a Microsoft által. Árának köszönhetően kiemelkedik analógjai közül. De készülj fel bizonyos nehézségekkel szembenézni. A hivatalos weboldalon található utasítások hiányosak vagy elavultak. Nem tudtuk megfelelően elindítani a szolgáltatást, ezért harmadik féltől származó indítási ablakot kellett használnunk. Azonban még itt is szüksége lesz egy Azure-szolgáltatási kulcsra a teszteléshez.

Előnyök:

  • Más szolgáltatásokkal összehasonlítva az Azure nagyon gyorsan, valós időben dolgozza fel az üzeneteket.

Hátrányok:

  • a rendszer nagyon érzékeny az akcentusra, és nehezen ismeri fel a nem anyanyelvi beszélők beszédét;
  • A rendszer csak angol nyelven működik.

Eredmények áttekintése:

Miután mérlegeltük az összes előnyt és hátrányt, a Yandex mellett döntöttünk. A SpeechKit drágább, mint az Azure, de olcsóbb, mint Google Cloud Platform. A Google programja folyamatosan javult a felismerés minőségében és pontosságában. A szolgáltatás a technológia révén önmagát fejleszti gépi tanulás. Az orosz szavak és kifejezések Yandex általi felismerése azonban egy szinttel magasabb.

Hogyan használjuk a hangfelismerést az üzleti életben?

Az elismerés használatára nagyon sok lehetőség kínálkozik, de mi arra összpontosítunk, amelyik elsősorban cége eladásait érinti. Az érthetőség kedvéért nézzük meg a felismerési folyamatot egy valós példa segítségével.

Nem is olyan régen egy ismert SaaS szolgáltatás lett az ügyfelünk (a cég kérésére a szolgáltatás nevét nem hozták nyilvánosságra). Az F1Golos segítségével két audiovideót rögzítettek, amelyek közül az egyik a meleg ügyfelek élettartamának meghosszabbítását, a másik az ügyfelek kérésének feldolgozását célozta.

Hogyan lehet meghosszabbítani az ügyfelek életét hangfelismeréssel?

A SaaS-szolgáltatások gyakran havi rendszerességgel működnek. előfizetési díj. Előbb-utóbb a próbahasználat vagy a fizetős forgalom időszaka véget ér. Ekkor szükség van a szolgáltatás kiterjesztésére. A cég úgy döntött, hogy 2 nappal a használati idő lejárta előtt figyelmezteti a felhasználókat a forgalom megszűnéséről. A felhasználókat hangpostán értesítették. A videó így hangzott: „Jó napot, emlékeztetünk arra, hogy a XXX szolgáltatás használatára vonatkozó fizetett időszak lejár. A szolgáltatás kiterjesztéséhez mondjon igent a nyújtott szolgáltatások lemondásához, mondjon nemet.

Hívások azoktól a felhasználóktól, akik a következő kódszavakat mondták: IGEN, MEGÚJÍTÁS, AKAROK, TOVÁBBI RÉSZLETEK; automatikusan átkerültek a cég üzemeltetőihez. Így a felhasználók körülbelül 18%-a egyetlen hívásnak köszönhetően megújította regisztrációját.

Hogyan lehet egyszerűsíteni egy adatfeldolgozó rendszert beszédfelismeréssel?

A második hangklip, amelyet ugyanaz a cég indított el, más jellegű volt. Hangüzenetekkel csökkentették a telefonszámok ellenőrzésének költségeit. Korábban robothívással ellenőrizték a felhasználói számokat. A robot arra kérte a felhasználókat, hogy nyomjanak meg bizonyos billentyűket a telefonban. A felismerési technológiák megjelenésével azonban a vállalat taktikát váltott. Az új videó szövege a következő volt: „Regisztráltál a XXX portálon, ha megerősíted a regisztrációdat, mondj igent. Ha nem nyújtott be regisztrációs kérelmet, mondjon nemet." Ha az ügyfél kimondta a következő szavakat: IGEN, MEGERŐSÍTEM, AHA vagy TERMÉSZETESEN, az erről szóló adatok azonnal átkerültek a cég CRM rendszerébe. A regisztrációs kérést pedig néhány percen belül automatikusan megerősítették. A felismerési technológiák bevezetésével egy hívás ideje 30 másodpercről 17 másodpercre csökkent. Így a vállalat csaknem kétszeresére csökkentette a költségeket.

Ha érdeklik a hangfelismerés egyéb módjai, vagy szeretne többet megtudni a hangüzenetekről, kövesse a linket. Az F1Golos oldalon ingyenesen feliratkozhat az első hírlevelére, és saját maga is megtudhatja, hogyan működnek az új felismerési technológiák.

Annak érdekében, hogy felismerni a beszédetés fordítsd le hangról vagy videóról szövegre, vannak programok és bővítmények (pluginok) a böngészőkhöz. Azonban minek mindezt, ha van online szolgáltatás s? A programokat telepíteni kell a számítógépére, ráadásul a legtöbb beszédfelismerő program messze nem ingyenes.


A böngészőbe telepített nagyszámú bővítmény nagymértékben lelassítja a böngésző működését és az internetezés sebességét. És azok a szolgáltatások, amelyekről ma beszélünk, teljesen ingyenesek, és nem igényelnek telepítést - csak menjen be, használja és távozzon!

Ebben a cikkben megvizsgáljuk két online beszéd-szöveg fordítási szolgáltatás. Mindkettő hasonló elven működik: elindítod a felvételt (a szolgáltatás használata közben engedélyezed a böngészőnek a mikrofonhoz való hozzáférést), a mikrofonba beszélsz (diktál), a kimenet pedig a számítógép bármely dokumentumába másolható szöveg.

Speechpad.ru

Orosz nyelvű online beszédfelismerő szolgáltatás. Részletes, orosz nyelvű használati utasítással rendelkezik.

  • 7 nyelv támogatása (orosz, ukrán, angol, német, francia, spanyol, olasz)
  • hang- vagy videofájl letöltése átíráshoz (a YouTube-ról származó videók támogatottak)
  • szinkronfordítás más nyelvre
  • írásjelek és soremelések hangbevitelének támogatása
  • gombpanel (kis- és nagybetűk módosítása, új sor, idézőjelek, zárójelek stb.)
  • elérhetősége személyes fiók rekordelőzményekkel (regisztráció után elérhető)
  • bővítmény elérhetősége a számára Google Chrome szöveg beírásához hanggal a webhelyek szövegmezőjébe (úgynevezett „Hangos szövegbevitel – Speechpad.ru”)

Diktálás.io

A második online beszéd-szöveg fordítási szolgáltatás. Egy külföldi szolgáltatás, amely közben tökéletesen működik az orosz nyelvvel, ami rendkívül meglepő. A beszédfelismerés minősége nem rosszabb, mint a Speechpad, de erről majd később.

A szolgáltatás fő funkciói:

  • 30 nyelv támogatása, köztük magyar, török, arab, kínai, maláj stb.
  • írásjelek, sortörések stb. kiejtésének automatikus felismerése.
  • Integrációs lehetőség bármely weboldal oldalaival
  • egy bővítmény elérhetősége a Google Chrome-hoz („VoiceRecognition”)

A beszédfelismerésben a legfontosabb az fordítás minősége beszéd szöveggé. A kellemes „zsemle” és a lehetőségek nem más, mint jó plusz. Tehát mivel büszkélkedhet mindkét szolgáltatás ebből a szempontból?

Szolgáltatások összehasonlító tesztje

A teszthez két nehezen felismerhető töredéket választunk ki, amelyek a modern beszédben ritkán használt szavakat és beszédfigurákat tartalmaznak. Kezdésként elolvassuk N. Nekrasov „Parasztgyerekek” című versének egy részletét.

Lent látható a beszéd szöveggé fordításának eredménye minden szolgáltatás (a hibák piros színnel vannak jelölve):

Mint látható, mindkét szolgáltatás szinte ugyanazokkal a hibákkal birkózott meg a beszédfelismeréssel. Az eredmény egész jó!

Most a teszthez vegyünk egy részletet a Vörös Hadsereg katonája, Szuhov leveléből ("A sivatag fehér napja" című film):

Remek eredmény!

Amint látja, mindkét szolgáltatás nagyon jól megbirkózik a beszédfelismeréssel – válasszon bármelyiket! Úgy tűnik, hogy még ugyanazt a motort használják – a teszteredmények alapján az általuk elkövetett hibák túlságosan hasonlóak voltak). De ha kell további funkciók mint például egy audio/video fájl feltöltése és szöveggé fordítása (átírás) vagy a beszélt szöveg egyidejű fordítása más nyelvre, akkor a Speechpad lesz a legjobb választás!


Mellesleg, íme, hogyan készítette el Nekrasov versének egy töredékének szinkronfordítását angolra:

Nos, ez egy rövid videó utasítás a Speechpad használatához, amelyet maga a projekt szerzője rögzített:

Barátaim, tetszett? ezt a szolgáltatást? Tudsz jobb analógokat? Ossza meg benyomásait a megjegyzésekben.

Frissítve: 2017. július 31., hétfő

Mi köze a nemhez fantasztikus ötlet számítógépes beszélgetés a professzionális fotózáshoz? Szinte semmi, hacsak nem rajongsz az ember teljes technikai környezetének végtelen fejlesztésének ötletéért. Képzelje el egy pillanatra, hogy hangutasításokat ad a kamerának, hogy változtassa meg a gyújtótávolságot, és végezzen fél stop plusz expozíciókorrekciót. Távirányító a kamera már megvalósult, de ott hangtalanul kell nyomkodni a gombokat, de itt van egy hallókamera!

Hagyománnyá vált, hogy néhány sci-fi filmet említenek az ember és a számítógép közötti hangkommunikáció példájaként, például a Stanley Kubrick által rendezett „2001: Űrodüsszeia” című filmet. Ott fedélzeti számítógép nemcsak értelmes párbeszédet folytat az űrhajósokkal, hanem süketként tud az ajkáról olvasni. Más szóval, a gép megtanulta az emberi beszédet hiba nélkül felismerni. Talán egyesek számára feleslegesnek tűnik a kamera távoli hangvezérlése, de sokaknak tetszik ez a kifejezés – Vigyél le minket, bébi!és kész az egész család fényképe egy pálmafa hátterében.

Nos, tisztelegtem a hagyományok előtt, és megálmodtam egy kicsit. De szívből szólva ezt a cikket nehéz volt megírni, és minden egy ajándékkal kezdődött, Android 4 operációs rendszerrel rendelkező okostelefon formájában. Ez HUAWEI modell Az U8815-nek van egy kicsi érintőképernyő négy hüvelyk és képernyő-billentyűzet. Kicsit szokatlan ráírni, de kiderült, hogy nem különösebben szükséges. (kép01)

1. Hangfelismerés Android operációs rendszert futtató okostelefonon

Egy új játék elsajátítása közben észrevettem grafikus kép mikrofont a keresősávban Googleés a billentyűzeten a Notes alkalmazásban. Korábban nem érdekelt, mit jelent ez a szimbólum. Voltak beszélgetéseim Skype, és beírt betűket a billentyűzeten. A legtöbb internetfelhasználó ezt teszi. De ahogy később elmagyarázták nekem, a keresőben Google került hozzáadásra hangkeresés oroszul, és megjelentek olyan programok, amelyek lehetővé teszik a rövid üzenetek diktálását böngésző használatakor "Króm".

Kimondtam egy három szóból álló kifejezést, a program azonosította őket, és egy kék hátterű cellában megmutatta őket. Volt itt mit csodálkozni, mert minden szót helyesen írtak. Ha erre a cellára kattint, a kifejezés megjelenik az Android jegyzettömb szövegmezőjében. Szóval mondtam még pár mondatot, és SMS-ben küldtem egy üzenetet az asszisztensnek.


2. A hangfelismerő programok rövid története.

Nem volt számomra felfedezés, hogy a hangvezérlés modern fejlődése lehetővé teszi a parancsok kiadását háztartási gépek, autó, robot. A csapat módot a múltban vezették be Windows verziók, OS/2 és Mac OS. Találkoztam már beszélő programokkal, de mi hasznuk? Talán ez a sajátosságom, hogy könnyebben beszélek, mint gépelni a billentyűzeten, de tovább mobiltelefon Egyáltalán nem tudok beírni semmit. Le kell írnia a névjegyeket egy laptopon egy normál billentyűzettel, és továbbítania kell őket USB kábel. De egyszerűen csak beszélni a mikrofonba és a számítógépbe, hogy hibátlanul begépelje a szöveget, egy álmom volt. A kilátástalanság légkörét a fórumokon zajló beszélgetések tartották fenn. Olyan szomorú gondolat volt mindenütt bennük:

„A valóságban azonban a mai napig gyakorlatilag nem léteznek valódi beszédfelismerő programok (és még oroszul is), és nyilvánvalóan nem is fognak hamarosan elkészülni. Sőt, még a felismerés inverz problémája - a beszédszintézis, amely, úgy tűnik, sokkal egyszerűbb, mint a felismerés, még nem oldódott meg teljesen." (ComputerPress No. 12, 2004)

„Még mindig nincsenek normális beszédfelismerő programok (nem csak orosz), mivel a feladat meglehetősen nehéz egy számítógép számára. A legrosszabb pedig az, hogy az ember általi szófelismerés mechanizmusa még nem valósult meg, így nincs miből kiindulni a felismerő programok elkészítésekor.” (Újabb vita a fórumon).

Az angol nyelvű hangszövegbeviteli programok áttekintései ugyanakkor egyértelmű sikereket jeleztek. Például, IBM ViaVoice 98 Executive Edition 64 000 szóból álló alapszókincstel rendelkezett, és képes volt ugyanannyi saját szava hozzáadására. A program képzés nélküli szófelismerésének százalékos aránya körülbelül 80% volt, és egy adott felhasználóval végzett későbbi munka során elérte a 95%-ot.

Az orosz nyelvű felismerő programok közül érdemes megemlíteni a „Gorynych”-t - az angol nyelvű Dragon Dictate 2.5 kiegészítését. A keresésről, majd a „csatáról az öt Gorynych-al” a recenzió második részében fogok mesélni. Az első, amit találtam, az "angol sárkány".

3. Folyamatos beszédfelismerő program „Dragon Naturally Speaking”

A cég programjának modern változata "Árnyalat" egy régi barátommal kötött ki a Minszki Idegennyelvi Intézetből. Visszahozta egy külföldi útjáról, és megvette azt gondolva, hogy „számítógépes titkárnő” lehet. De valami nem sikerült, és a program a laptopon maradt, szinte elfelejtve. Világos tapasztalat hiányában magamnak kellett elmennem a barátomhoz. Mindez a hosszadalmas bevezetés szükséges az általam levont következtetések helyes megértéséhez.

Az első sárkányom teljes neve: . A program angol nyelvű, és kézikönyv nélkül is minden világos benne. Az első lépés egy profil létrehozása konkrét felhasználó hogy meghatározza előadásában a szavak hangzásának sajátosságait. Ezt tettem – a beszélő kora, országa és kiejtési jellemzői fontosak. Választásom a következő: 22-54 éves kor között, brit angol, normál kiejtés. Ezután több ablak következik, ahol beállíthatja a mikrofonját. (kép04)

A komoly beszédfelismerő programok következő szakasza egy adott személy kiejtési jellemzőinek képzése. Kérik, hogy válassza ki a szöveg jellegét: az én választásom az rövid utasításokat diktálással, de lehet humoros történetet is „rendelni”.

A programmal való munka ezen szakaszának lényege rendkívül egyszerű - szöveg jelenik meg az ablakban, felette egy sárga nyíllal. Ha helyesen ejtik ki, a nyíl a kifejezések között mozog, alul pedig az edzés folyamatát jelző sáv található. Nagyjából elfelejtettem a társalgási angolomat, így nehezen haladtam. Az idő is korlátozott volt - a számítógép nem az enyém, és meg kellett szakítanom az edzést. De egy barátja azt mondta, hogy kevesebb mint fél óra alatt elvégezte a tesztet. (kép05)

Nem engedtem, hogy a program módosítsa a kiejtésemet, a főablakba léptem, és elindítottam a beépített szövegszerkesztőt. Küllő egyes szavak néhány szövegből, amelyeket a számítógépen találtam. A program kinyomtatta azokat a szavakat, amelyeket helyesen mondott, és a rosszul mondottakat valami „angol”-ra cserélte. Miután angolul egyértelműen kimondta a „sortörlés” parancsot, a program végrehajtotta azt. Ez azt jelenti, hogy helyesen olvasom a parancsokat, és a program előzetes képzés nélkül felismeri azokat.

De fontos volt számomra, hogy ez a „sárkány” hogyan ír oroszul. Ahogy az előző leírásból megértette, a program betanítása során csak angol szöveget választhat, ott egyszerűen nincs orosz. Nyilvánvaló, hogy az orosz beszédfelismerést nem lehet betanítani. A következő képen láthatja, hogy a program milyen kifejezést írt be az orosz „Hello” szó kiejtésekor. (kép06)

Az első sárkánnyal folytatott beszélgetés eredménye kissé komikusra sikerült. Ha figyelmesen elolvassa a szöveget a hivatalos weboldalon, láthatja ennek az angol „specializációját”. szoftver termék. Ráadásul betöltéskor a program ablakában „angolul” olvasunk. Akkor miért volt szükség erre az egészre? Nyilvánvaló, hogy a fórumok és a pletykák a hibásak...

De vannak hasznos tapasztalatok is. Egy barátom kérte, hogy nézze meg a laptopja állapotát. Valahogy lassan elkezdett dolgozni. Ez nem meglepő – a rendszerpartíciónak csak 5%-a volt szabad hely. Törlés felesleges programokat azt láttam hivatalos verzió több mint 2,3 GB-ot foglalt el. Ez az ábra később hasznos lesz számunkra. (07. kép)



Az orosz beszéd felismerése, mint kiderült, nem triviális feladat volt. Minszkben sikerült megtalálnom a „Gorynych”-t egy barátomtól. A lemezt sokáig kereste régi romjai között, és elmondása szerint ez a hivatalos kiadvány. A program azonnal települt, és megtudtam, hogy a szótárában 5000 orosz szó plusz 100 parancs és 600 angol szó plusz 31 parancs található.

Először be kell állítani a mikrofont, amit meg is tettem. Aztán kinyitottam a szótárat és hozzáadtam a szót "vizsgálat" mert nem volt benne a programszótárban. Próbáltam tisztán és monotonan beszélni. Végül megnyitottam a Gorynych Pro 3.0 programot, bekapcsoltam a diktálási módot, és megkaptam a „közeli hangzású szavak” listáját. (09. kép)

Az eredmény zavarba ejtett, mert egyértelműen eltért egy Android okostelefon működésétől, és úgy döntöttem, hogy kipróbálok más programokat a " Google Chrome online áruház". És későbbre halasztottam a „gorynych kígyókkal” való foglalkozást. Azt hittem, az halasztás cselekvés az eredeti orosz szellemben

5. A Google hangképességei

Hanggal dolgozni rendes számítógép Windows operációs rendszer esetén telepítenie kell egy böngészőt Google Chrome. Ha online dolgozol benne, akkor a jobb alsó sarokban kattintson a bolt linkre szoftver. Ott teljesen ingyen találtam két programot és két bővítményt hangos szövegbevitelhez. A programok ún "Hangjegyzettömb"És "Voicenot – hangból szöveg". Telepítés után a fülön találhatók "Alkalmazások" a böngészőjét "Króm". (10. kép)

A kiterjesztéseket ún "Google Voice Search Hotword (béta) 0.1.0.5"És "Hangos szövegbevitel – Speechpad.ru 5.4". Telepítés után a fülön kikapcsolhatók vagy törölhetők "Bővítmények".(11. kép)

Hangjegyzet. A Chrome böngésző Alkalmazás lapján kattintson duplán a program ikonjára. Megnyílik az alábbi képen látható párbeszédpanel. A mikrofon ikonra kattintva rövid mondatokat mond a mikrofonba. A program továbbítja a szavait a beszédfelismerő szervernek, és beírja a szöveget az ablakba. Az ábrán látható összes szót és kifejezést az első alkalommal gépelték be. Nyilvánvaló, hogy ez a módszer csak akkor működik, ha van aktív internetkapcsolat. (12. kép)

Hangjegyzettömb. Ha elindítja a programot az alkalmazások lapról, megnyílik új lap internetes oldalak Speechpad.ru. Van részletes utasításokat, hogyan kell használni ezt a szolgáltatást és kompakt űrlapot. Ez utóbbi az alábbi ábrán látható. (13. kép)

Hangbemenet A Szöveg lehetővé teszi az internetes oldalak szöveges mezőinek kitöltését hangja segítségével. Például felmentem az oldalamra "Google+". Az új üzenet beviteli mezőjében kattintson a jobb gombbal, és válassza ki "SpeechPad". Befestve rózsaszín a beviteli ablak azt mondja, hogy diktálhatja a szöveget. (14. kép)

Google Hangalapú keresés lehetővé teszi a hangalapú keresést. Amikor telepíti és aktiválja ezt a bővítményt, egy mikrofon szimbólum jelenik meg a keresősávban. Ha megnyomja, egy szimbólum jelenik meg egy nagy piros körben. Csak mondja ki a keresett kifejezést, és az megjelenik a keresési eredmények között. (15. kép)

Fontos megjegyzés: Ahhoz, hogy a mikrofon működjön a Chrome-bővítményekkel, engedélyeznie kell a mikrofonhoz való hozzáférést a böngésző beállításaiban. Alapértelmezés szerint biztonsági okokból le van tiltva. Menj ide Beállítások → Személyes adatok → Tartalombeállítások. (A lista végén lévő összes beállítás eléréséhez kattintson a gombra Megmutat további beállításokat) . Megnyílik egy párbeszédpanel Az oldaltartalom beállításai. Válasszon ki egy elemet a listából Multimédia→mikrofon.

6. Orosz beszédfelismerő programokkal végzett munka eredményei

A hangos szövegbeviteli programok használatában szerzett csekély tapasztalat azt mutatja, hogy egy internetes cég szerverein ez a funkció kiválóan megvalósítható Google. Előzetes képzés nélkül a szavakat a rendszer helyesen ismeri fel. Ez azt jelzi, hogy az orosz beszédfelismerés problémája megoldódott.

Most már elmondhatjuk, hogy a fejlesztések eredménye Googleúj kritérium lesz más gyártók termékeinek értékeléséhez. Szeretném, ha a felismerő rendszer offline módban működne anélkül, hogy hozzáférne a vállalat szervereihez – kényelmesebb és gyorsabb. De mikor adják ki? független program mert az orosz beszéd folyamatos folyamával dolgozik, nem ismert. Érdemes azonban feltételezni, hogy az edzés lehetőségével ez az „alkotás” igazi áttörést jelent majd.

Orosz fejlesztők programjai "Gorynych", "Diktográfus"És "Harc" A második részben részletezem ezt a felülvizsgálatot. Ez a cikk nagyon lassan íródott, mert az eredeti lemezek keresése nehézkes. Jelenleg a „Combat 2.52” kivételével az orosz hang-szövegfelismerő motorok összes verziójával rendelkezem. Egyik barátom vagy kollégám sem rendelkezik ezzel a programmal, és nekem is csak néhány dicsérő vélemény van a fórumokon. Igaz, volt egy ilyen furcsa lehetőség - a „Combat” letöltése SMS-ben, de nem tetszik. (16. kép)


Egy rövid videoklip bemutatja, hogyan működik a beszédfelismerés egy Android operációs rendszert futtató okostelefonon. A hangtárcsázás különlegessége, hogy csatlakozni kell a Google szervereihez. Az internetnek így kell működnie

Amint azt az első fejezetben már megtudtuk, a beszédfelismerő programok ma nagyon aktuálisak és széles körben használatosak a mindennapi életben. A gépi beszédfelismerés két fő problémája - a garantált pontosság elérése korlátozott parancskészlettel legalább egy rögzített hanghoz és az önkényes folyamatos beszéd dikciótól független, elfogadható minőségű felismerése - a fejlődésük hosszú története ellenére még nem megoldott. . Ezenkívül kétségek merülnek fel mindkét probléma megoldásának alapvető lehetőségével kapcsolatban, mivel még az ember sem mindig tudja teljesen felismerni beszélgetőpartnere beszédét. Nézzünk meg néhány terméket ezen a területen a 3. táblázatban.

2. táblázat

Az „ABBYY FlexiCapture” és a „CORRECT. A dokumentumbevitel és -feldolgozás automatizálása"

Program

Lehetőségek

Rendszerkövetelmények

ABBYY FlexiCapture

Automatizálja az információk kinyerését a papíralapú dokumentumokból és tárolja az adatokat információs rendszer vállalkozások

Operációs rendszer: Windows XP SP2, Vista SP2, 7, Server 2003 SP2, Server 2008 SP2 vagy R2 + Desktop Experience. Számítógépes követelmények: PC Intel Core2/2 Quad/Pentium/Celeron/Xeon/Core i5/Core i7, AMD K6/Turion/Athlon/Duron/Sempron családok processzorával, órajel frekvenciája 2 GHz vagy magasabb;

A telepített szoftverrel szemben támasztott követelmények:

Net Framework 2.0 vagy újabb, ha .Net parancsfájlt használ.

További követelmények: Internet kapcsolat az aktiváláshoz sorozatszámát, USB-port a hardver biztonsági kulcsához.

Az árinformáció megrendeléskor érhető el. Megrendelheti a próbaverziót.

HELYES. Dokumentumbevitel és -feldolgozás automatizálása

Megoldás az elsődleges számviteli dokumentáció automatizált feldolgozására az ABBYY FlexiCapture alapú kiszervezés segítségével.

Operációs rendszer: Windows XP SP2, Vista SP2, 7, Server 2003 SP2, Server 2008 SP2 vagy R2 + Desktop Experience. Számítógépes követelmények:

Intel Core2/2 Quad/Pentium/Celeron/Xeon/Core i5/Core i7, AMD K6/Turion/Athlon/Duron/Sempron családok processzorával rendelkező PC, 2 GHz vagy magasabb órajel;

OP: 512 MB processzormagonként, de legalább 1 GB; Lemezterület: 1 GB, ebből 700 MB a telepítéshez; szkenner TWAIN, WIA vagy ISIS támogatással; Internetkapcsolat a sorozatszám aktiválásához, USB-port hardveres biztonsági kulcshoz; videokártya és monitor legalább 1024×768 felbontással; billentyűzet, egér vagy egyéb mutatóeszköz.

Az árinformáció megrendeléskor érhető el.

3. táblázat

Hangbeviteli programok összehasonlító jellemzői

Elérhető:

A program jellemzői

Yandex. Diktálás

iPhone és iPad és Android

  • - Hangos aktiválás. A felvétel elindításához egyszerűen mondja ki, hogy „Yandex, rögzítse”.
  • - Beszédfelismerés. Ön beszél, és az alkalmazás szöveggé alakítja a beszédet.
  • - Hangvezérlés. A szöveget parancsokkal szerkesztheti – például „Az utolsó szó eltávolítása”, „Kezdje ezzel új vonal", "Adjon hozzá egy vicces mosolygó arcot." Yandex. A diktálás nemcsak felismeri a szavakat, hanem megérti a jelentésüket is, így a parancsok listája korlátlan.
  • - Írásjelek elrendezése. Az alkalmazás a beszéd szüneteire összpontosít, és önállóan helyezi el az írásjeleket.
  • - Beszédszintézis

Windows 7 és 8. Megkezdődött az Android alkalmazás fejlesztése

„Töltse le ingyen a RealSpeaker alkalmazást, és bármilyen hosszúságú szöveget beírhat a hangjával szövegszerkesztő(jegyzettömb, MS Word, Skype, VKontakte, Facebook stb.) a tizenegy nyelv bármelyikén” – áll a projekt honlapján. Egy időben rendszerkövetelmények A RealSpeakert meglehetősen demokratikusnak nyilvánítják: egy számítógépet elülső kameraés mikrofon, internet-hozzáférés, Windows 7 vagy 8.

Gorynych 5.0 Dict Light

Operációs rendszer kompatibilitás Microsoft rendszerek Windows Me/2000/XP.

Nagyon egyszerű és felhasználóbarát felület.

Gyors és egyszerű mikrofonbeállítás.

Lehetőség saját szavak hozzáadására a szótárhoz.

Gyakorold a szavakat közvetlenül a diktálás során.

Számos különböző alkalmazásba integrálható, elsősorban a Microsoft Wordbe

Beépített aktív szótár. A parancsok kiválasztása és hozzárendelése során ne feledje, hogy a VOICEETYPE rendelkezik egy olyan üzemmóddal, amelyben a program automatikusan beír mindent, ami nem a rendszerparancs hanganalógjaként van tárolva. Ezért, ha mássalhangzós kifejezéseket használtál, akkor valószínűleg a VOICEETYPE botladozni kezd, ami tönkreteszi az egészet. A VOICETYPE második meglehetősen komoly problémája a beépített öntanuló modul. Ha a program úgy dönt, hogy helyesen felismert egy szót vagy kifejezést, a szöveg megfelelőjének értelmében, de nem értette meg teljesen az Ön egyéni kiejtési finomságait, akkor „megkérheti” a felhasználót, hogy ismételje meg a szót néhányszor, és tökéletesen helyes töredéket ír felül. Rossz kiejtéssel mindent teljesen tönkretehetsz, hiszen a HANGDIKTÁLÁS mindent összezavarhat.

A 3. táblázat adataiból az következik, hogy a hangbeviteli programok nemcsak számítógépeken, hanem okostelefonokon is elterjedtek. Minden meghatározott programokat ebben a táblázatban könnyen hozzáférhetőek és érthetően használhatók. Mindezek a termékek ingyenesen megvásárolhatók.

Minden siker ellenére utóbbi években, a folyamatos beszédfelismerő eszközök még mindig nagyszámú hibát tesznek lehetővé, hosszadalmas beállítást igényelnek, hardver- és felhasználói képzettséget igényelnek, és nem hajlandók zajos helyiségekben dolgozni, bár ez utóbbi mind a zajos irodák, mind mobil rendszerekés telefonos körülmények között történő működés.

A beszédfelismerés azonban, akárcsak a gépi fordítás egyik nyelvről a másikra, az úgynevezett kultuszhoz tartozik számítógépes technológiák, amelyre különös figyelmet fordítanak. Az e technológiák iránti érdeklődést folyamatosan fűti számtalan tudományos-fantasztikus író, ezért elkerülhetetlenek az állandó kísérletek egy olyan termék létrehozására, amely megfelel a jövő technológiáiról alkotott elképzeléseinknek. És még azok a projektek is, amelyek lényegükben semmit sem képviselnek, gyakran igen sikeresek üzletileg, hiszen a fogyasztót élénken érdekli az ilyen megvalósítások lehetősége, függetlenül attól, hogy a gyakorlatban tudja-e azt alkalmazni.



Kapcsolódó kiadványok